他原本的设想是文字转WAV音频