唯一的难度是文字转WAV音频