而是从一开始就直接说出自己的条件文字转WAV音频