第一阶段是入文字转WAV音频