第二个阶段就是五个文字转WAV音频