顺着每一次的引导文字转WAV音频