然后经历了中期文字转WAV音频