这时候场景已经换了文字转WAV音频