这样一来倒是陷入了被动文字转WAV音频