并且按照之前的推断文字转WAV音频