我们还可以勉强接受文字转WAV音频