他们很显然知道接下来要发生什么文字转WAV音频