毕竟双方从一开始就知道文字转WAV音频