也就是说每一次出入文字转WAV音频