自然不会像最开始时那样误会文字转WAV音频