还是在进行一次预演文字转WAV音频