然后每一个离场文字转WAV音频