分出了一部分注意力文字转WAV音频