前面的一部是主力文字转WAV音频