他们应该是从外面进来的文字转WAV音频