实际上就是一个隔断房文字转WAV音频