这些因素综合起来就可以归结为综合环境文字转WAV音频