其实就是站在镜头前想象自己身处的环境文字转WAV音频