以及人物身处在具体的环境文字转WAV音频