并且从位置和其它行人的态度来看文字转WAV音频