在看清楚那人的模样和位置之后文字转WAV音频