所以她们都是站在原地文字转WAV音频