起码在找到人之前文字转WAV音频