则主要是通过两个人文字转WAV音频