基本上是吻合的文字转WAV音频