而本来就是多种族文字转WAV音频