现在只能依据理性判断文字转WAV音频