最后的结果只能是两种文字转WAV音频