正因为他们截然相反的选择文字转WAV音频