因为这两个极端是对立的文字转WAV音频