因为按照正常的逻辑来说文字转WAV音频