然后学着对方的语气和声调文字转WAV音频