还描述了一下她说话时的语气文字转WAV音频