可以想象到场嘉宾的分量文字转WAV音频