显然不是像现在这样用嘴巴说文字转WAV音频