也许人家表面接受文字转WAV音频