所以他只能听文字转WAV音频