而是单方面的传话文字转WAV音频