他们只会接一次文字转WAV音频