他们只能提前发现文字转WAV音频