所以他们要智取文字转WAV音频