我首先捕捉到并学习文字转WAV音频