但我们缺少的是捕捉文字转WAV音频