只能够一个个的捕捉文字转WAV音频