虽然在抽取的过程之中有残留文字转WAV音频