所以抽取的时候并没有花费太多时间文字转WAV音频