然后延迟时间去抓文字转WAV音频