花费了近三十分钟才将场面控制下来文字转WAV音频