基本是在中等偏下的范围内寻找文字转WAV音频