需要考虑淘汰相当一部分的人文字转WAV音频