这只是单纯比较数量文字转WAV音频