后者是前者的数倍有余文字转WAV音频