剩余1%则为其他成分文字转WAV音频