后者只能用High来形容文字转WAV音频