或者就是二者因素皆有文字转WAV音频