后者是从人到非人文字转WAV音频