他们大都呈类人形文字转WAV音频