一部分是人为文字转WAV音频