第一个层次称之为内蕴文字转WAV音频