辨识第二层级或者第三层级的文字文字转WAV音频