简单地说就是多层的空间屏障文字转WAV音频