然后重组最终变成了一个新的空间层文字转WAV音频