实则是在一个特殊的空间之内文字转WAV音频