这个体系能不能够构建成功文字转WAV音频