核心技术还需要我来构建文字转WAV音频