所以组织起来的语言和思路都是文字转WAV音频