外围的应该是我们的人文字转WAV音频