里面的能力也需要很长时间的沟通文字转WAV音频