最早他们六个人说好的是文字转WAV音频