前两步两个人都分工明确文字转WAV音频