然后在达成共识的基础上文字转WAV音频