这是由双方技能机制所决定的文字转WAV音频