因为这个方式的优点是把不确定性转化成确定性文字转WAV音频