两个人就已经可以判断出文字转WAV音频