推断出来的信息基本就是真相文字转WAV音频