所以我们能够调查到的都是表面的文字转WAV音频