它们竟是在四人的注视中文字转WAV音频