大部分是猜文字转WAV音频