实际上他们最吃亏的地方就是没有身体文字转WAV音频