在看不见的状态下各种感官都必须放到最大程度文字转WAV音频