如果返回水面就需要两个多小时文字转WAV音频