其中每隔境界分为初期文字转WAV音频