这都是事先划分了片区的文字转WAV音频