一般来说都是分区域的小规模对抗文字转WAV音频