每次都随机挑选一个地方进行训练文字转WAV音频