也就是说他们每人至多只需打两场文字转WAV音频