这两套方案显然都不太现实……因为前者需要等待的时间未知文字转WAV音频