实际上本来就是独立的个体文字转WAV音频