两者有着某种程度上的相似文字转WAV音频