他们在一定意义上来说是同一类人文字转WAV音频