这几乎相当于重新创造文字转WAV音频