而是循着本能就按照他说的去做文字转WAV音频