本身似乎相当于一个指引者文字转WAV音频