还是需要从他感兴趣的地方引导文字转WAV音频