注意力倒是都放在了周围文字转WAV音频