因为他看到的场景就是……文字转WAV音频