
爬虫坏了不用重写Scraper Studio Self-Healing 自愈功能演示写在最前面爬虫维护痛点测试网站和目标字段当前 Collector 输出结构进入 Self-Healing / Refactor Collector 面板输入自然语言 Prompt让 AI 新增字段等待 AI 生成代码 Diff解释产品逻辑Run Preview对比修复前后结果技术测评总结产品特点和适用边界你好这里是 晓雨的笔记本在所有感兴趣的领域扩展知识感谢你的陪伴与支持~ 欢迎添加文末好友不定期掉落福利资讯写在最前面版权声明本文为原创遵循 CC 4.0 BY-SA 协议。转载请注明出处。爬虫坏了不用重写Scraper Studio Self-H爬虫维护痛点大家好这期我们来测一个非常贴近开发者日常的问题爬虫坏了怎么办做过爬虫维护的朋友应该都知道真正麻烦的不是第一次把数据抓下来而是后面网站一改版原来的 CSS Selector 全部失效。比如以前商品标题在 .product-title价格在 .price_color结果页面结构一变字段直接变成 undefined、空字符串或者整条数据都没了。传统做法是重新打开 DevTools重新定位 DOM改 selector改解析逻辑再重新测试、上线。这个过程很重复而且维护成本很高。今天我用 Bright Data 的 Scraper Studio 做一个技术测评重点演示它的 Self-Healing Tool当爬虫字段坏掉或者需要新增字段时我们不用手写 CSS Selector而是直接用自然语言告诉 AI“这个字段抓不到了帮我修复。”看它能不能自动重构 collector 代码。测试网站和目标字段这次我用一个电商的书店页面有商品列表、分页、标题、价格、库存、评分、图片、详情页等字段来演示电商爬虫的流程。这里我的目标 URL 填的是https://books.toscrape.com/最开始我让 Scraper Studio 生成一个基础 collector字段包括title、product_detail_url、category、upc、product_type、tax、number_of_reviews、description。等待一会后就有了初始的模版。当前 Collector 输出结构这里是 Scraper Studio 生成出来的输出 schema。可以看到它现在是一个 Object里面已经定义了一些字段比如title 是字符串price 可以设置成 Price 或 Money 类型availability 是字符串image_url 是 Image 或 URL 类型。这个 schema 很重要因为 Scraper Studio 的 collector 最终不是随便吐一段 HTML而是要产出结构化数据。也就是说最后可以导出 JSON、CSV或者接到后面的数据管道里。进入 Self-Healing / Refactor Collector 面板如果后面产品经理或者数据团队说我们还需要补三个字段price、availability 和 image_url。这在实际爬虫项目里很常见字段需求变了或者网站改版后原字段抓不到了。接下来我进入 Refactor collector也就是 Self-Healing 的入口。这里的说明写得很清楚Edit collector’s code using AI for changing output fields or fixing a broken collector。翻译过来就是可以用 AI 来修改 collector 代码适用于两类场景第一类修改输出字段比如我要新增 price、availability、image_url。第二类修复坏掉的 collector比如字段返回空值或者网站结构变化导致抓不到数据。这里我勾选 Use custom input dataURL 还是填https://books.toscrape.com/这样 AI 在 refactor 的时候就知道要基于这个实际目标页面来修复。输入自然语言 Prompt让 AI 新增字段现在重点来了我不手写 selector直接在输入框里写自然语言需求。我这里输入的是“Add three output fields to the collector: price, availability, and image_url. For each book on Books to Scrape, extract price from the book card, extract availability or stock status from the book card or detail page, and extract image_url as the absolute image URL, not a relative path. Keep the existing scraping logic unchanged. Continue following pagination across all book listing pages. If any field is missing, return null instead of breaking the collector.”这段 prompt 有几个关键点。第一我明确告诉它要新增哪三个字段price、availability、image_url。第二我说明每个字段从哪里来比如 price 从商品卡片抓availability 可以从卡片或详情页抓。第三我特别强调 image_url 要返回绝对 URL不要返回相对路径。第四我要求保持现有逻辑不变继续处理分页。第五如果字段缺失返回 null不要让整个 collector 报错。这其实就是一个比较标准的 Self-Healing Prompt 写法字段名要明确错误现象要明确期望输出要明确容错策略也要明确。等待 AI 生成代码 Diff解释产品逻辑提交之后Scraper Studio 会开始 refactor collector。这里我理解它的核心不是单纯问 AI“帮我写个爬虫。”而是把当前 collector 的代码、输出 schema、目标 URL 和我们的自然语言需求结合起来然后生成一个代码修改建议也就是 diff。这个设计对工程化很重要。因为生产环境里的爬虫通常不是一次性的脚本而是一个长期维护的 collector。我们希望 AI 改的是局部逻辑不要把原来能跑的分页、详情页解析全部推翻重来。等它生成完成后我们会看到一个代码 diff。这个时候不要盲目接受要像 code review 一样看几个点第一有没有真的新增 price、availability、image_url 三个字段。第二image_url 有没有从相对路径转成绝对路径。第三原来的 title、product_detail_url、详情页字段有没有被误删。第四遇到空字段时是不是做了容错而不是直接 throw error。第五分页逻辑有没有保留。如果这些都没问题再点击 Apply 或 Accept。Run Preview对比修复前后结果现在我接受 AI 生成的修改然后跑一次 Preview。大家看输出结果这里每本书的数据里已经多了三个字段price比如 £51.77availability比如 In stockimage_url这里应该是完整图片地址而不是 …/…/media/cache/… 这种相对路径。这一步就是 Self-Healing 的关键价值我们没有打开 DevTools没有手写新的 CSS Selector也没有手动改 parser而是用自然语言描述需求让 AI 自动重构 collector。如果把这个场景换成真实业务就是某电商网站改版后价格字段突然返回 undefined。传统做法可能需要开发者排查 DOM、改代码、发版。而现在可以直接在 Self-Healing 里写“price 字段现在返回 undefined请根据当前 HTML 修复价格解析逻辑并保持输出 schema 不变。”AI 会生成修复建议我们 review diff再预览结果。这个流程比从零重写爬虫轻很多。技术测评总结产品特点和适用边界从技术测评角度看我觉得 Scraper Studio Self-Healing 的核心特点有三个。第一它把爬虫维护从手写 selector 变成自然语言 refactor。这对经常维护爬虫的团队很有价值。第二它不是完全黑盒。AI 会生成代码 diff开发者可以 review、accept、preview再决定是否保存到生产环境。这比直接让 AI 自动上线安全很多。第三它适合字段级修复和 schema 调整。比如 price 抓不到了、title 变成 undefined、想新增 image_url、rating、availability这些都是非常典型的自愈场景。第四Self-Healing 不是简单重新生成一个新爬虫而是在现有 collector 上做 refactor这更符合真实生产环境的维护方式。当然如果目标网站本身有复杂登录、强交互、动态渲染或者字段来自接口而不是 HTML就需要更清楚地告诉它数据来源必要时还要切换 worker 类型或者配合浏览器交互逻辑。4:50-5:10 结尾强化降本增效如果你只是偶尔写一次爬虫可能感觉不到维护成本。但如果你负责的是长期运行的商品监控、价格监控、内容聚合、竞品数据采集那么爬虫真正的成本一定在后期维护。Scraper Studio 的 Self-Healing Tool 解决的正是这个痛点爬虫坏了不一定要重写字段失效也不一定要手动改 selector。你只需要用自然语言说清楚哪个字段坏了、期望抓什么、输出格式是什么AI 就可以帮你重构 collector 代码。开发者负责 review 和验证这样既保留工程可控性又明显降低维护成本。这就是我这期对 Scraper Studio Self-Healing 的技术演示。对于有爬虫维护经验的开发者来说这个功能确实值得重点关注。视频评论区注册体验有额外25美刀欢迎尝试。hello这里是 晓雨的笔记本 。如果你喜欢我的文章欢迎三连给我鼓励和支持点赞 关注 评论我会给大家带来更多有用有趣的文章。原文链接 ⚡️更新更及时。欢迎大家点开下面名片添加好友交流。