3点崩的爬虫，5分钟自己修好了：一个让工程师睡整觉的系统|python|schema|工程师|数据源|爬虫|爬行动物|选择器

凌晨3点，你的冲浪预警系统突然哑火。某个海浪数据网站把class名里的"heigth"改成了"height"，你的CSS选择器瞬间失效。用户收不到警报，工程师被Slack吵醒，查日志、找问题、改代码、部署——2小时没了，而实际修复只需要5分钟。

这不是技术债，是摩擦税。一个Python sidecar系统正在消灭这种税：爬虫崩溃时自动唤醒本地大模型，现场诊断HTML，生成新选择器，验证通过直接入库。从报错到自愈，全程无人值守。

为什么选择器失效是"沉默的杀手"

生产级爬虫有个隐藏脆弱性：它的CSS选择器和XPath表达式，是针对第三方网站某一时刻DOM结构的快照写的。对方改版、改名、重构表格——你的选择器要么返回空，要么返回错数据，而你的监控可能根本察觉不到。

冲浪预警系统要盯几十个预报源。一个拼写错误修复（heigth→height），就能让整条管道在凌晨停滞。工程师的修复流程高度仪式化：被叫醒、翻日志、定位选择器、写修复、走部署。核心工作5分钟，上下文切换2小时。

这套系统的作者把问题定性得很准：不是规模问题，是摩擦问题。修复本身是机械劳动——看新HTML、找元素、写选择器。难点在于把这个循环自动化，且保证安全。

自愈流程：从崩溃到修复的90秒

Ruby爬虫提取字段失败时（比如wave_height返回nil），会向Redis队列抛出一个修复任务。Python sidecar——Self-Healer——消费这个任务，抓取当前HTML，裁剪到token预算内，向本地MLX运行的LLM发送定向提示词。

LLM返回带置信分数和推理过程的候选选择器。每个候选都要过两道筛子：先用BeautifulSoup和lxml对实时HTML做确定性验证，再用类型schema校验提取值（比如wave_height必须是0.1-20.0之间的浮点数）。通关的候选直接写入PostgreSQL的data_sources.selector_overrides表，无需重新部署。下一轮爬虫读取更新后的配置，继续运行。

系统设计的核心约束很克制：模型只提建议，代码决定生死。LLM输出被当作"实习生提交的PR"：值得一看，但合并前必须审查。

这很重要，因为LLM错得自信。它可能生成一个看起来合理的XPath，实际匹配了表格的错误列——把表头文字"Wave Height (m)"当成数据提取出来。类型校验会拦截："Wave Height (m)"无法通过float:0.1-20.0，候选被驳回。