凌晨1点刷LinkedIn,一条私信让程序员停下了手指。Data Annotation在招数据标注员,附带了一道隐藏关卡——不是考代码能力,是考你能不能从一份Google Doc里挖出一串坐标密码。

招聘变解谜:坐标里藏着一句话

招聘变解谜:坐标里藏着一句话

流程前半段很正常:填表、答几道伪代码题。真正的门槛藏在最后一步——一份公开发布的Google Doc,里面塞满了x/y坐标和对应字符,拼成一张二维网格指令图。

候选人以为用Python的requests库抓个网页就能搞定,毕竟"公开文档"听起来不设防。结果请求发出去,拿到的HTML要么缺数据,要么结构混乱,坐标和字符对不上号。

Google Doc的渲染机制做了手脚。直接抓返回的是前端骨架,真正的内容藏在JavaScript执行后的DOM里,或者更隐蔽的批量加载接口中。

三种破解路线,有人卡在第一步

三种破解路线,有人卡在第一步

技术论坛里很快出现三种解法派别。

一派死磕requests,试图从初始HTML里正则提取,成功率取决于Google那天有没有改版,属于撞大运型。另一派换用Selenium或Playwright,老老实实等浏览器跑完JS再取DOM,稳但慢,本地还得配环境。

第三派更刁钻:抓包分析Google Doc的实时协作接口,找到那个返回结构化数据的内部端点,直接拿JSON。这招快,但接口格式没文档,哪天Google一改就失效。

最讽刺的是,这道题考的根本不是"会不会写爬虫",而是你有没有耐心先搞清楚目标网站的防御机制,再选工具。

数据标注行业正在"卷"技术门槛

数据标注行业正在"卷"技术门槛

Data Annotation这家公司专门给AI公司供训练数据,业务涵盖图像标注、语音转写、代码对齐。他们招人设这种关卡,侧面说明行业在变——纯体力标注工不够用了,得懂点数据工程,至少能写脚本处理批量任务。

解码后的消息是什么?通过的人没往外说,可能是入职邀请,也可能是下一关的入口。这种设计本身就在筛选:能守住信息的人,才适合接触客户的数据。

凌晨4点,那位程序员终于拿到了坐标映射表。他后来发帖说,最耗时间的不是写代码,是意识到"公开"不等于"直接可见"——这个认知转折花了3小时。

如果你收到这份测试,会选哪种工具起手?抓包派还是浏览器派?