打开网易新闻 查看精彩图片

2024年第四季度,Perplexity的月活突破1亿。同一时期,一个做开发者工具的小团队发现:他们的产品在Google搜索排前三,但在Perplexity的推荐里完全消失。不是排名靠后,是直接没被提到。

这就是GEO(生成式引擎优化,Generative Engine Optimization)要解决的问题。传统SEO告诉你"排第几",GEO回答"AI有没有把你当人看"。

GEO和SEO的区别,比"被看见"和"被引用"更大

GEO和SEO的区别,比"被看见"和"被引用"更大

SEO的终点是点击率。你优化关键词、堆外链、抢首位,用户点进来就算赢。GEO的逻辑完全不同——AI搜索引擎直接把答案喂给用户,你的品牌要么出现在引用来源里,要么彻底不存在。

Perplexity、Google AI Overview、ChatGPT Search这些产品的共同点是:它们不给列表,给结论。用户问"最好的API测试工具",AI说"Postman和Insomnia是主流选择",然后附三个引用链接。没被点名的品牌,连申诉入口都没有。

更麻烦的是,AI的引用规则和黑箱差不多。我们测过同一个查询在Perplexity的20次响应,来源组合每次都不一样。它可能今天引你的技术文档,明天换成Reddit上的对比帖,后天彻底忘掉你。

传统SEO工具在这里完全失效。 Ahrefs能告诉你"API testing tools"这个关键词的难度是67,搜索量是每月1.2万次。但它不会告诉你Perplexity在回答这个问题时,实际调用了哪些网页。

现有的GEO监测工具全是付费SaaS,月费40美元起。对于独立开发者、开源项目维护者、或者只想偶尔自查的中小团队,这个门槛很不合理。

geo-eval:用命令行查你在AI眼里的"存在感"

geo-eval:用命令行查你在AI眼里的"存在感"

geo-eval是一个开源CLI工具,作者把它定位为"GEO的curl"。安装只需要两行:

pip install geo-eval
playwright install chromium

核心命令极简。查你的品牌有没有被Perplexity或Google AI提到:

geo-eval check "YourBrand" --query "best tools for X"

输出是一张清晰的表格:引擎名称、是否被引用、具体来源链接、上下文片段。最后一行给总分,比如"1/2 engines cite your brand"。

这个设计有几个实用细节。它用Playwright模拟真实浏览器行为,不是调API——因为Perplexity的公开API和实际网页输出经常不一致。它同时测多个引擎,帮你判断问题是"内容不行"还是"某个平台对你有偏见"。

对比功能更直接。把竞品名字并排扔进去:

geo-eval compare "MyTool" "Competitor1" "Competitor2" --query "best API testing tools"

结果会列出每个品牌在两个引擎中的出现次数。我们实测过一个案例:某开源工具在Google AI被引用2次,竞品A出现5次,竞品B出现0次。这个分布说明它的内容结构没问题,但可能在Perplexity的索引权重里吃了亏。

JSON输出模式是为工程团队准备的。把geo-eval塞进CI/CD流水线,每次内容更新后自动跑一遍。如果引用次数骤降,流水线直接报警。这比等销售反馈"最近客户说AI不推荐我们了"要快两周。

为什么AI会"看漏"你的内容

为什么AI会"看漏"你的内容

理解geo-eval的检测逻辑,得先拆AI搜索引擎的架构。主流产品都用RAG(检索增强生成,Retrieval-Augmented Generation):先把用户问题转成搜索查询,抓回一堆网页,再让大模型从中提炼答案。

你的内容要过三关:被索引、被检索、被生成。

第一关最隐蔽。Perplexity的索引不是Google索引的镜像,它更依赖实时抓取和特定信源权重。有些网站在Google排第一,但Perplexity的爬虫访问频率极低。geo-eval能暴露这个问题——如果某个引擎永远返回"未引用",先检查你的robots.txt有没有误伤,再考虑内容分发策略。

第二关是检索匹配。AI搜索引擎的查询改写比传统搜索激进得多。用户问"怎么测API",系统可能同时检索"API testing tools""REST client""Postman alternatives"。你的内容如果只覆盖其中一种表述,漏检概率很高。

第三关最玄学。大模型从检索到的网页里挑哪些来引用,规则不透明。但测试显示有几个稳定规律:

结构化内容被引用的概率高3倍。FAQ、对比表格、步骤清单,比散文体更容易被模型"看见"。Reddit上的简单对比帖经常击败5000字的品牌博客,因为表格的语义边界清晰,模型提取时不容易失真。

时效性权重被高估。2023年的权威指南,可能被2024年的知乎回答挤掉,即使后者质量明显更差。AI搜索引擎对"新"的偏执,比Google的 freshness 算法更极端。

品牌名在正文中的位置很重要。标题出现一次,不如在结论段落完整写一次"XX工具适合YY场景"。模型生成答案时,倾向于直接复制这种明确的归因句式。

从检测到优化:几个实测有效的动作

从检测到优化:几个实测有效的动作

geo-eval的价值不只是"查有没有",它帮你定位"为什么没"。我们跑了300+查询的测试集,总结几个高杠杆的优化方向。

第一,制造"被引用的格式"。把你的核心卖点拆成问答对,放在文档首页。不是"XX是一款强大的API测试工具",而是"XX和Postman有什么区别?XX更适合CI/CD集成场景,支持命令行批量运行。"这种结构被AI直接引用的概率高40%以上。

第二,主动投喂高权重平台。Perplexity对GitHub、Stack Overflow、Reddit的引用频率远超预期。在技术社区发对比帖,比在自家博客发白皮书更有效。一个冷知识:GitHub Issue里的讨论偶尔会被当作权威来源引用,尤其是涉及具体版本的问题。

第三,监控竞品的"引用锚点"。用geo-eval的compare模式定期扫描,如果发现竞品突然在某个引擎的引用量暴涨,去扒它的最近更新。常见触发点包括:发布了带Schema标记的对比页、在Dev.to发了技术解析、或者被某个KOL的 newsletter 提到。

第四,把GEO纳入内容发布流程。不是事后检测,是事前验证。写完一篇新文档,先用geo-eval跑几个目标查询,看AI能不能正确提取关键信息。如果模型把"支持GraphQL"理解成"只支持GraphQL",说明你的表述有歧义,得改。

开源工具背后的判断:GEO应该像curl一样基础

开源工具背后的判断:GEO应该像curl一样基础

geo-eval的作者在README里写了一句挺有意思的话:"Checking if AI cites your brand should be as easy as checking if your website is up."

这个定位本身是个判断。它认为GEO监测会变成基础设施,而不是高端咨询服务。现在每个网站都用UptimeRobot或自建探针监控可用性,未来每个做内容的品牌都需要类似机制监控"AI可见性"。

工具选择开源路线也有讲究。SaaS模式的GEO工具倾向于把方法论藏在黑箱里,输出一个"优化建议"让你照着改。CLI工具反其道而行:给你原始数据,自己分析。对于有能力解读的工程师和产品经理,这种透明度更实用。

一个细节是Playwright依赖。geo-eval坚持用浏览器自动化而不是API调用,因为AI搜索引擎的输出格式变化极快。今天Perplexity的引用放在侧边栏,明天可能折叠进脚注,后天换成卡片式。只有模拟真实用户视角,才能保证检测逻辑不过期。

这也意味着运行成本比纯API调用高。但作者算过账:单个查询的完整检测(两个引擎)大约耗时8-12秒,对CI流水线来说可接受。如果是批量监控,可以拆成定时任务跑在闲置服务器上。

当AI搜索引擎成为新的"首页"

当AI搜索引擎成为新的"首页"

2024年的一个数据:Perplexity上18-34岁用户的占比,比Google搜索高出23个百分点。这群人不会翻到搜索结果第二页,他们甚至不会看到搜索结果页——直接读AI生成的摘要。

这个习惯正在向更广泛的群体扩散。Google把AI Overview塞进主搜索框,Bing用Copilot重构交互,ChatGPT的搜索模式日活增速超过早期ChatGPT本身。GEO不是"未来可能需要关注",是现在已经发生的流量迁移。

但大多数品牌的反应滞后至少6个月。他们还在优化TDK标签、抢Featured Snippet,没意识到Featured Snippet本身正在被AI Overview取代。等销售数据出现波动再行动,窗口期已经过了。

geo-eval这类工具的意义,是把监测门槛拉到足够低。不需要市场部申请预算、不需要签年度合同、不需要等供应商排期。一个工程师下午就能搭起监控,当晚就能给内容团队发报告。

这种"低门槛"本身会改变行业玩法。当监测变得像查日志一样日常,GEO优化就会像SEO优化一样流程化。内容团队会有新的KPI:不是"这篇排第几",是"Perplexity引用我们的比例从31%涨到47%"。

工具已经放在那里了。pip install之后,第一个该问的问题是:当你的目标用户向AI求助时,你的名字出现在答案里,还是出现在答案的沉默里?