心态放平

世界杯已经开打了,相信在做有很多朋友抄起了手里的大模型,遛一遛是鸭是鹅

下面这个,credits 归属林亦,在同一套提示词、同一套数据源、同一个框架下的尝试...大概就是:赌狗,终将一无所有

多一句的话:哈基米,啥也不是

打开网易新闻 查看精彩图片

前两天,Kimi 自己出了一份 200 页的世界杯分析报告,允许给出「胜或平」「小胜或平」这种判断。在这种场景下,猜对 5/8 场:

打开网易新闻 查看精彩图片

这套系统是林亦他们做的,B 站大 UP,也是认识好久了,这个也是他在 B 站的「AI 创造公开赛」的参赛作品

B站AI创造公开赛

这是 B 站搞的 AI 创造比赛,鼓励全民参与,入围即有奖金,冠军独享百万奖金

打开网易新闻 查看精彩图片

世界杯之前他先拿欧冠练手,猜对了冠军,买了彩票,亏了 100 块。然后,他一鼓作气,做了一气,继续预测世界杯

打开网易新闻 查看精彩图片

https://www.bilibili.com/video/BV1LREe6uEhM

看完视频,我问:你们这个「AI 足彩」不错啊

秒回:不对不对,那叫 AI 预测世界杯智能体

(好的,智能体)

作为前情,林亦的公司,去年搞了场 AI 炒股比赛,而他自己靠「坚定不移的梭哈策略」拿了倒数第二

到了世界杯,他们内部又搞场预测比赛,他决定再信 AI 一次,这种屡败屡战的精神,体彩店老板见了都要给他来首爱的供养

他先拿 Claude、Gemini、GPT、DeepSeek 裸猜了 16 场欧冠,四个模型结果几乎一样:都对了 10 场

为什么呢?只因就会猜强队赢...只因...只因...

加拉塔萨雷爆冷利物浦、博德闪耀打爆葡萄牙体育,一场都没中

打开网易新闻 查看精彩图片

四个模型,一个脑子

赌强队赢谁不会,扔硬币也行

林亦不满意,跟同事说去法国出差,实际躲家里捧着懂球帝和虎扑硬啃了一周

他学习的非常努力,还从好几个 T 的「学习资料」里翻出了珍藏多年的大数据分析技术

(他的学习资料为什么有好几个 T,咱也知不道)

啃完之后搞了一套精密 Agent 系统:4 万场比赛数据,每个球员 45 项指标横向对比,两个教练 Agent 分别排兵布阵,分左右路前中后场逐区域推演,中场休息还给教练一次调整战术的机会

打开网易新闻 查看精彩图片

给每个球员上了数据分析

16 场,猜对了 7 场,略逊于掷硬币

毛病大概有俩:

一是太保守,中国队踢西班牙它也觉得五五开,这套系统比嘉豪更需要看球

一个是 AI 的讨好型人格在多轮推演里越滚越大,上半场随手猜了个球员吃黄牌,下半场就认定这人废了,然后对面恰好是巴萨很强的亚马尔,于是纽卡就从实际的 1:1 被推演成了 1:3 惨败

AI 讨好用户,总能把你稳稳接住

AI 讨好自己上一轮的输出,就属于纯嘴硬了

就在他心灰意冷的时候,电脑右下角弹了个窗

之前顺手搓了个对照组,赐名「足球嘉豪」,不搞分区推演,不整排兵布阵,拿到同样的数据凭「高深的足球直觉」拍脑袋出结果。第一次运行就说:「一切客观数据不过都是表象,比赛的结果从第一脚触球之前就已被我看穿」

打开网易新闻 查看精彩图片

有请嘉豪老师

纯靠拍脑子的嘉豪 16 中 13,大胜专家系统的 7/16

AI 的最佳实践,可能就是别实践

当时晚上 7 点,距离欧冠决赛还有 5 小时。嘉豪断定巴黎 3:1 阿森纳。林亦飞身下楼找到最近的体彩店,人生第一次买了 100 块,大巴黎胜

凌晨三点比赛结束:巴黎赢了

天一亮林亦冲去兑奖,店员告诉他:你买的是 90 分钟胜平负,巴黎是点球赢的,不算

打开网易新闻 查看精彩图片

嘉豪算对了一切,除了中国体彩的规则

打开网易新闻 查看精彩图片

AI 猜球最大的风险是什么?使用 AI 的人

100 块没了。但嘉豪确实猜得大差不差:首发名单巴黎全中,赛前就咬定阿森纳替补右后卫莫斯科拉是「决赛祭品」,结果莫斯科拉还真送了个点球拿了张黄牌

反正吧...

GPT 嘉豪、DeepSeek 嘉豪、Claude 嘉豪,不同模型实时大乱斗

这成绩吧...哎...

打开网易新闻 查看精彩图片

看图就知道,千万别跟着买,毛也不剩,这跟 AI 没关系,图一乐就好

真心提醒:赌狗一无所有

但话说回来,这个「嘉豪」最开始就是玩梗,结果一路做成了 live demo,后来也被拿去参加了 B 站的 「build in bilibili AI创造公开赛

这两年各种 Hackathon 特别多,我也三天两头被拉去当评委,然后吐槽:

  • 1/3 的项目是 AI 算命

  • 1/3 的项目是 AI 疗愈

  • 剩下的 1/3,被做了千万次...什么财务记账、发票识别、格式转换...

最终获奖的呢?emmmm...颇像选秀大赛,主要比故事、比年龄、比情怀...哎...

B 站这个东西则稍有不同,没有哪些标准化的打分表,给按商业性/完整性/技术性/创新性等等乱七八糟的东西在算,就简单粗暴的让 b 站上的列位诸公、诸位百官说了算,投币决定入围,前 10 名有奖金,冠军独享 100 万

一方面,这算是一个中国版的「build in public」

另一方面,也终于有一个 AI 比赛不需要去讨好评委了

参加方法就不展开了,做了个图

打开网易新闻 查看精彩图片