巴川
CCF TF数据科学SIG主席
竞技世界首席数据科学家
AiDD峰会分论坛出品人
曾就职于中国搜索、搜狐畅游等互联网公司。主要研究领域包括数据挖掘、知识图谱、人工智能、社交网络、风控体系、推荐系统、数据可视化等。中国教育创新校企联盟专家委员会副主任,国家技术标准创新基地(贵州大数据)数字经济专业委员会专家,北航兼职硕导,西安交大研究生院授课专家,多所高校兼职教师及创新创业导师,AiDD等技术峰会演讲嘉宾及出品人。
1974年,图灵奖获得者彼得·诺尔在其著作《计算机方法的简明调研》中首次提出数据科学概念。40年后,风靡全球的神剧《纸牌屋》,开启了网飞“大数据制片”的新世代。随之而来的,是数据驱动为代表的商业理念快速向千行百业渗透。包括当下风光无两的ChatGPT,某种程度上也是基于海量训练数据的“大力出奇迹”。
这些商业壮举背后,站着一个个鲜活的个体。是他们的所思所想,让科幻电影里的场景走进现实。CCF TF数据科学SIG主席巴川,就是先行者中的一员。他曾是脚踩泥土向往自然的学子,在兴趣的引导下踏入了数据科学的殿堂。他说,“当你感觉到趋势已来时,就要有豁出去干一票的勇气。”
(巴川在2024AiDD峰会上海站发表主旨演讲)
抓住时代一粒沙,做人生的弄潮者
人是所有经历的总和。主动拥抱更多样“经历”,就可以从时代中脱颖而出。
兴于20多年前的中国互联网行业,就是最不容错过的大时代。四大门户、BAT、小米、美团、字节跳动...它让一批同行者,实现了不可思议的人生高度。出生于郑州乡村的巴川,也在时代洪流的激荡下,紧紧的抓住了这粒沙。
和很多80后一样,巴川的童年生活始于乡野田间。三五玩伴嬉戏打闹,饿了有菜地瓜田,累了就草垛小憩,这种与大自然建立的亲密感至今仍让他印象深刻。
但在当时,更强烈的冲击来自中国城市化进程的浪潮。老家拆迁、生活向好,各种新鲜事物接连而至。巴川目睹着熟悉的城市日新月异——乡村成为市区,边缘走向中心。
而他的个人特质也愈发鲜明起来。
巴川从小喜欢数学,在升学考试和各类竞赛中他发现自己的确颇有天赋。以至于到了大学时代,他依然跟随自己的热爱,选择了信息与计算科学专业,并在读研期间朝“数据挖掘算法分析方向”更进一步。
互联网的全球普及,来的恰到好处。兴趣与时代的同频共振悄然而至,巴川顺势进入了互联网行业,更直观体会到数据分析带给商业世界的价值所在。很快他发现,大数据行业与数字经济的联系越来越紧密。通过转换思维、深度挖掘,纸面数据可以生成一个个具体的业务模型,在各个细分场景下大放异彩。
巴川说,“数据科学最吸引我的是它严谨客观又富有想象力和艺术美感,是科学和艺术的完美结合。能用数据原料炒出各种美味大餐并跟大家分享,是件非常有成就感的事情。而且它能跟各行各业结合,带你领略不同的人生和经验。”
为此,巴川在工作之余开始尝试跨界。他以数据科学为抓手,在北航、西安交大、人民大学等高校兼职授课,还成为中国国际互联网+大学生创新创业大赛、CCF青年精英大会科技创业秀等大赛的专家评委。
巴川信奉教学相长的人生哲学。
在他看来,教书育人、指引“后浪”不仅能带给自己别样的成就感,更是一个交换经验、沉淀思维深度的平台。巴川的教学相长,与查理·芒格的多元思维模型不谋而合。后者认为,只有主动跨越学科的界限,不断学习陌生学科,才是解决实际问题、打破现有瓶颈的捷径。
“很多在职研究生,都有着数据行业的实操经验。我会鼓励他们进行小组案例共创,这样一堂分享课下来,每个人都能收获大量的行业案例,在有限的时间里翻倍增加行业应用经验。有一些不错的模型思路,还会对我的工作产生灵感和共鸣,我很享受这种获得感。”
如今,巴川已经是不折不扣的斜杆青年,更成为自己人生的弄潮者。他是竞技世界首席数据科学家,在数据挖掘、知识图谱、人工智能、社交网络挖掘、风控体系、推荐系统、数据可视化等领域都有所建树。
在他眼中,似乎没有所谓的“舒适区”,有的只是一次次突破自我,在时代浪潮中翻出自己的那朵浪花。
场景很重要,初心更重要
一种普遍观点认为,数据科学领域非常“高大上”,从业者就像古代谋士一样运筹帷幄,决胜千里之外。从金融投资到战略咨询,从影视制作到智能制造,只要搭上大数据的东风,就能无往不利。
但实际情况并非如此。
知乎就有一个高热度问题,叫做“你为什么离开数据科学行业?”
答主普遍表示,入行前以为数据科学家处于决策链上游,话语权非常强。但做起来才发现,自己的模型总是受到一线业务人员“拷问”。很多资深业务宁可相信自己的经验和直觉,也不愿意相信模型给出的结论,还没测试效果就要灰溜溜的去改模型。
另外就是,因为数据的无处不在,任何相关需求都会被提交给数据科学部门。团队大干一番的热情,很快就会淹没在各种琐碎、低价值的需求列表当中。更大的打击在于,哪怕是一些明确能降本提效的模型,也有可能因为“动了别人的饭碗”而被雪藏。
巴川认为,遇到类似问题时要坚持“价值导向”。在他看来,比起工作成果得到认可,在数据中挖掘价值、发现潜在规律,得到技术思维上的升华同样意义非凡。
“首先要对业务有敬畏之心,不要和业务部门产生对抗心理。毕竟他们离业务更近,遇到一些反经验的模型肯定有所质疑。这个时候先要反思,自己的模型是不是存在局限性。反之,真正好的模型和数据产出一定会派上用场,哪怕在现在的公司没得到体现,也会像滚雪球一样帮你积累价值。”
近几年最有成就感的项目是“风险用户识别与精细化运营”,实际上不只是在互联网上“抓坏人”,更核心的是游戏沉迷用户的识别与防控,在几亿用户中找到几百几千个可能重度沉迷的用户并做好防控,这在技术实现上是非常难的一件事。但是通过技术攻坚,能够防止用户沉沦,在另一个方向上影响用户命运,也是非常有价值感的。当年,这个项目也获得了竞技世界的年度杰出项目奖。
在应对具体工作时,巴川倾向于场景为王。在他看来,一些冷门业务、小场景,反而是数据科学发挥价值的舞台。
以AI自动剪辑功能为例,表面上看,这对于棋牌游戏赛道不是一个核心场景。但在业务运转中,需要一支10人的剪辑小组加班加点,产出竞技世界官号和头部主播所需内容。尤其在赛事密集周期,产能几乎满足不了时效性要求。
于是,巴川与团队尝试通过AI自动剪辑辅助人力。这项工作的难点在于,需要把完整牌局视频拆分成单牌局,同时智能筛选出精彩部分。针对第一个环节,团队结合牌局开始、结束时的人员变化,巧妙运用YOLO算法速度快、识别准的特点,监测行牌过程中的人员数量变化,精准进行分拆。
至于“如何定义精彩片段”这件事,团队经过了多轮思考。最终,以多炸局、反转局、表情变化识别、评论爆发时间点、主持人语速波动、综合评分等多个维度,打造出AI视频内容分析大脑。在这些模型的加持下,剪辑小组的压力大大减少,平台的赛事影响力和宣传时效性得到了大幅优化。
“不用担心数据科学的价值创造问题,要用发展的眼光看问题,找到更多落地场景。”
巴川相信,数据科学的赋能远远未到瓶颈,除了互联网、金融、游戏、文娱、政务等主流方向,很多传统领域都有发挥潜力,尤其是劳动密集型和重复劳动较多的场景。
但在商业之外,他也非常关注数据科学的社会价值创造。对于AI、大模型的前途,他用“天之道,利而不害;圣人之道,为而不争”来类比,呼吁行业人士不忘初心,多做利于他人,利于社会的事。
对于巴川本人来说,他的初心非常简单:“我想用自己热爱的数据科学,为他人命运带去更多正面影响。”
热爱,是最好的指南针
成为大牛,是很多从业者的终极职业目标。但如何才能走通这条路,多数人其实没有系统性思考过。
对此,巴川给出了三条能力特质。
一是出色的技术能力。要有较好的数学功底和编程思维,不一定对某种编程语言特别熟练,但要让自己的思想设计便于工程实现,毕竟AI可能让将来的编程语言变成中文、英文。避免不懂原理照搬开源代码,做搬砖侠。
二是乐于分享。GitHub也好,各种大会也罢,能利用各种平台影响更多的人向好发展,同时多说话,多写字,都能提高自己的影响力。当然,不排除也有一些人全凭自己超强大脑,也能做出非常牛逼的成就,这类人我们应该称之为“大神”。
三是沟通能力。一定的共情能力、产品意识和市场意识,有利于工作展开。还有坚持实事求是,才能让大家达成共识、形成合力,做出更多有意义的工作,而不是更多内耗。
不过相较于这三点,巴川提出了一个更重要的特质。
“你必须先热爱,热爱技术,更热爱生活。”
对巴川来说,热爱生活恰恰是他工作灵感的“活水”。“长期伏案工作,思维会变得僵硬固化,这时我喜欢通过羽毛球、八段锦这样内外兼修的运动唤醒自己。周末闲暇时,我愿意回郊区种地摘果,捞鱼烹饪,彻底放空自己做回农人。时不时回归人类最原始的需求,反而能让我加深‘技术为人’的觉悟。”
从行业大势角度看,巴川认为国内AI行业存在算力、基础设施不足等问题。唯有那些怀揣热爱的技术大牛,才会有毅力投向基础理论研究,通过数据优势产出更高效的算法,甚至不惜为此消耗大量时间成本。
在个人成长层面,“热爱与否”也变得愈发重要。“随着通用大模型的发展,数据行业的一些基础功能都在被机器替代,只有热爱这个行业,愿意挑战更高规格目标的一批人,才能享受到大模型红利。”
包括在业务层面,“热爱”也是遇事不决时的指南针。
巴川分享了一个有意思的案例,他发现近年来很多推荐算法开始被年轻用户抵制。原因在于,用户对算法黑箱产生了恐惧感,认为自己的隐私正在被侵犯。
为了解决类似问题,巴川在公司发起了一些交互创新探索——当算法向用户推荐相关内容、道具时,会增加相关的推荐逻辑,同时向用户开放一些交互权限,鼓励用户和系统互动,同时提高推荐功能的透明度。这类尝试取得了积极反馈,带动平台的用户满意度得到了提升。
“用户需要的是惊喜而不是惊吓,你只有带着热爱去做产品,才能和用户建立同理心,创造出真正的价值。”在巴川眼中,AI与大数据的价值绝不仅在商业范畴。他愿意看到AI与乡村、环保、农业等领域相结合,守护青山绿水,也让更多人像自己那样从自然中获得滋养和美好回忆。
“我相信最终极的AI应该是有温度的,只要AI研发者热爱世界热爱生活,就能创造出有温度的AI,将来也会被我们创造出的AI温柔以待。”
热门跟贴