温馨提示:本文基于真实背景改编,请理性阅读,与君分享旨在弘扬正义,前事不忘后事之师,前1/2免费阅读。

美国各大顶级公司的AI模型生成式团队孜孜不倦地熬夜奋战,穷其洪荒之力试图破解DeepSeek算法密码之际,深度求索(DeepSeek)公司突然公布了其算法模型的底层逻辑,这让美方始料未及。

对任何一个AI模型而言,底层逻辑和算法密码是其核心技术和竞争力的核心。美方是诧异和疑惑,一度认为这是DeepSeek的“迷踪拳”,释放出来混淆视听的。

但美方技术人员和工程师按照这套公布的逻辑和算法进行匹配后,发现DeepSeek并没有说谎,全部是实打实的数据,但面对对手送出的大礼,美方人员却没有任何兴奋之情,反而陷入了尴尬,面面相觑。

一名技术人员感慨道:“这是先天优势,降维打击啊?”另一个技术人员道:“难怪深度求索(DeepSeek)大模型仅用1/3参数量就能碾压我们的GPT-4”。沉默半晌,一个灵魂拷问的声音响起:“这样的底层逻辑我们还能或还敢跟吗?”

在解释深度求索的底层逻辑之前,不得不先讲一下这些年来硅谷公司出现的一个新职位——产品命名师。

这个职位的由来和一款“可穿戴脑波监测设备”有关。2014年,一家硅谷科技公司的研发团队率先推出这款产品后,在产品命名上一筹莫展,为此他们特意招聘了一些创意人员。最终,在经历了37次头脑风暴后,诞生了这款产品的新名词和一个全新的英语词语“NeuroSync Wearable Cognitive Interfaceicon”。

常人念完这句话需要换气三次,且不知所云,需要看详细的产品介绍方能理解。而不久后,他们远在深圳的中国同行直接在立项会上就拍出"智盔"二字——这是智能头盔的简称。

如今产品命名师在硅谷已成为科技公司的必配岗位,在这个新岗位背后是英语科技词汇量以每年11%的增速膨胀。

现代英语单词的词汇量已经超过百万,普通人一辈子也记不完。OpenAI的工程师曾半自嘲半抱怨地说:“训练GPT-5最耗时的不是算法优化,而是教会AI理解各种新兴词语,为了让AI理解这些词语的意思,工程师不得不进行海量备注。”

这个现象背后的真实原因是英语单词之间没有任何关联性,难以进行简化扩充。英语里面自行车、小轿车、小货车、货车(Bicycles,cars,van,trucks)都是车,却是截然不同的单词;又如公鸡是cock,母鸡是hen,小鸡是chicken,鸡的一家子之间却毫无联系,从单词上也无法看出公母和大小。

在这个信息爆炸的时代,随着科学技术、新型行业的发展和创新,元宇宙、区块链等新概念的提出,各种新材料,新产品、新名词、新叫法层出不穷,英文为了维持这些信息量只能不断地暴力扩充词库,形成英语学习里最难理解和学习的专业英语。

相对而言,汉语基本不必发明新汉字,仅仅依靠原有的汉字组词就可以了。《大英字典》里上百万的英文词汇,中文只需要四千个汉字就能全部表达。例如飞弹(missile),自慰器(Masturbator)等,英语都要产生新词,汉语则无须如此,组词就好了,不就是会飞的巨型子弹,会自己慰藉的小机器吗。

你问英文可不可以组词,当然也可以,但用英语造词组词那就太长了。例如飞弹将成为“Flying-bullet”,自慰器成为“Self-comfort-equipment”等。这些忍耐一下还行,看看新冠疾病的英文缩写,它的英文全称是coronavirus infection disease,这还是第一个单词是新造的,若不是新造的,长度至少再加一倍。

这让世人突然感觉:英语原来这么差劲。然而你可知,曾经在很长一段时间里,中文遭到口诛笔伐,差点被废弃。

20世纪初期,甲午战争,满清惨败,全球瞠目结舌,弹丸之地打败了泱泱大国,全球开始热议一个议题:“中国为什么会落后?”美国著名的学者约翰·杜威和英国的罗素研究后,说:“中国落后的主要原因是人口过多,负担重,抵消了一切的努力和成果”。

中国知识分子在分析了“人机料法环”,抠破脑袋后也得出了一个结论:“中国失败的原因是文盲太多,不利于推广新技术”。这些人沿着这条线继续深挖,最后找出阻碍中国进步的元凶祸首是汉字。文盲多是因为汉字太难学了,有“三多五难”的缺点:“三多”是字数多、笔划多、读音多;“五难”是难认、难读、难记、难写、难用。

这在当时“病急乱投医”的救国浪潮中很快形成共识,包括陈独秀、刘半农、瞿秋白、鲁迅、蔡元培等民国精英都成了废除汉字,改用拉丁字母的坚决拥护者。鲁迅甚至痛心疾首地呼吁:“为了保存汉字,难道要让十分之八的中国人做文盲来殉难”,“汉字不灭,中国必亡”,“到底为了汉字而牺牲我们,还是为我们而牺牲汉字呢?”瞿秋白将汉字比喻为“僵尸”,说:“汉字真正是世界上最龌龊最恶劣最混蛋的中世纪茅坑!”