据《福布斯》杂志报道,多个消息来源称,AI模型初创公司Hugging Face在接下来的D轮融资中有望筹集至少2亿美元。这家高速发展的AI初创公司是40亿美元估值进行融资的。
Hugging Face被认为是开源替代ChatGPT家族中最具实力的一员,正在改变使用NLP模型的方式。
大模型时代的开源卫士
Hugging face是当前如日中天的AI模型初创企业大军中令人瞩目的一员。Hugging face还是增长最快的开源项目之一,并成为不断壮大的开源替代ChatGPT家族中的一员。
2016年创立的Hugging Face初衷是利用NLP(自然语言处理)技术创建一个面向青少年的AI聊天机器人。这也是为什么Hugging Face以一个表情符号来命名。
随着Hugging Face三个联合创始人Clément Delangue、Julien Chaumond和Thomas Wolf越来越多地将精力倾注在提升聊天机器人的AI性能上,Hugging Face的重心也转向了人工智能。为了训练并提升聊天机器人的NLP能力,在GitHub开源了一个Transformers库。出乎他们预料的是,这个库在机器学习社区迅速流行起来,并成为GitHub史上增长最快的机器学习库。后来,Hugging Face将成为“机器学习的GitHub”作为其发展愿景。
如今,聊天机器人已经成为Hugging Face的历史,它构建了一个类似于GitHub的开源AI天堂。除了Transfomers模型库,Hugging Face以拥有超过12万个模型、3万个数据集和5万个被称为Spaces的演示应用程序的Hub而闻名。所有这些都是开源和公开可用的。
今年4月,Hugging Face发布了免费的HuggingChat,被认为是强大的ChatGPT的平替产品。HuggingChat的开源属性意味着任何人都可以为其开发做出贡献,并使其成为AI社区的宝贵资源和潜在的创新平台。
用户可以通过网络界面测试HuggingChat,并通过Hugging Face的API将其集成到现有的应用程序和服务中。和ChatGPT类似,HuggingChat可以完成的复杂生成任务,包括编写代码、起草电子邮件、创作歌词等。
总而言之,Hugging Face提供了一系列的工具和资源,让研发人员能够轻松地使用基于语言的人工智能,其最大的优势之一是关注协作和社区,让来自世界各地的人们聚在一起贡献和改进可用的模型和资源。这是一个思想共享、问题解决、自然语言处理领域不断发展的地方。
如今,Hugging Face平台正在成为人工智能开发者交流思想的首选地。如果没有Hugging Face,所有那些富有进取心和慷慨的AI开发者们将很难找到彼此。随着人工智能继续重塑软件和生活的方方面面,Hugging Face社区有望变得更加强大。
正因为如此,有人将Hugging Face誉为“开源卫士”。此次融资,Hugging Face的估值已经高达40亿美元,与产业数字化加油站此前报道过的另一个AI初创公司Inflection AI相当(文章链接:https://mp.weixin.qq.com/s/kaV3hI-VDl8eF48eyLEPaA)。
不过一些研究人员曾批评说,开源模型存在缺陷,并可能被恶意利用,比如创建钓鱼邮件、提供虚假信息。针对这个问题,HuggingChat创建了一些过滤器,以防止生成宣传危险或非法活动,以及毒品或歧视性的内容。这些过滤器有助于AI模型尽量避免安全和道德等敏感问题。
改变使用NLP模型的方式
在Hugging Face出现之前,希望推出自己的NLP和LLM项目的小型企业和初创公司根本无法与Google、Facebook和Microsoft等巨头竞争。Hugging Face为他们带来了转机。
Hugging Face正在改变企业使用NLP模型的方式,让每个人都可以访问它们。它构建开源库以支持人工智能和机器学习项目,帮助个人和组织克服构建Transfomers模型带来的巨大成本。
值得一提的是,在Hugging Face出现之前,使用LLM需要大量的计算资源和专业知识。Hugging Face通过提供预训练模型简化了此过程,这些模型可以轻松微调并用于完成特定的任务。Hugging Face让Transfomers模型变得不再遥不可及,并让小公司和初创公司也能训练大语言模型。
采用Hugging Face训练大语言模型,主要包括三个关键步骤:
第一步,型号选择。Hugging Face的模型中心拥有大量预训练模型。用户可以根据需求选择架构和型号。其中,Hugging Face与其他流行的NLP工具无缝集成,进一步扩展了其功能和可用性;transformers库支持PyTorch、TensorFlow和JAX,使用户能够使用他们喜欢的深度学习框架。
第二步,微调。Hugging Face为常见的NLP任务提供了微调脚本和示例。用户可以利用迁移学习在特定的数据集上预训练模型,以更少的数据和计算获取最先进的性能。
第三步,推理和部署。模型经过微调后,可用于对新数据的推理。Hugging Face提供方便的API,方便用户在各种环境中部署模型,包括Web应用程序和云平台。
值得一提的是,创建用于训练大语言模型的数据集是一个耗时且富有挑战的过程。如果数据不是准确、最新的,且与训练目的相关,它将产生虚假答案的幻觉。这就是为什么为生成式 AI抓取数据是使用相关和当前数据自定义和改进大型语言模型的最佳解决方案。
这时,Hugging Face托管的超过3万个可用于训练大语言模型的数据集就将大显身手。这些数据集包含与标签相关的示例;这些标签将提示模型如何解释示例;然后,它开始识别单词、字母和句子结构的模式和频率。LLM训练的时间足够长之后,用户可以使用数据集中未包含的提示对它进行反馈;接下来,模型将根据训练形成的体验生成输出。
坚持开放与合作
尽管当前随着AIGC领域的竞争变得越来越激烈,各个市场参与者之间的关系也变得更加敏感和微妙,但是Hugging Face依旧与各个AI巨头巧妙地进行合作。
2022年5月,Hugging Face宣布与微软Azure云平台达成协议,允许任何人在该平台上运行其模型,并为人工智能工程师提供了一种轻松部署软件的方式,同时也为微软带来了新的收入来源。
今年3月,Hugging Face再次与微软达成合作,将开源模型引入微软的Azure Machine Learning平台。微软公司副总裁、Azure AI平台的John Montgomery当时表示,这一合作将简化部署和扩展大型语言模型的过程;这也是微软加速AI项目并迅速、安全地将创新解决方案带到市场的重要里程碑。
与此同时,Hugging Face也与亚马逊、IBM等巨头达成了类似的合作伙伴关系。除了加快创新步伐以外,这种良好的生态合作有利于Hugging Face进一步提高品牌知名度,并借助伙伴的市场影响力将技术和服务推向更广泛的用户群体。
据悉,从2021年才开始探索商业化的Hugging Face,现在已经拥有5000多家公司客户,其中包括英特尔、微软、辉瑞等。
当ChatGPT一炮打响时,OpenAI,乃至微软,似乎被公认为新一轮科技革命的赢家。但是随着产业、技术的进一步发展,更多市场参与者的加入,谁将是最后的赢家却变得越来越不明确。可以肯定的是,开源AI模型将举足轻重。
事实上,开源AI模型已经越来越受关注。7月14日,另一知名开源AI初创公司Stability AI联合创始人Cyrus Hodes状告该公司首席执行官Emad Mostaque欺骗他以仅100美元的价格出售了这家价值10亿美元的初创公司的股份。这从另一个角度说明开源大语言模型的价值已经凸显。
相比略显混乱的Stability AI,Hugging Face显然更加坚持开源精神,通过平台提供大量高质量的开源模型与工具,将研发成果最大程度地惠及开源社区,极大地降低了人工智能的技术门槛,让AI更加平民化。这可能将进一步提升Hugging Face社区的活跃度和用户贡献度,从而更好地创新、优化产品,发现更多新的应用场景。
这也使得Hugging Face备受资本追捧。今年5月,Huggging Face刚刚完成1亿美元的C轮融资。而在此次D轮融资中,Huggging Face收到了多个融资报价,因此Delangue还在犹豫。有分析认为,Hugging Face可能会寻求筹集更多资金,甚至高达3亿美元。
热门跟贴