量子位

量子位

网易号

关注
17.5万粉丝
0关注
7.6万被推荐
IP属地:北京

《量子位》官方网易号

2枚勋章

2次获得编辑精选

追踪人工智能动态

  • MeshGPT:一个生成的3d mesh图都是由三角形组成的方法,基于仅解码器的Transformer架构。边缘清晰、保真度高,看起来极度舒适~
    行业密探
  • #StabilityAI发布实时文生图模型# :SDXL Turbo。具体有多快?取决于你的打字速度 ps. 非商业应用的代码权重等已经上线,在线试玩:
    行业密探
  • 【#GPT-4惨遭削弱# #GPT-4变懒遭网友集体吐槽# 】GPT-4再次遭网友“群攻”,原因是太“懒”了!有网友想在Android系统开发一个能够与OpenAI API实时交互的应用。于是把方法示例链接发给GPT-4,让它用Kotlin语言编写代码:没成想,和GPT-4一来二去沟通半天,GPT-4死活给不出一个能正常运行的完整代码。反而解释了一通“应该怎么做”。这让网友着实恼火,发推文吐槽“两周前能写好的代码,现在却不行了”。结果一下子炸出来更多网友:终于有人调查这事儿了。大伙儿连连表示遇到了类似问题:据网友所述,似乎从11月6日GPT-4大更新起,就开始出现这种情况了。目前有OpenAI员工出面回应,表示已将问题反馈给团队。
    行业密探
  • #北大最新多模态大模型开源# #用多模态混合数据集训练大模型# 训完130亿参数通用视觉语言大模型,只需3天!北大和中山大学团队又出招了——在最新研究中,研究团队提出了一种构建统一的图片和视频表征的框架。利用这种框架,可以大大减少VLM(视觉语言大模型)在训练和推理过程中的开销。具体而言,团队按照提出的新框架,训练了一个新的VLM:Chat-UniVi。Chat-UniVi能在混合图片和视频数据的情况下进行训练,并同时处理图片任务和视频理解任务。以此为基础,Chat-UniVi在图片及视频上的17个基准上,都表现得还不错。现在,项目已经在GitHub和抱抱脸上开源。更多关于新方法和Chat-UniVi的详细信息,我们一起进一步来看看~Chat-UniVi是什么?了解基础信息后,我们详细地聊聊Chat-UniVi究竟是什么——简单来说,Chat-UniVi是一个统一的多模态大型语言模型,可以同时理解图像和视频。目前VLM运用的方法,偏图片理解的,往往使用大量视觉tokens来获得更精细的空间分辨率。偏视频理解的方法,则常常选择牺牲每帧的空间分辨率,以输入更多帧来构建更精细的时间理解能力。与它们不同,Chat-UniVi采用动态视觉token来统一表示图像和视频,动态token合并方法是无参数的,不需要额外训练。而动态token的来源,是渐进地聚类视觉token。为了获取这些动态的视觉token,研究人员基于最近邻的密度峰聚类算法,逐步对视觉token进行分组和合并。
    行业密探
  • 【#斯坦福美女博士创业项目爆火# !AI视频生成出道即顶流,半年融资5500万美元】斯坦福华人博士休学搞创业,直接火爆AI圈!新产品瞄准AI视频生成,刚出道就成行业顶流,引来一众大佬围观评价。OpenAI大牛Andrej Karpathy转发,并激情附上长文一段:每个人都能成为多模态梦境的导演,就像《盗梦空间》里的筑梦师一样。就连Stability AI创始人也来点赞。这个新产品名为Pika 1.0,背后公司Pika于今年4月成立。要知道,这一行的产品已有不少,如成立5年的Runway等公司。在AI视频生成“乱花迷人眼”的当下,这个新产品究竟是如何做到迅速破圈,吸引大量关注度的?从放出的Demo效果来看,Pika 1.0不仅能根据文字图片,流畅地生成一段视频,动静转换就在一瞬间;而且可编辑性还特别强,指定视频中的任意元素,一句话就能实现快速“换装”;这样的效果,也使得公司成立仅半年,产品用户已经超过52万人。更是新斩获5500万美元融资,其中个人投资者不乏各种大牛,如Quara创始人Adam D’Angelo、Perplexity的CEO Aravind Srinivas、GitHub前CEO Nat Friedman等等。所以,Pika究竟有没有看起来这么好用?我们也立刻上手体验了一番。斯坦福美女博士创业项目爆火!AI视频生成出道即顶流,半年融资5500万美元
    行业密探
  • 北大最新多模态大模型开源:混合数据集训练,图像视频任务直接用

    15小时前
    1跟贴
    图片
  • 蚂蚁集团研究员、百灵多模态大模型研发负责人杨铭确认参加 #MEET2024智能未来大会# !
    杨铭,西北大学博士,蚂蚁集团研究员,负责多模态认知相关技术研发,包括图像视频识别检索、多模态基础大模型、AIGC可控图像生成、卫星遥感图像识别等;先后就职于NEC美国实验室、Facebook AI Research(FAIR)研究院、地平线机器人公司,世界知名计算机视觉研究专家,在CVPR/ICCV/T-PAM等国际会议和期刊上发表论文近百篇,被引用超过23000次,其中在Facebook工作期间负责的深度学习项目DeepFace在业界产生重大影响,被引用超过7700次。 12月14日,来 #MEET智能未来大会# 一起预见智能科技新未来!
  • #Keras3正式发布# 作者:#欢迎来到多框架机器学习# Keras 3.0正式发布,被誉为改变了机器学习游戏规则:不仅支持TensorFlow、PyTorch、Jax三大框架作为后端,还能在它们之间无缝切换,甚至混合使用。Keras之父François Chollet认为,这样至少可以获得4大好处:1️⃣始终让模型获得最佳性能:JAX通常在GPU、CPU各种PU上都最快,但不使用XLA(加速线性代数)的Tensorflow在GPU上偶尔更快。Keras 3.0能够动态为模型提供最佳性能的后端,而无需更改代码,保证以最高效率运行。2️⃣解锁多个生态系统:任何Keras 3模型都可以作为PyTorch模块实例化,可以导出为TF的SavedModel,或者可以实例化为无状态的 JAX 函数。这意味着可以将Keras 3模型与PyTorch生态的包,TensorFlow中的部署工具或生产工具,以及JAX大规模TPU训练基础设施一起使用,获得机器学习世界所提供的一切。3️⃣在开源社区扩大影响力:如果使用纯TensorFlow或PyTorch实现一个开源模型,都只有大约一半的人能使用。但如果使用Keras 3,任何人无论偏好哪个框架,(即使不是 Keras 用户)都能立刻使用。在不增加开发成本的情况下,使影响力翻倍。4️⃣使用任何来源的数据管道:无论使用哪个后端,Keras 3 都能与tf.data.Dataset对象、PyTorch DataLoader对象、NumPy 数组、Pandas数据框兼容。Keras 3.0正式发布!一统TF/PyTorch/Jax三大后端框架,网友:改变游戏规则这意味着可以在PyTorch DataLoader上训练Keras 3 + TensorFlow模型,或在 tf.data.Dataset上训练Keras 3 + PyTorch模型。
    行业密探
  • 蚂蚁集团研究员、百灵多模态大模型研发负责人杨铭确认参加 #MEET2024智能未来大会# !杨铭,西北大学博士,蚂蚁集团研究员,负责多模态认知相关技术研发,包括图像视频识别检索、多模态基础大模型、AIGC可控图像生成、卫星遥感图像识别等;先后就职于NEC美国实验室、Facebook AI Research(FAIR)研究院、地平线机器人公司,世界知名计算机视觉研究专家,在CVPR/ICCV/T-PAM等国际会议和期刊上发表论文近百篇,被引用超过23000次,其中在Facebook工作期间负责的深度学习项目DeepFace在业界产生重大影响,被引用超过7700次。12月14日,来 #MEET智能未来大会# 一起预见智能科技新未来!
    行业密探
  • 斯坦福美女博士创业项目爆火!AI视频出道即顶流,融资5500万美元

    15小时前
    63跟贴
    图片
  • GPT-4惨遭削弱,偷懒摸鱼绝不多写一行代码,OpenAI已介入调查

    15小时前
    32跟贴
    图片
  • Keras 3.0正式发布!一统TF/PyTorch/Jax三大后端,改变游戏规则

    15小时前
    1跟贴
    图片
  • 法律ChatLaw、金融实战课程来袭!专家教你搭建AI原生应用

    18小时前
    图片
  • #亚马逊云科技和英伟达推出云AI超级计算机# 最强云计算、最快GPU,联手出大招了!就在刚刚,云计算霸主亚马逊云科技和英伟达宣布:推出首款云AI超级计算机,结合了英伟达H200 Grace Hopper超级芯片和亚马逊UltraCluster扩展功能。据悉,该合作项目代号为Project Ceiba,而这个超级计算机是配备了H200 NVL32与Amazon EFA互连技术的大规模系统,将部署在亚马逊云科技之上。它共计搭载了16384颗英伟达H200超级芯片,能够处理65 exaflops速度等级的AI运算。为了这个合作项目,老黄也是亲自来到亚马逊云科技年度盛会re:Invent的现场站台,重视程度可见一斑。与此同时,亚马逊云科技也成为了英伟达H200 Grace Hopper超级芯片的第一个大客户。而之所以两大巨头要这般合作,双方的目标也是非常明确——剑指生成式AI。亚马逊云科技CEO Adam Selipsky在现场表示:“我们与英伟达合作了13年,推出了最广泛的英伟达 GPU解决方案可用于各种工作负载,包括绘图、游戏、HPC高性能计算、机器学习,以及现在的生成式AI。我们将会让亚马逊云科技成为运行GPU的最佳云端环境。”黄仁勋也对生成式AI与云计算发表了他的观点:“生成式AI正改变各种云端负载,为多元内容创作在底层注入加速计算动能。我们共同目标是为每个客户提供具有成本效益、先进生成式AI,为此英伟达与亚马逊云科技在整个计算堆栈展开合作,横跨AI基础设施、加速库、基础模型以及生成式AI服务。”
    行业密探
  • 16000颗H200超级芯片!最强云计算亚马逊云科技和英伟达合体了

    20小时前
    3跟贴
    图片
  • 商汤回应灰熊做空报告,表示其内容并无依据,为拼凑的旧信息,包括大量不实陈述和对公司业务的误读。商汤此前已在不同时间点做过回应。商汤一直严格遵守上市公司相关要求,目前已针对该报告发布公告。
    行业密探
  • 开局一张图,生成4K大片,现在AI都这么强了?

    1天前
    图片
    08:46
  • #AI拍电影# #视频AI已经这么强了?# 比ChatGPT还让人震撼的AI,恐怕是今年突然开始狂飙的视频生成了。仅仅一年时间,这项技术就从“惨不忍睹”到“真假难辨”。视频生成AI为何进步这么快?
    行业密探
  • #大模型时代开发者平台# ,不仅要提供 AI 原生能力,还要具备生态打造和商业化闭环能力。提及“灵境”,人们在脑海中往往会呈现出自己旅行过的风景名胜。然而,当身处在通用大模型“智力涌现”的语境下,对准备在这里探索AI世界的开发者而言,能够提供机遇的“灵境”平台,又会是什么样?这个问题不好回答,毕竟运营一个开发者平台,涉及产品打磨、规则建立、持续运营等多个维度。而一个新时代的开启,势必有着更多不可预测的变量。但在此时,我们同样也看到有些先行者正试图给出自己的答卷。比如,在国内率先推出“文心一言”的百度,在今年9月也快速上线了自己的“灵境矩阵”开发者平台(以下简称“灵境”)。我们了解到,灵境矩阵自9月份发布公测上线以来,整体收到的申请是2.7万左右。其中个人开发者的比例一直呈现上涨的趋势,现在在30%左右。而且灵境矩阵的不同之处还在于,它不仅是一个重在提供开发能力的平台,也为开发者设计了一套流量变现通路,希望让开发者能切切实实地通过平台获得收益。这是一套颇为前沿的探索机制,让人好奇,灵境矩阵的推出和设计,都经历了怎样的思忖和探索?大模型时代,“人人可AI”的百度开发者平台长什么样?
    行业密探
  • 大模型时代,“人人可AI”的百度开发者平台长什么样?

    1天前
    6跟贴
    图片
正在载入...
正在载入...