分类: AI机器人

融合人工智能技术,具备感知、思考、决策和执行能力的智能自动化设备,能够模拟人类行为,完成各种复杂任务,广泛应用于工业、服务、医疗等领域。

  • 机器人8小时速成物流分拣员!Figure-02大规模上岗只用30天

    机器人8小时速成物流分拣员!Figure-02大规模上岗只用30天

    好家伙!

    机器人已入厂打工分拣快递,手法娴熟和人类一模一样。

    前几天,Figure推出了端到端通用控制模型——Helix,能让机器人像人一样感知、理解和行动。

    现在,是时候检验最新成果了。

    视频中,一批Figure 02走上生产一线,秩序井然地分拣快递,还能正确调整条形码位置以供机器扫描……

    最重要的是,按照官方说法,此次场景微调只用了30天。而作为对比,第一个客户案例用了12个月之久。

    端到端学习方法让Figure的机器人能够快速学习新任务!

    图片

    面对如此进化速度,网友们直呼:我们完啦!

    图片

    背后关键:改进了Helix系统1

    除了视频,针对本次实验的高速、小包装物流场景,Figure还公开了Helix进展的最新报告

    图片

    在和OpenAI断交之后,就在上周五,Figure公布了首个成果Helix

    作为一个端到端通用控制模型,只需自然语言提示,机器人就能拿起任何东西,哪怕是从没见过的东西(比如这个活泼的小仙人掌)。

    图片

    更有意思的是,两个机器人也可以共同协作,而且用的是同一组神经网络

    图片

    根据当时的介绍,Helix主要由两个系统组成,两个系统经过端到端训练,并且可以进行通信。

    • 系统1:80M参数的交叉注意力Transformer,用于处理底层控制
    • 系统2:基于在互联网规模数据上预训练的7B开源VLM,用于场景理解和语言理解。

    图片

    而这一次,Figure在物流场景重点对系统1(底层控制)进行了一系列改进

    1、隐式立体视觉(Implicit stereo vision):增强了3D空间感知,使机器人动作更精准;

    2、多尺度视觉表示(Multi-scale visual representation):结合细节和整体场景理解,提高操作精度;

    3、学习视觉本体感知(Learned visual proprioceptio):每个Figure机器人现在都可以自我校准,简化跨机器人技能迁移;

    4、运动模式(Sport mode):使用简单的test-time加速技术,同时保持高成功率和更快的执行速度。

    最重要的是,Figure针对该特定场景,进一步探讨了数据质量和数量之间的权衡关系,并初步发现:

    仅用8小时精心挑选的数据就能训练出一个灵活且适应性强的策略

    下面具体展开。

    在物流场景下,关键环节包括包装处理和分类,主要是需要将包裹在传送带上转移并确保标签正确扫描。

    听起来是不是很简单,但如果要让机器人取代人类来完成这项工作,面临的挑战在于:

    包裹的尺寸、形状、重量等各异,机器人不仅要能拿起来,而且需要确定最佳抓取和转移时间,甚至放错了之后还能立马纠正。

    为了实现上述目标,Figure首先改进了Helix系统1的视觉能力

    新一代系统1通过采用立体视觉骨干网络和多尺度特征提取网络来增强其空间理解能力。

    简单说,系统不再独立处理来自每个摄像头的图像特征,而是首先在多尺度立体网络中合并两个摄像头的特征,然后再进行标记化(Tokenize)处理。

    这样做的好处是,保持了输入到交叉注意力transformer的视觉tokens总数不变,避免了计算开销。

    同时,多尺度特征提取网络能够同时捕捉到细节和更广泛的上下文信息,这有助于提高操作的准确性和可靠性。

    图片

    此外,为了解决在多个机器人上部署统一策略时遇到的挑战,以及如何通过在线自我校准来实现跨机器人策略迁移。

    例如由于机器人硬件差异导致的观察和动作空间的分布偏移,传统的手动校准方法不适用于大规模机器人群体。

    Figure训练了一个视觉自体感觉模型(visual proprioception model),这个模型可以让每个机器人通过自身的视觉输入来自我校准,估算出机械臂末端(即抓取物体的部分)的精确位置和姿态。

    并且这种自我校准是在线进行的,也就是说机器人可以在工作的同时进行校准,这样就能最大程度地减少因校准而需要停止工作的时间

    图片

    顺便一提,训练过程中,Figure排除了那些较慢的、遗漏的或失败的案例,不过特意保留了包含纠正行为的案例(非遥控操作员导致,自然产生)。

    最后,为了达到并超过人类的操作速度,Figure采用了一种被称为“运动模式”的test-time加速技术。

    具体来说,他们让系统1以每秒200次的频率输出一系列动作,这些动作被称为动作“块”(action “chunks”)。

    然后采用了一种插值方法来加速这些动作块的执行。插值是一种数学方法,可以在原有数据点之间生成新的数据点。在这里,他们将原本的动作块(比如代表T毫秒的动作)通过插值缩短为0.8T毫秒的动作块,但是仍然以每秒200次的频率执行这些缩短后的动作块。

    这种方法不需要改变机器人的训练过程,只是在test-time对动作执行进行加速。通过这种方法,Figure机器人能够在实际测试中实现高达20%的速度提升。

    图片

    Figure创始人:未来四年交付10万台

    总之,技术升级让Figure走进工厂的速度更快了。

    官方提到的第1个客户,应该是指去年8月发布的Figure 02进宝马工厂从事汽车装配的事儿。

    图片

    当时宝马工厂花了12个月才给机器人安排好合适的工作,而这一次,机器人正式上岗物流仅用了30天时间。

    也难怪Figure创始人有底气宣布,未来四年要交付10万台人形机器人

    图片

    另一方面,随着国内外各家机器人纷纷“进厂打工”,大家逐渐达成了一个共识:

    2025是机器人量产关键之年

    从各家demo来看,人形机器人的技术已基本成熟,因此接下来的争夺主要围绕量产展开,而且要往实际生产场景走了。

    比如在一家上海机器人工厂内,大批“未来工人”正在生产ing。

    图片

    嗯,都卷起来吧!

    参考链接:
    [1]https://x.com/Figure_robot/status/1894781226676064459
    [2]https://www.reddit.com/r/singularity/comments/1iymrxs/shanghai_robot_factory_where_humanoid_robots_are/

    来源:微信公众号“量子位”

  • 人形伴侣机器人:科技浪潮下的情感新宠

    人形伴侣机器人:科技浪潮下的情感新宠

    在科技飞速发展的当下,人形伴侣机器人赛道正呈现出前所未有的火爆态势,宛如一颗璀璨的新星在资本市场与科技领域冉冉升起。从资本市场的反应来看,其热度堪称“疯狂”。

    近期,只要与“人形伴侣机器人”沾边的股票,仿佛被注入了一剂“强心针”,一路飙升。2月20日,A股市场上伴侣机器人概念股集体异动,双飞股份、长盛轴承等标的盘中强势涨停。不仅仅是这些直接相关的股票,一些看似与机器人关联不大的企业,也因为被贴上了“人形机器人”的标签而股价大涨。

    需求井喷:背后的市场力量

    人形伴侣机器人赛道的火爆并非偶然,其背后有着深刻的市场需求驱动因素。

    中国单身人口超2.4亿,这一庞大的群体正面临着情感陪伴缺失的困境。快节奏的现代生活,让人们的社交圈子变得越来越窄,找到合适的伴侣愈发困难,工作的忙碌使得人们无暇顾及社交,很多人每天在公司、家两点一线之间奔波,根本没有机会结识新的朋友。在这样的情况下,单身人士对情感陪伴的渴望愈发强烈。

    与此同时,人口老龄化的加剧也使得情感陪伴需求进一步增长。随着老年人口的增多,子女因工作等原因无法时刻陪伴在老人身边,许多老人只能独自面对生活。据统计,我国空巢老人占比已经超过半数,部分地区甚至超过70%。在这样的背景下,人形伴侣机器人的出现,无疑为这些渴望陪伴的人群提供了新的选择。

    市场数据也充分证明了人形伴侣机器人的广阔前景。预计到2031年,全球伴侣机器人市场规模将突破3亿美元,这一数据还仅仅是保守估计,随着技术的不断进步和市场的进一步开发,实际规模可能会远超预期。

    在国内,上海作为人工智能产业的重要基地,已建成首座人形机器人量产工厂,2024年已下线1000台人形机器人,预计2025年产能将达到数千台,这标志着人形伴侣机器人正逐步从实验室走向市场,走进人们的生活。

    技术飞跃:创新的核心引擎

    人形伴侣机器人之所以能在市场上掀起如此巨大的波澜,技术的飞跃无疑是其核心推动力。近年来,人工智能、材料科学、传感器技术等领域的迅猛发展,为人形伴侣机器人的功能革新提供了源源不断的动力。

    在人工智能领域,以DeepSeek大模型为代表的先进技术,为人形伴侣机器人赋予了强大的智能“大脑”。这些大模型具备自然语言处理、情感识别、深度学习等多种能力,使得机器人能够与用户进行流畅、自然的对话。它不仅能理解用户话语的字面意思,还能捕捉到其中蕴含的情感色彩,并给予恰当的回应。

    同时,借助深度学习能力,机器人可以不断学习用户的语言习惯、兴趣爱好、生活规律等,从而提供更加个性化的服务。随着时间的推移,它会了解用户喜欢的电影类型,在用户闲暇时主动推荐相关影片;知晓用户的饮食习惯,为用户制定健康的饮食计划。

    而材料科学的进步也为人形伴侣机器人带来了质的变化。新型材料的出现,使得机器人的外观更加逼真,触感更加接近人类。在机器人的关节和骨骼部分,采用了高强度、轻量化的材料。这些材料不仅提高了机器人的机械强度和耐用性,还降低了其重量,使其动作更加灵活、自然。

    传感器技术的发展则让人形伴侣机器人,对周围环境和用户状态有了更敏锐的感知。通过摄像头、麦克风、压力传感器、温度传感器等多种传感器的协同工作,机器人可以实时获取周围环境的信息,识别用户的身份、表情、动作等,从而做出更加准确的反应。

    资本狂欢:热钱涌入的盛宴

    人形伴侣机器人赛道的火爆,在资本市场上掀起了一场热钱涌入的狂欢盛宴。众多投资机构纷纷将目光聚焦于此,不惜重金押注,生怕错过这一具有巨大潜力的投资风口。

    在这场资本盛宴中,一些知名投资机构的身影格外引人注目。红杉资本作为全球顶尖的投资机构之一,对人形伴侣机器人赛道表现出了浓厚的兴趣。他们通过深入的市场调研和专业的技术评估,认为人形伴侣机器人在未来的市场中具有广阔的发展空间,因此果断出手,对多家相关企业进行了投资。

    软银集团也是人形伴侣机器人赛道的重要投资者之一。软银在科技投资领域一直有着敏锐的洞察力和大胆的投资策略,他们看中了人形伴侣机器人在人工智能和机器人技术融合方面的创新潜力。软银的投资不仅为人形伴侣机器人企业带来了巨额资金,还通过其全球布局的资源网络,为人形伴侣机器人的推广和应用开辟了新的渠道。

    除了专业投资机构,一些科技巨头也纷纷通过战略投资的方式入局人形伴侣机器人赛道。谷歌母公司Alphabet旗下的投资部门,对一家专注于人形伴侣机器人研发的初创企业进行了战略投资。这一投资举动不仅彰显了谷歌对人形伴侣机器人未来发展的信心,也为人形伴侣机器人技术的发展注入了强大的技术力量。

    这种资本的狂欢也引发了市场的一些担忧,部分企业虽然被贴上了人形机器人的标签,但其实际业务与人形机器人的实质性关联并不强,股价的上涨缺乏坚实的业绩支撑。一些企业仅仅因为名称或业务中存在一些与机器人相关的元素,就被市场炒作,其股价的大幅波动可能会给投资者带来较大的风险。一旦市场热情消退,很可能面临大幅回调的风险。

    隐忧浮现:非理性繁荣的背后

    在人形伴侣机器人赛道一片火热的表象之下,隐忧正悄然浮现,非理性繁荣的背后,潜藏着诸多问题,犹如平静湖面下涌动的暗流,随时可能对这一新兴产业的健康发展构成威胁。

    概念炒作的乱象,是当前人形伴侣机器人赛道面临的首要问题。在资本市场的狂热追捧下,许多企业被贴上了人形机器人的标签,但其实际业务与人形机器人的关联性却微乎其微。

    技术落地的挑战,也是人形伴侣机器人发展道路上的一大阻碍。尽管目前人形伴侣机器人在技术上取得了一定的突破,但距离大规模商业化应用仍有很长的路要走。从核心零部件的性能来看,国内厂商在材料强度、摩擦系数等关键指标上与国际先进水平仍存在较大差距。在仿生皮肤、触觉传感器等关键部件的研发上,目前也大多处于实验室阶段,距离大规模量产和实际应用还有诸多技术难题需要攻克。

    在实际应用场景中,人形伴侣机器人也面临着诸多挑战。在家庭服务场景中,机器人的隐私保护问题成为用户关注的焦点。机器人在与用户交互过程中,会收集大量的用户数据,包括个人隐私信息、情感数据等,一旦这些数据泄露,将对用户的权益造成严重损害。

    伦理道德的争议,同样不容忽视。随着人形伴侣机器人情感交互功能的不断增强,人机之间的情感界限逐渐模糊。如果被不当使用,可能会引发隐私泄露风险,给用户带来潜在的伤害。

    虽然人形伴侣机器人赛道虽然充满了挑战,但也蕴含着巨大的机遇。只要能够解决好伦理道德、隐私安全、成本等问题,不断推动技术创新和应用场景拓展,人形伴侣机器人必将在未来的社会生活中发挥重要作用,为人们的生活带来更多的便利和美好 。

    来源:微信公众号 “韭菜财经APP”

  • 王兴兴:宇树科技创始人,9岁造机器人,座谈会上唯一的90后,从大疆辞职创业,34岁获10亿元融资

    王兴兴:宇树科技创始人,9岁造机器人,座谈会上唯一的90后,从大疆辞职创业,34岁获10亿元融资

    什么?机器人现在都能扭秧歌,转手绢了?

    在2025年央视春晚的舞台上,一个名为《秧BOT》的创新节目一举成为全场焦点。借助高精度3D激光SLAM自主定位与导航、多智能体协同规划、先进组网方案等前沿技术,16台机器人在舞台上精准律动,自主跳舞,挥舞手绢,为观众带来了前所未有的科技盛宴。这些惊艳亮相的机器人,正是来自宇树科技的人形机器人 Unitree H1。据报道,其舞蹈动作基于强化学习算法生成,16台机器人能时调整队形,即使环境不断变化,仍能保持动作同步误差小于0.1秒。

    图片来源:《秧BOT》节目截图

    早在2021年春晚,宇树科技便携四足机器人“犇犇”登台,以高性能机器人集群舞蹈震撼全场。宇树科技如今稳居机器人行业的霸主地位,2023年全球四足机器人市场中,宇树科技的销量份额高达70%,市场规模份额达到41%,展现出强大的行业统治力。

    2025年2月17日,民营企业家座谈会在北京隆重召开,宇树科技创始人王兴兴作为六位企业家代表之一发表演讲。而与他同台发言的,正是华为任正非、比亚迪王传福、小米雷军等业界巨擘。能与这些商业巨头并肩而立,足以证明宇树科技在行业中的分量。

    令人惊叹的是,这位2016年才创业的年轻企业家,如何在短短不到十年的时间里,从一个初创公司迅速崛起,跻身全球机器人行业的领军者?他又是如何一步步奠定宇树科技的行业霸主地位?

    图片来源:风闻

    偏科严重的小发明

    1990年,王兴兴出生于浙江宁波余姚的一个普通家庭,自幼展现出对科技和手工制作的浓厚兴趣。从雕塑、绘画到电子电路,他都乐在其中。小学时,他亲手制作了一款风力小车,这是他人生中的第一个小发明。此后,他不断探索,从改装四驱赛车的直流电机,到利用铁皮、漆包线和磁铁手工制作直流电机,他总是乐此不疲。

    然而,他在英语学习上却屡屡受挫。尽管他从小学二三年级就主动学习英语,但记忆单词成为他最大的难题。严重的偏科导致他学业受阻,高中入学,不仅学校普通,成绩排名还全校倒数。不过,随着数理化课程比重的增加,他逐渐找回信心,第一学期便跃居前列,但英语依然是难以逾越的障碍,整个高中仅有三次勉强及格。

    2009年,王兴兴考入浙江理工大学机械与自动控制学院机电专业,尽管学历在行业内算不上顶尖,但这段求学经历成为他正式踏入机器人研究领域的起点。大学伊始,他便开始思考未来,并迅速投身于各种手工制作,探索自己的兴趣与发展方向。

    2009年冬天,王兴兴第一次接触单片机(MCU,Microcontroller Unit),并用自己的零花钱购买了一块几十元的Arduino开发板。到了大一寒假,他又购入了十多个9g舵机,开始研究制作机器人。或许是因为从小就习惯于凭借简陋的工具纯手工制作各种小发明,王兴兴手工制图,靠着手动钻头和一些边角料,硬是成功制作出一个14自由度的双足人形机器人。他曾自嘲自己“超级抠门”,仅用200元的成本就可以把机器人做出来。这背后,其实是王兴兴不同于一般人的天赋和毅力。

    图片来源:观察网

    这个机器人至今还在王兴兴的办公室里,是他发明的第一个人形机器人,颇具纪念意义。但在当时,这个机器人“步履蹒跚”,实在没有什么性能可言。事实上,这也是彼时全世界技术局限的缩影。王兴兴曾说:“当时看了一下全世界的技术水平,会发现以当时的人类科技水平,很难驾驭高复杂度的人形机器人。没有什么商业价值,只能做玩具,或者是科研、实验室场景,商业化非常难。”

    对人形机器人的探究暂且搁置,到了大一下学期,王兴兴开始接触神经网络和人工智能相关领域。此外,王兴兴在大学期间还积极参与科研项目,主动寻找不同的实验室,向老师展示自己的成果。在这一过程中,他逐渐意识到自己的专业深度仍然不足,因此萌生了攻读研究生的想法,以进一步拓展自己的学术视野和技术能力。

    2013年,王兴兴从浙江理工大学毕业,他的毕业论文是《一种BLDC控制器的研制》。毕业后入读上海大学机电工程与自动化学院机械工程专业硕士研究生。

    其实,他最初的目标是浙江大学,但英语成绩再次成为阻碍。尽管总分合格,却因英语未达标,最终调剂至上海大学。在上海大学就读期间,王兴兴研发出了XDog——全球首款采用外转子无刷电机驱动的小型高性能低成本四足机器人。XDog不仅开创了低成本、高性能四足机器人方案的先河,为他日后在行业内的发展铺下基石。

    四足机器人爆火 实习生意外创业

    读研究生开始,王兴兴就对小型的纯电力驱动的四足机器人产生了极大的兴趣。

    起初,王兴兴所在的实验室正尝试做一款比较大的液压机器人。液压驱动是彼时业界的主流,如美国机器人先驱公司波士顿动力就采取液压驱动,力量虽大但成本很高。相比之下,王兴兴的想法非常超前,他认为“整个(液压机器人)工程量非常大,很难做。但是电驱动这个方向,整个电控系统、机械结构、包括控制算法,在全世界做的还不够优,有很多方案可以把它做的更好”。于是,王兴兴在完成了电控系统、机械结构、控制算法的自主研发后,拿出了XDog的方案,经过验证,效果很好。

    图片来源:智源社区

    转眼就要毕业。为了能够将剩下的一半机器人项目完成,本应在2015年中下旬毕业的王兴兴主动申请了延期毕业,又花了半年多的时间,最终完成项目。而这个研发投入只有大约2万人民币的机器人,却给他带来了一系列意想不到的丰厚收获。

    XDog 图片来源:智源社区

    申请延毕后,王兴兴机缘巧合的参加了国际智能“星创师”大赛。因为其他同学都已经毕业,他只能带着XDog机器人独自参赛。相比于其他的参赛团队的热闹,王兴兴显得有些形单影只。但最终,他顺利通过了五六次比赛答辩,并获得二等奖,赚到了8万元。

    2015年,他还公开了机器狗电驱动方案。这比波士顿公司2016年公布电驱动早了一年时间,这个技术方案也是后续很多机器狗公司沿用的方案。

    2016年6月,王兴兴从上海大学毕业。他的硕士毕业论文课题就是《新型电驱式四足机器人研制与测试》。

    王兴兴也曾找过几个投资人。但当时的市场还不够成熟,投资人兴趣不高。虽然王兴兴的创业梦想暂时搁置,但XDog的履历,依然让他顺利拿到大疆的offer。可试用期还没结束,他的创业启动金就悄然来临。

    起初,王兴兴只是把XDog的测试视频上传到优酷平台,没想到被IEEE Spectrum转载到海外网站之后直接爆火。在国内外媒体轮番报道之后,买家和投资人接踵而至。王兴兴认为,这至少可以证明“社会上已经达成了一定的共识,大家愿意接受这个产品,整个的基本盘已经有了”,于是王兴兴拿着200万元的天使投资,果断辞职创业。

    建立宇树科技 掌管全球四足机器人市场

    2016年8月,王兴兴在浙江杭州成立杭州宇树科技有限公司(Unitree Robotics)。据悉,王兴兴曾想把公司取名为“科技树”,希望能帮助人类点亮“科技树”。但是这个名字没能通过工商注册,于是改名为“宇树”。

    宇树科技在创立初期便经历了严峻的考验。起初,公司只有三个人,都是技术工种。基于XDog的技术,王兴兴带领团队精益求精,在经过一年多的反复探索,于2017年10月,正式发布第一款机器狗——莱卡狗(Laikago),以此纪念被前苏联送上太空的那只狗狗Laika。

    产品做出来了,可是钱也花光了。2017年到2018年,公司的第一笔融资款耗尽。为了维持运营,王兴兴主动停发自己的工资来填补缺口,“创业是创业,不能亏待所有人,也不要太亏待自己,因为这是底线”。直到2018年初,王兴兴拿到极客公园变量资本的投资,才解了燃眉之急。

    图片来源:极客公园

    此外,虽然早在2017年宇树科技就开始产品预售,但真正交付给客户却花了一年多的时间。王兴兴深知,做DEMO工程机或许两个月就能完成,但要打造真正满足客户需求的产品,至少需要一年。他曾自豪地表示,直到2022年,仍有客户在使用公司的初代产品,这也证明了其长期稳定的产品质量。

    值得一提的是,2018年MIT开源了自己的机器狗方案,这在国内掀起了一股机器狗研发热潮。让王兴兴惊讶的是,MIT的电机方案与他在2016年公布的方案几乎完全一致,电控方案也高度相似。不仅如此,在软件方面,两者也有着惊人的相似之处。不仅关节电机的命名方式相同,通讯协议甚至是王兴兴版本的子集。而实际上,他的方案早在2013年就已经完成。王兴兴推测,可能是在自己公布低成本机器人方案后,MIT参考并加以改进,最终将其开源。他的研究进度,比MIT足足早了五年。

    自2018年底正式向客户发货后,宇树科技的资金流开始步入正轨。王兴兴曾透露,公司在2018年实现了数百万收入,而随后的2019至2020年,发展势头愈发迅猛,业务拓展更加顺畅。

    如果回顾宇树科技近6年的成长轨迹,不难发现,从行业功能性应用,到教育科研,再到工业和消费市场,王兴兴对整个产业的布局远比外界想象得更加全面。

    2019年,宇树科技发布了四足机器人 AlienGo,专注于行业功能性应用。AlienGo凭借全球最大尺寸和重量级别的后空翻能力,成为当时行业内的一大技术突破。这一年,宇树科技成功售出数百台四足机器人,产品市场认可度不断提升。同年12月,宇树科技获得红杉资本中国基金和德迅投资的Pre-A轮融资。

    2020年,宇树科技又发布教育版四足机器人A1,不仅体积更小,售价更低——不到十万人民币。当年10月,宇树科技的四足机器人受邀成为2021年央视春晚舞台的“表演嘉宾”。这次春晚对宇树科技来说,是一个命运转折点。据王兴兴回忆,他们在春晚后台连续奋战了一个月,通宵加班,终于保证了24只四足机器人“犇犇”的完美表演。“犇犇”是基于A1机器人改装而成,一经亮相便惊艳全场,引发全球关注。凭借春晚的广泛曝光,宇树科技的产品迅速走进大众视野,品牌影响力大幅提升。此后,宇树科技的机器人又陆续亮相2022年北京冬奥会开幕式、2023年Super Bowl赛前表演、2023年杭州亚运会和亚残运会等国际舞台,持续展现中国机器人技术的创新实力。

    机器牛“犇犇” 图片来源:新京报

    2021年6月,宇树科技乘胜追击,发布了第一款真正面对消费市场的四足机器人Go1。这是一款伴随仿生机器人,它的售价降至1.6万元人民币,一年累计出货近千台。反观波士顿动力Spot定价高达7.4万美元,Go1的售价仅为其价格的3%。

    同年7月,领宇树科技获得雷军的顺为资本1000万美元A轮融资;次年3月,获得经纬创投、敦鸿资产、深创投、顺为资本等机构B轮融资数亿元。

    图片来源:观察网

    2022年6月,宇树科技发布工业级机器狗B1,被成功应用在公共救援、电力巡检、勘测探索等行业级场景。

    2023年7月,宇树科技震撼发布消费级四足机器人Go2。据悉,Go2搭载宇树科技自研的4D激光雷达L1,实现360°感知,轻松适应复杂地形。集成OpenAI GPT模型,具备智能交互与数据处理能力,并开放AI模型接口,满足多场景需求。ISS2.0智能伴随系统提升50%定位精度,遥控范围超30米。此外,膝关节热管散热系统防止过热,最高奔跑速度5m/s,可模拟宠物狗的追球等动作,兼顾趣味性与实用性。这样一款高性能的伴随仿生机器人,起售价只有9997元!彻底将消费级机器狗的价格打到了万元以下。

    图片来源:官方

    紧接着,宇树科技在2023年11月发布工业级机器狗B2。有媒体报道,2024年10月,机器狗B2在泰山上当“智能挑夫”的视频在海外爆火,外交部副部长华春莹也在社交平台上发布相关片段,并配文称:“机器狗在雄伟的泰山上充当搬运工:科技造福人类。”

    据官方透露,2024年2月,宇树科技完成B2轮融资,近10亿元人民币,投资方包括美团、金石投资、源码资本等。有媒体表示,宇树科技2024年9月完成C轮融资,投资方包括美团龙珠、北京机器人产业投资基金等。

    2024年12月,宇树科技发布了升级版B2-W的测试视频。宇树科技相关人士曾向媒体表示,此次B2-W工业轮足机器人新功能包括完成双旋转,转换成三周半旋转倒立,侧翻,360°跳跃旋转;艰难的地形穿越;可承载重达40kg的重物,甚至可承载一人。这段视频在外网疯传,特斯拉创始人马斯克亲自下场回复称:未来的战争是无人机战争。

    图片来源:风闻

    “未来的战争是无人机战争” 图片来源:Xapp

    至此,宇树科技的四足机器人在现有技术框架下,已实现高度覆盖各大行业领域。产品如今已深度渗透至工业、消费市场、公共安全、科研等多个领域,广泛应用于自动化生产、安防巡逻、学术研究、娱乐教育等多个场景。宇树科技相关负责人曾向媒体介绍,其四足机器人出货量,占全球四足机器人出货量的60%以上。目前,该公司业务范围覆盖全球一半以上的国家和地区。据有关报道,曾有机器人行业从业者直白的表示:“我们不会做机器狗了,因为宇树科技已经一家独大,机器狗赛道没有机会了。”

    图片来源:官方

    借势而起,入局人形机器人市场

    人形机器人是王兴兴的初心,但也是他曾经坚决不越的雷池。

    2018年到2021年,很多投资人都曾对人形机器人感兴趣,但都被王兴兴坚决地拒绝。这并非因为他对人形机器人缺乏兴趣,而是他始终在等待合适的“借势”时机。相比盲目投入,他更倾向于在技术、市场和产业环境都足够成熟的情况下,以最优的策略切入。

    直到2022年马斯克明确表示开始研发人形机器人“擎天柱”,推动了行业的发展,再加上2022年年底ChatGPT横空出世,人们对AI行业的信心倍增。“有人愿意买(这种产品),我们才做这个方向”,王兴兴认为时机成熟,于2023年开始入场人形机器人。

    2023年8月,宇树科技迅速推出首款通用人形机器人H1,售价9万美元。H1被定位为国内首台具备跑步能力的全尺寸通用人形机器人,采用超轻量级设计,整机重量约47kg,最大扭矩达360N·m。宇树科技自主研发大扭矩关节电机等核心组件,使其能够执行复杂动作和任务。H1的移动速度可达3.3m/s,潜在运动性能超过5m/s,具备实地环境下的灵活奔跑和跳跃能力。就连OpenAI创始成员Karpathy都直呼“想要”。

    图片来源:Xapp

    2024年5月,宇树科技又推出了第二代人形机器人G1。G1机器人搭载43个自主研发的关节电机,最大扭矩120牛·米,并通过精准的动态平衡算法,将误差控制在毫米级,确保运行稳定流畅;在成本控制方面,G1采用三指力控方案替代传统五指设计,既能满足90%的抓取需求,又成功降低40%的制造成本。G1机器人以9.9万元的定价被行业称为“价格屠夫”,预售首日即斩获超三千台订单。

    图片来源:风闻

    今年1月,在国际消费电子展(CES 2025)上,宇树科技携带G1人形机器人和Go2机器狗亮相。Go2售价为1600美元,相比之下,形态类似的波士顿动力Spot机器人售价高达74500美元;G1人形机器人售价16000美元。有媒体证实,宇树科技在人形机器人领域的出货量处于行业前列。

    为何宇树科技可以把产品价格压低?核心在“技术资产复用”,最大化降低研发与生产成本。不同于特斯拉 Optimus 采用从零构建人形机器人技术栈的高投入模式,宇树科技借助四足机器人产品线的持续迭代,将运动控制、环境感知等底层技术进行模块化封装,形成高复用性的技术架构。其已有技术可直接迁移超过60%,大幅缩短H1 的研发周期。这种技术复用不仅加速了产品落地,也让BOM(物料清单)成本大大降低。

    王兴兴在社交媒体发布G1跳舞视频 图片来源:小红书

    据相关数据显示,宇树科技自成立以来已完成9轮融资。有消息指出,完成数亿元的C轮融资后,投后估值达到80亿元人民币。此外,宇树科技在机器人核心零部件、运动控制、机器人感知等多个领域积累了深厚的技术实力。公司具备自主研发全链条能力,涵盖电机、减速器、控制器、激光雷达等关键核心部件,以及高性能感知与运动控制算法。截至目前,宇树科技已累计申请国内外专利180余项,其中授权专利超过150项。

    有趣的是,尽管王兴兴对AI在人形机器人中的应用前景十分看好,但在AI研发投入上,他却表现得格外谨慎。他坦言,AI的研发成本极高,尤其是GPU算力的消耗更是难以负担。

    在他看来,目前AI与机器人结合的技术临界点尚未到来,但通用AI的技术已经出现曙光,并且未来将有更多人才投身于具身智能的研究道路。如果进展顺利,三到五年内或许能够迎来真正的技术突破。“如果哪一天有人把 AI 机器人的模型做出来,我可以保证年底之前直接给他做 10 万个人形机器人。”他曾这么说。

    识时务者为俊杰,而既懂市场又精通技术的俊杰,更是凤毛麟角。王兴兴正是这样的人。作为商人,他目光独到,总能在市场最需要的时候精准出手,垄断不同场景的多元化客户群体;他借势而为,早年拒绝跟风人形机器人,但在2023年AI技术突破后,仅用半年便推出H1,并迅速迭代至G1。

    而作为技术专家,他对机器人每个构件都了然于胸,甚至连一颗螺丝钉都亲自把关。正因如此,宇树科技通过自研构建起深厚的技术壁垒,成本远低于竞品,抢占市场份额,构建宇树帝国。而最核心的是,王兴兴自始至终都对机器人有着浓厚的兴趣,正是这份深深植根于内心的热爱,转化为强大的自驱力,让他在技术探索和行业革新的道路上坚定前行。

    正如王兴兴所言:“创新就是既要仰望星空洞察技术趋势,又要脚踏实地解决产业痛点。最重要的是,兴趣驱动的实践探索才能让创新具有爆发力。” 他希望,宇树科技的名字不仅代表着一家企业,更是一棵不断生长的科技之树,在广阔的宇宙中枝繁叶茂,最终点亮人类的未来生活

    图片来源:新闻联播

    来源:微信公众号“极思TopMinds”

  • 抛弃OpenAI,Figure亮王牌:史上首次两个机器人「共脑」,网友直呼太恐怖

    抛弃OpenAI,Figure亮王牌:史上首次两个机器人「共脑」,网友直呼太恐怖

    与OpenAI分手之后,Figure自研首个模型终于交卷了!

    不用ChatGPT,Figure直接把视觉-语言-动作模型(VLA)——Helix装入人形机器人大脑。

    它可以让机器人感知、语言理解、学习控制,是一个端到端的通用模型。

    果然,Figure的一大目标,就是发展家庭机器人。为此,其内部的AI需要像人一样推理,需要处理任何家庭用品。

    「机器人若不实现能力上的飞跃,将无法进入家庭领域」

    目前,Helix还主要用于Figure上半身控制,包括手腕、头、单个手指、甚至躯干,能以高速率执行复杂任务。

    只需一句话,机器人便可以拿起任何物品。

    当被要求「捡起沙漠物品」时,Helix会识别出玩具仙人掌,选择最近的手,并执行精确的电机指令以牢固地抓住它。

    还有生活中各种小物件,比如金属链、帽子、玩具等等,它皆精准「拿捏」。

    快看,它还会将物品放置在冰箱,而且是两个Figure协作完成。

    这是因为Helix是首个同时操控两台机器人的VLA,使他它们能够解决共同的、长序列操作任务,即使是处理从未见过的物品。

    有网友表示,这一刻让我瞬间不寒而栗。

    另有网友表示,「这非常令人印象深刻」,甚至有人马上想要买两台体验一下。

    值得一提的是,新款模型采用单一神经网络权重学习所有行为,无需任何特定的微调。

    而且,它还是首款完全在嵌入式低功耗GPU上运行的VLA,未来商业部署,甚至走入家庭近在咫尺。

    Helix:通用视觉-语言-动作模型

    家庭环境是机器人技术面临的最大挑战。

    与可控的工业环境不同,家庭中充满了无数物品——易碎的玻璃器皿、褶皱的衣物、散落的玩具——每个物品都有着不可预测的形状、尺寸、颜色和质地。

    要想让机器人在家庭中发挥作用,它们需要能够生成智能化的新行为来应对各种情况,特别是对于那些此前从未见过的物品。

    如果没有质的飞跃,当前的机器人技术将无法适应家庭环境。

    目前,仅仅教会机器人一个新行为就需要大量人力投入:要么需要博士级专家花费数小时进行手动编程,要么需要数千次示教。

    考虑到家庭环境问题的庞大性,这两种方法的成本都高得难以承受。

    图1:不同机器人技能获取方法的扩展曲线。在传统启发式控制中,技能的增长取决于博士研究人员的手动编程。在传统机器人模仿学习中,技能随数据采集量扩展。而采用Helix技术,只需通过自然语言即可实时定义新技能

    但在人工智能的其他领域已经掌握了即时泛化的能力。

    如果我们能够将视觉语言模型(Vision Language Models,VLM)中捕获的丰富语义知识直接转化为机器人动作,将会带来什么改变?

    这种新能力将从根本上改变机器人技术的发展轨迹(图1)。

    突然间,那些曾经需要数百次示教才能掌握的新技能,现在只需通过自然语言与机器人对话就能立即获得。

    关键问题在于:我们如何从VLM中提取所有这些常识知识,并将其转化为可泛化的机器人控制?Helix的构建正是为了跨越这一鸿沟。

    首创「系统1,系统2」VLA

    团队表示,Helix是首个由「系统1,系统2」组成的VLA,可以实现人形机器人上半身的高速精确控制。

    先前的VLM主干网络具有通用性但速度不快,机器人视觉运动策略速度快但缺乏通用性。而Helix通过两个系统解决了这个难题,两个系统经过端到端训练,并可以相互通信:

    系统2(S2):VLM主干网络,经互联网规模数据预训练,工作频率7-9Hz,用于场景和语言理解,可对不同的物体和场景进行泛化。

    系统1(S1):80M参数交叉注意力Transformer,依靠一个全卷积的多尺度视觉主干网络进行视觉处理,该网络在模拟环境中完成预训练初始化。

    这种解耦架构让每个系统都能在最佳时间尺度上运行,S2可以「慢思考」高层目标,S1通过「快思考」来实时执行和调整动作。

    例如,在协作中,S1能快速适应伙伴机器人的动作变化,同时维持S2设定的语义目标。

    Helix的设计相较现有方法具有以下几个关键优势:

    速度和泛化能力:Helix不仅达到了专门针对单任务行为克隆(behavioral cloning)策略的运行速度,还能够对数千个全新测试对象实现零样本学习。

    可扩展性:Helix能够直接输出高维动作空间的连续控制,避免了先前VLA方法中使用的复杂动作token化方案。这些方案虽然在低维控制设置(如二指夹爪)中取得了一定成功,但在高维人形机器人控制中面临扩展性挑战。

    架构简单:Helix采用标准架构——系统2使用开源、开放权重的视觉语言模型,系统1则采用简单的基于Transformer的视觉运动策略。

    职责分离:通过S1和S2的「解耦」,能够独立迭代优化每个系统,无需受限于寻找统一的观察空间或动作表示。

    模型和训练细节

    数据

    研究人员收集了一个高质量的、多机器人、多操作员的多样化遥操作行为数据集,总计约500小时。

    为了生成自然语言条件下的训练对,他们使用自动标注VLM来生成回顾性指令。

    VLM会处理来自机器人板载摄像头的分段视频片段,提示词是这样的:「如果要实现视频中看到的动作,你会给机器人什么指令?」

    为了防止数据干扰,所有训练中使用的物品都被排除在评估之外。

    架构

    这个系统主要包括两个主要组件,S2(VLM主干网络)和S1(基于潜层条件的视觉运动Transformer)。

    S2建立在一个经过互联网规模数据预训练的7B参数开源开放权重VLM之上。它处理单目机器人图像和机器人状态信息(包括手腕姿态和手指位置),将这些信息投影到视觉-语言嵌入空间中。

    结合指定期望行为的自然语言命令,S2会将所有与任务相关的语义信息提炼为单个连续潜层向量,传递给S1用于条件化其低层动作。

    其中S1是一个80M参数的交叉注意力(cross-attention)编码器-解码器Transformer,负责低层控制。它依赖于一个全卷积的多尺度视觉主干网络进行视觉处理,该网络完全在模拟环境中预训练初始化。

    虽然S1接收与S2相同的图像和状态输入,但它以更高的频率处理这些信息,以实现更快速的闭环控制。来自S2的潜层向量被投影到S1的token空间,并在序列维度上与S1视觉主干网络的视觉特征连接,提供任务条件。

    S1以200Hz的频率输出完整的上半身人形机器人控制信号,包括期望的手腕姿态、手指弯曲和外展控制,以及躯干和头部方向目标。

    另外,团队还在动作空间中,附加了一个合成的「任务完成百分比」动作,让Helix能预测自己的终止条件。这样,多个学习行为的序列化就更容易了。

    训练

    Helix采用完全端到端(end-to-end)的训练方式,将原始像素和文本命令映射到连续动作,使用标准回归损失。

    梯度通过用于条件化S1行为的潜在通信向量从S1反向传播到S2,实现两个组件的联合优化。

    Helix不需要任务特定的适配;它保持单一训练阶段和单一神经网络权重集,无需独立的动作输出头或每个任务的微调阶段。

    在训练过程中,研究中还在S1和S2输入之间添加了时间延迟。这个延迟经过校准,以匹配S1和S2在部署推理延迟之间的差距,确保部署期间的实时控制要求在训练中得到准确反映。

    优化的流式推理

    因为这种训练设计,Helix就能在Figure机器人上进行高效的模型并行部署了,每个机器人都配备了双低功耗嵌入式GPU。

    其中,推理流程在S2(高层潜规划)和S1(低层控制)模型之间分割,各自在专用GPU上运行。

    S2作为异步后台进程运行,处理最新的观察数据(机载相机和机器人状态)和自然语言命令。它会持续更新共享内存中的潜在向量,用于编码高层行为意图。

    而S1作为独立的实时进程执行,能维持平滑的整体上半身动作所需的关键200Hz控制循环。它会同时接收最新的观察数据和最近的S2潜在向量。

    S2和S1推理之间固有的速度差异,自然会导致S1以更高的时间分辨率处理机器人观察数据,为响应式控制创建更紧密的反馈循环。

    这种部署策略有意模仿训练中引入的时间延迟,最小化训练和推理之间的分布差异。异步执行模型允许两个进程以其最优频率运行,因此能以与最快的单任务模仿学习策略相当的速度运行Helix。

    结果

    精细化VLA全上半身控制

    Helix以200Hz的频率协调35个自由度的动作空间,控制从单个手指运动到末端执行器(end-effector)轨迹、头部注视和躯干姿态的所有动作。

    头部和躯干控制带来独特的挑战——当它们移动时,既会改变机器人的可达范围,也会改变它的可视范围,形成传统上容易导致系统不稳定的反馈循环。

    机器人在调整躯干以获得最佳可达范围的同时,用头部平滑地跟踪其手部动作,并保持精确的手指控制以进行抓取。

    从传统角度来看,即使对于单个已知任务,在如此高维(high-dimensional)的动作空间中实现这种精度一直被认为是极具挑战性的。

    目前,还没有VLA系统能够在保持通用泛化能力(适用于不同任务和物体)的同时,展示出这种程度的实时协调控制。

    零样本学习多机器人协调

    研究人员在一个具有挑战性的多智能体(multi-agent)操作场景中将Helix推向极限:两台Figure机器人之间的协作式零样本学习杂货存储任务。

    结果显示,机器人成功操作了在训练中从未见过的杂货,展示了对不同形状、尺寸和材料的强大通用泛化能力。

    此外,两个机器人使用完全相同的Helix模型权重(model weights)运行,无需针对特定机器人的训练或明确的角色分配。

    它们通过自然语言提示词来实现协调配合,比如「把饼干袋递给你右边的机器人」或「从你左边的机器人那里接过饼干袋并放入打开的抽屉中」。

    这是首次使用VLA实现多机器人之间的灵活、持续性协作任务,而且机器人能够成功处理完全陌生的物体,这一成就具有重要的里程碑意义。

    「任意物品拾取」能力涌现

    研究人员发现配备Helix的Figure机器人只需一个简单的「拾取[X]」指令就能拾取几乎任何小型家居物品。

    即使在杂乱的环境下,机器人也能成功处理从玻璃器皿和玩具到工具和衣物等数千件前所未见的物品,而这一切无需任何事先示范或定制编程。

    值得注意的是,Helix成功地连接了大规模语言理解能力与精确的机器人控制系统。

    例如,当接收到「拾取沙漠物品」这样的提示词时,Helix不仅能识别出玩具仙人掌符合这个抽象概念,还能选择最近的机械手臂并执行精确的运动指令(motor commands)来稳固抓取它。

    这种通用的「语言到动作」抓取能力为类人机器人在复杂且不确定的非结构化环境中的部署开创了激动人心的可能性。

    讨论

    Helix的训练极其高效

    Helix仅需极少的资源就实现了强大的物体识别和适应能力(物体泛化能力)。

    研究人员总共使用了约500小时的高质量监督数据(supervised data)来训练Helix,这仅占此前收集的VLA数据集规模的一小部分(<5%),而且无需依赖多机器人实体数据收集或多阶段训练。

    值得注意的是,这种数据收集规模更接近现代单任务模仿学习(imitation learning)数据集。尽管数据需求相对较小,Helix仍然可以扩展到更具挑战性的完整上肢人形机器人控制动作空间,成功实现高频率、高维度的输出控制。

    统一的模型权重系统

    现有的VLA系统通常需要专门的微调或专用的动作输出层来优化不同复杂行为的性能。

    然而,Helix却能使用单一统一模型就实现了各种任务的出色表现。

    仅使用一组神经网络权重(System 2使用70亿参数,System 1使用8千万参数),Helix就能够完成将物品放入各种容器、操作抽屉和冰箱、协调精确的多机器人交接,以及操作数千种全新物体等多样化任务。

    结论

    Helix是首个能够通过自然语言直接控制整个人形机器人上半身的视觉-语言-动作模型(Vision-Language-Action model)。

    与早期的机器人系统相比,Helix能够实时完成持续性、需要配合的精密操作,而无需任何特定任务示范或大量手动编程。

    Helix展现出卓越的物体适应能力,只需通过自然语言指令,就能拾取数千种在训练中从未接触过的家居物品,这些物品具有各种不同的形状、尺寸、颜色和材料特性。

    这标志着Figure在拓展人形机器人行为能力方面取得了突破性进展——研究人员相信,随着机器人在日常家居环境中的应用日益广泛,这一进展将发挥重要的推动作用。

    尽管这些初步成果令人振奋,但这仅仅是揭开了可能性的冰山一角。研究人员热切期待着将Helix的规模扩大至现有规模的千倍乃至更多时会带来怎样的突破。

    参考资料:HNYZs

    https://www.figure.ai/news/helix‍

    来源:微信公众号“新智元”

  • 强过DeepSeek?马斯克放大招

    强过DeepSeek?马斯克放大招

    就在18号,被马斯克狂吹为“地球上最聪明AI”的Grok 3聊天机器人现世了。

    马斯克携手xAI(其投资创建的AI企业)的工程师们通过直播的形式,向世界展示了Grok 3的实力——在减少AI幻觉、提升逻辑一致性、联网获取实时信息以及深度搜索等方面,Grok 3都展现出了可能超越OpenAI和DeepSeek等大模型的能力。

    马斯克在发布会上激动地说,Grok 3的能力相比其前身Grok 2,强大了一个数量级。这番言论,让Grok 3迅速成为全球科技与资本市场的热门话题。

    而且马斯克还为Grok3整了一个更有逼格的定位:“our mission is to understand universe(我们的使命是了解宇宙)”。

    而迅速推出Grok 3的背后,也藏着马斯克与阿尔特曼(OpenAI创始人)之间的复杂恩怨。两人曾携手创立OpenAI,誓言用开源技术挑战谷歌的AI霸权。可如今两人却分道扬镳,甚至在某些场合针锋相对,上演了一出出“背叛”与“反击”的戏码。

    那么,这个由马斯克倾尽心血的Grok 3,能否让马斯克在阿尔特曼面前争一口气?它是否能够重塑AI聊天机器人的格局?而资本市场又是否会给予它足够的支持呢?

    Grok3超越DeepSeek和ChatGPT?

    美国科幻大师罗伯特·海因莱因的小说《异乡异客》中,有一位在火星上长大的角色叫作“Grok”,它代表了对某事物全面且透彻的理解。

    马斯克表示,xAI 团队之所以将其聊天机器人命名为Grok就是源于这个初衷。

    作为xAI正在精心打磨的杰作,Grok 3最引以为傲的便是突破性的“思维链”推理能力和多模态功能的全面升级。

    虽然Grok 3是一款聊天机器人,但其“推理”能力却不容小觑。它不仅能与用户进行流畅的自然语言互动,更能逻辑性地测试其响应并进行严格的事实核查。

    马斯克和他的团队自豪地宣布,Grok 3测试版的推理能力甚至可能已经超越了现有的众多人工智能模型。在关于推理和测试时间的基准测试中,Grok 3以卓越的表现,力压DeepSeek-R1、OpenAI o1、OpenAI o3 mini-high以及Gemini-2 Flash Thinking等一众强敌,展现了其非凡的实力。

    xAI团队还通过一系列有趣的展示,让我们亲眼见证了Grok 3的过人之处。比如,在计算从地球到火星的航天器任务时,Grok 3竟然能够生成一张生动的太空发射动画3D轨迹图,从地球出发,穿越火星,再返回地球,这一过程中涉及的复杂物理知识,都被它一一攻克。

    更令人惊叹的是,Grok 3还足够聪明,能够根据超强的推理能力编写游戏或结合现有游戏。当xAI团队要求Grok 3现场创造一款融合《俄罗斯方块》和《宝石迷阵》的新游戏时,它迅速生成了一个Python脚本,定义了游戏的常量、颜色、方块形状等元素,并创造出了一种独特的玩法:当连接了至少三个相同颜色的方块时,会触发重力机制使方块消除。

    而Grok 3的多模态功能升级,更是让人眼前一亮。它并非单一的模型,而是一个由多个模型组成的家族。其中,轻量级版本Grok 3 mini主打实时响应,推理速度较标准版提升了惊人的5倍;而Grok 3 Reasoning则采用了类人脑的“慢思考”机制,通过多层事实核查,有效规避了AI幻觉的问题。

    在数学推理、代码生成和科学逻辑测试中,Grok 3的表现同样令人瞩目,它超越了Gemini 2 Pro、Deepseek V3、ChatGPT 4o等竞品,展现出了强大的竞争力。

    在盲测方面,xAI的Grok 3(早期版本)更是以1402分的历史最高成绩,在lmArena排行榜上登顶,成为首个突破1400分的AI模型,这一成绩甚至超越了Google、OpenAI、DeepSeek等业界巨头。

    值得注意的是,马斯克团队仍在持续优化Grok 3的能力,Grok 3目前仅对X Premium Plus订阅用户开放,但xAI为忠实粉丝推出了名为Super Grok的独立订阅服务,提供最先进的功能和最早的新特性访问权限。

    此外,xAI还推出了SuperGrok计划,订阅用户能够访问更多推理能力和无限图像生成。并计划未来数周内上线语音模式及企业API接口。

    那么被马斯克吹上天的Grok3是如何炼出来的呢?

    122天,马斯克用20万块GPU张大力出奇迹

    有句说句,Grok 3能迅速发展,离不开xAI的惊人的工程执行力。

    xAI高管团队透露,为实现“打造顶尖AI”的目标,公司选择自建数据中心作为核心路径。

    第一阶段,他们仅用122天便完成10万块H100 GPU集群部署,建成当时全球最大规模的全连接算力基础设施。

    第二阶段进一步提速,仅92天就实现算力翻倍,使集群规模达到20万块GPU——这些硬件资源全部投入“科洛苏斯超级集群孟菲斯数据中心”,成为训练Grok 3的核心支撑。

    技术突破方面,xAI通过大量使用合成数据等创新手段,使Grok 3相较前代实现10倍计算能力跃升,以超快的速度追上了ChatGPT。

    在配套生态的构建上,xAI同样不遗余力。他们推出的DeepSearch被誉为“下一代搜索引擎”,它允许用户提问并获得答案,更重要的是,DeepSearch能够展示从问题思考到研究,再到最终答案生成的完整过程。

    DeepSearch是一款推理聊天机器人,能够阐述其理解查询内容的过程以及规划回复的方式。在演示中,DeepSearch展现出了研究、头脑风暴和数据分析等多种功能,令人眼前一亮。

    对于Grok 3是否会开源,马斯克明确表示,“我们通常会在新模型发布的时候,开源上一代模型,所以几个月后,我们也会对Grok 2进行开源。”

    这种“代际开源”策略既保持了技术护城河,又满足了开源社区的期待,不少网友认为马斯克格局不错,但也留着底牌。

    资本市场对此次技术突破反应热烈。

    Grok 3发布当日,恒生互联网科技业指数开盘冲高1.8%,恒生互联网ETF(159688)收涨1.42%,金山云、腾讯控股等AI概念股集体跟涨。更显著的是机器人ETF单日资金净流入突破十亿元,创历史纪录。

    投资机构层面,Grok 3发布会后,红杉资本、Andreessen Horowitz等顶级风投加速入场,推动xAI融资规模剑指百亿美元,公司估值飙升至750亿美元。

    不过相较于OpenAI的3000亿估值,Grok 3还差一些。市场仍认为xAI在生态壁垒和商业化成熟度上的优势仍不如OpenAI。

    目前,Grok 3虽然仅通过一场直播demo曝光,没有更多官方信息,但其含金量几何,还需更多用户和时间验证。

    不过,从Grok 3发布会背景板上的那句“our mission is to understand universe(我们的使命是了解宇宙)”可以看出,马斯克的野心远不止于此。

    马斯克离“用AI理解宇宙本质”的终极目标还有多远?或许还要再等Grok 3再飞一会。

    搞Grok3只为了赌气?阿尔特曼公开羞辱马斯克

    不过,在Grok 3风靡全球的背后,一场不为人知的内部斗争同样引人入胜,主角便是曾经的盟友——埃隆·马斯克与山姆·阿尔特曼。

    故事要追溯到2015年,硅谷的夜空下,马斯克与阿尔特曼携手启动了被誉为“AI曼哈顿计划”的OpenAI。

    他们共同的敌人,是那时如日中天的谷歌,两人担忧其可能垄断AI技术,便牵头成立了非营利性质的OpenAI。

    在阿尔特曼心中,马斯克一度是如“钢铁侠”般的存在,是打破美国科技僵局的英雄。然而,理想丰满,现实骨感。

    随着OpenAI的算力成本飙升,财务困境如影随形。阿尔特曼做出了一个决定性的选择,引入微软10亿美元的投资,并成立了盈利性质的子公司OpenAI LP。

    马斯克坚持非营利原则,认为这是对初衷的背叛,而阿尔特曼则认为商业化是生存之道。两人的分歧日益加深,马斯克认为OpenAI已沦为微软的“闭源附庸”,并试图夺回CEO之位,却遭到了董事会的拒绝。

    阿尔特曼随即发起了内部斗争,成功争取到了另一位联合创始人格雷格·布罗克曼的支持,而布罗克曼又进一步拉拢了首席科学家伊利亚·苏茨克维尔站在自己一方。

    2018年,马斯克黯然离场,阿尔特曼接掌了OpenAI的领导权。从此,两人分道扬镳,OpenAI也倒向了微软。

    时间流转至2022年11月30日,ChatGPT横空出世,迅速成为21世纪最具影响力和变革性的科技产品之一,与iPhone、Facebook和TikTok并驾齐驱。

    然而,对于马斯克而言,这款产品的问世却如同一把利刃,刺痛了他的心。作为曾经的创始人之一,他已被彻底排除在外,愤怒与失落交织于心。不甘心的他随即推出了自己的初创公司xAI,希望与ChatGPT一较高下。

    法律战与舆论战也随之打响。马斯克连续起诉OpenAI“违背初心”,要求恢复开源,并批评其发展迅速却忽视安全。他在公开场合多次猛烈抨击阿尔特曼,而阿尔特曼也毫不示弱,两人的关系急剧恶化。

    直到Stargate计划的公布,两人的矛盾被推向了顶点。阿尔特曼作为民主党人,却与特朗普政府合作推出了这个高达5000亿美元的人工智能基础设施投资项目,而马斯克却对此毫不知情。

    可以说,Stargate计划不仅让马斯克感到被背叛,更打破了马斯克的政治与商业布局。

    愤怒的马斯克随即发起恶意收购,愿意以974亿美元的价格收购OpenAI的控制权。而阿尔特曼的反击同样犀利,他嘲讽道:“我们愿以97.4亿美元收购Twitter。”阿尔特曼借此嘲讽马斯克以440亿收购Twitter的商业决策。

    目前,两人的恩怨远没有结束,但唯一确定的是,Grok 3的出现已经让AI界再次沸腾了起来。

    Grok 3的崛起,未来GPT5的发布,以DeepSeek为代表的中国AI军团的竞逐,无不预示着AI新时代的洪流滚滚,未来的路还很长,故事仍在继续。

    参考资料:

    1、《马斯克发布Grok 3大模型,称超越DeepSeek》澎湃新闻

    2、《马斯克出手!Grok 3计算能力暴增10倍,谁才是最强大脑?》金十数据

    3、《大力出奇迹?马斯克发布“史上最聪明AI”Grok-3,号称超越DeepSeek R1,20万张GPU能否颠覆AI格局?》金融界

    来源:微信公众号“首席商业评论”

  • 马斯克“画饼”人形机器人,国内企业闷头搞实干

    马斯克“画饼”人形机器人,国内企业闷头搞实干

    你以为人形机器人会像电影里演的那样,一夜之间就统治世界,成为人类的“完美替代品”?

    错!

    现实中的人形机器人,虽已初露锋芒,却离“称霸”之路遥不可及,目前仍处于蹒跚学步的阶段。

    马斯克“画饼”人形机器人,国内企业闷头搞实干

    还记得特斯拉那场发布会吗?马斯克那叫一个自信满满,推出的人形机器人仿佛是未来生活的救星。

    他宣称,一旦生产规模扩大,成本将低至2-3万美元,实现人人可负担。并声称这款机器人功能强大,无论是带孩子、遛狗,还是端咖啡、购物、做家务,皆能轻松应对,堪称全能“保姆”。

    不得不承认,这“饼”画得确实诱人,但能否成真,仍需打上一个大大的问号。

    毕竟,从概念到量产,中间隔着无数技术和成本的“大坑”,这可不是靠嘴皮子就能填平的。

    再看看咱国内,可没有被马斯克的“大饼”迷惑,一直在闷头搞研发。

    外交部发言人林剑就曾分享过一款中国公司研发的AI人形机器人,能敲核桃、煎面包、折叠身体,像个便携式管家。

    尽管这只是中国在人形机器人领域迈出的一小步,却足以彰显国内企业在该领域的实力与潜力。

    深圳星辰智能的Astribot S1,毛笔字写得飘逸,衣物熨得平整,炒菜颠锅手法娴熟。

    前华为天才少年打造的智源机器人,移动迅速,承载重物不在话下。

    富里夜智能GR、语数科技G1、优必选Walker系列等,如雨后春笋般涌现,各显神通。

    从工厂自主搬运的优必选Walker S1,到家庭服务乐居机器人夸父,再到全球首例纯电驱动全尺寸人形机器人拟人奔跑的天工,国内人形机器人市场一片喧嚣,新兴产业蓬勃发展的景象跃然眼前。

    然而,这繁花似锦的背后,真的如表面那般光鲜亮丽吗?拨开迷雾,我们看到的却是一系列令人忧心的问题。

    优必选陷盈利困境

    人形机器人产业的企业,可能正走在一条布满荆棘的道路上。就拿“人形机器人第一股”深圳优必选来说,它的遭遇就是一出活生生的警示剧。

    花开两朵,先看“优点”。

    优必选人形机器人家族,囊括Walker S系列、S Lite及协同先锋S1。

    Walker S系列作为工业人形机器人代表,身高1.7米的Walker S、1.3米的S Lite及协同工作先锋S1,各展所长。

    S1作为全球首款能与无人物流车等协同作业的机器人,展现了其技术上的领先优势。优必选在伺服驱动、大模型、语义VSLAM等技术上不断突破,确保机器人在工业场景中安全稳定服务。

    再看资本市场反馈,2023年12月29日,优必选风光登陆港交所,发行价90港元,股价一度飙升,最高达到328港元/股,市值直冲1416亿港元,那气势,犹如人形机器人行业的黄金时代已悄然开启。

    好景不长,财报一出,一切都变了味。

    2023年,营收10.47亿元,归母净亏损却高达12.34亿元;2024年中报,营收4.80亿元,归母净亏损5.16亿元。

    这些数字,让人不禁为之一惊。

    别看优必选的工业人形机器人Walker S1在比亚迪汽车工厂实训表现不错,效率提升一倍,稳定性提升30%,还拿到了多家车厂的超500台意向订单,预计今年Q2就能规模化交付。

    但业绩亏损的巨坑,却非轻易能够填补。

    股价四个交易日内暴跌近50%,这哪是市场情绪波动那么简单,分明就是对优必选盈利能力的彻底否定。

    那些看似繁华的产品展示背后,实则隐藏着企业盈利的重重难关。优必选的问题,可不是个例。整个人形机器人行业,都可能面临这样的困境。

    人形机器人普及之路漫漫其修远兮

    当所有人都在幻想人形机器人即将开启智能生活新篇章时,一盆冷水泼下。

    人形机器人的商业化之路,远没有想象中那么顺畅。

    技术瓶颈就像一道难以逾越的鸿沟。

    人形机器人的关键零部件,比如关节、电机、传感器,精度大多还在厘米级徘徊,跟工业级的毫米级精度比,那可是差了一大截。想让它干点精密活儿,比如制造精密仪器、做微创手术,那简直是难如登天。

    再说算法,多算法协同能力弱得可怜,感知、认知、决策、执行,哪个环节都跟不上趟儿,一遇到复杂环境就蒙圈。

    续航亦是难题,人形机器人能耗巨大,而电池技术滞后,导致其工作时间和活动范围受限,令人颇为头疼。

    接着是成本瓶颈。

    硬件成本居高不下,尤其是关节部分,占比高达三分之二。以伺服电机为例,国外售价在2000至3000元之间,而一个人形机器人需配备20至30个,仅电机成本便高达十万余元。

    这么高的成本,普通消费者哪买得起?

    研发成本也不低,人形机器人涉及的前沿技术太多,研发难度大、周期长,资金投入像个无底洞,企业想盈利,难!

    市场和应用瓶颈也是个大问题。

    人形机器人现在能干的活儿太有限,主要集中在工业生产、物流仓储这些特定领域。

    家庭、医疗、教育等更广阔的天地,它还进不去,商业模式和大规模应用的切入点都没找到。

    消费者对人形机器人也是半信半疑,担心它不安全、不可靠、不实用,甚至还可能引发伦理和社会问题。

    最后是人才瓶颈。

    人形机器人的研发和生产,需要跨学科的复合型人才,可这类人才太稀缺了。高校和职业院校在相关领域的专业设置与课程体系尚不完善,迫使企业不得不自行培养所需人才,这无疑加大了企业在时间与资源上的投入。

    此外,隐私与安全问题同样不容忽视,人形机器人一旦进入家庭,我们的私人生活将无时不刻不被这一智能设备所记录。一旦数据泄露或被恶意利用,后果不堪设想。

    【结语】

    人形机器人的商业化之路,步步艰难。技术、成本、市场、人才,四大瓶颈像四座大山。可见,人形机器人要想真正成为改变人类生活的重要力量,还有很长的路要走。

    来源:微信公众号“大局财经”

  • 蚂蚁集团入局人形机器人,上海杭州14个岗位开放

    蚂蚁集团入局人形机器人,上海杭州14个岗位开放

    机器人前瞻2月19日报道,今天,有招聘平台信息显示,蚂蚁集团开放招聘14个具身智能系统和应用等相关岗位,相关招聘主体为上海蚂蚁灵波科技有限公司,这说明了蚂蚁集团很大可能正在筹备研发具身智能人形机器人产品。

    对此,蚂蚁集团刚刚回应相关媒体称,这是一个常规招聘,工作经验要求只需要3年,因此并没有外界所理解的信号意义。至于具身智能技术的研发,蚂蚁集团表示,将持续布局和加大AI投入。

    据企查查信息,上海蚂蚁灵波科技有限公司成立于去年12月,法人为朱兴,注册资本 1 亿元,由蚂蚁智能(杭州)科技有限公司 100% 持股。

    这次开放招聘的岗位包括嵌入式开发工程师、机器人软件测试工程师、机器人电子硬件工程师、算法工程师、人形机器人硬件结构工程师、仿真系统开发工程师等。

    这些岗位的地点分布在上海浦东新区、上海黄埔区和杭州西湖区,其中9个岗位要求本科及以上学历即可,5个岗位要硕士及以上学历。

    从部分岗位详情描述来看,要求应聘者要负责机器人本体结构设计、机械零部件进行硬件规格设计;开发自研机器人操作系统;或负责机械臂\人运动控制系统设计等;开发优化灵巧手抓取相关强化学习方法等,这说明了蚂蚁集团或许是准备从零开始自研人形机器人产品。

    蚂蚁集团首次入局实体机器人赛道,可以追溯到2023年。在 2023 年全球领先的金融科技峰会上,蚂蚁集团曾宣布,其自主研发的智能机器人产品已完成多场景技术验证,将在物流、公共服务及商业服务领域启动试点应用。

    去年11月,蚂蚁集团入股星海图(苏州)人工智能科技有限公司,该公司专注于打造 “一脑多形” 具身智能机器人。

    蚂蚁集团进军看似与金融毫无关联的具身智能赛道,但其此前已经在人工智能、大数据、云计算等领域已经积累了一定的技术实力,这些技术都与具身智能技术有着高度的关联性和互补性。随着具身智能领域的高速发展,蚂蚁集团的加入,既为行业带来了资金与技术,也进一步彰显出科技巨头纷纷投身人形机器人赛道竞争的强烈态势。

    来源:微信公众号“智东西”

  • 宇树G1又炫技,脚踩梅花桩如履平地,网友:疑似少林寺训练内容流出

    宇树G1又炫技,脚踩梅花桩如履平地,网友:疑似少林寺训练内容流出

    宇树G1又炫技,脚踩梅花桩如履平地,网友:疑似少林寺训练内容流出

    智东西·2025年02月20日 17:58
    浙江大学、上交大又发布人形机器人研究新成果。

    宇树G1人形机器人在跳舞流畅得被人质疑像AI生成的一样后,又练起少林功夫了。

    机器人前瞻2月19日报道,今天,上海AI实验室、上海交通大学、浙江大学、香港大学、香港中文大学联合发布了一项新成果——BeamDojo强化学习框架,这是第一个可以让人形机器人在落脚点稀疏的危险地形上实现精细落脚点控制的基于学习的方法。

    在像踏脚石、平衡木这类落脚点稀疏的危险地形上行走,对机器人腿部运动来说是一项巨大挑战。机器人需要精确处理感知信息,在安全区域内精准放置脚步,并在整个过程中保持基座稳定 ,才可以灵活安全地进行移动。

    具体来说,主要有两大方面的技术难点:

    • 四足机器人已经解决了在这种落脚点稀疏的危险地形上行走的问题,但是却很难把同样的方法套用到人形机器人上。因为大多数四足机器人的脚是点状,但人形机器人的脚通常被是多边形,为点状脚设计的落脚点奖励并不适用于多边形脚。
    • 基于学习的人形机器人运动研究,在复杂地形和精细落脚点上的灵活运动方面还是存在不少问题,用于评估脚步放置的奖励信号很稀疏,学习过程效率极低,难以获取可靠的感知信息。

    所以,研究团队开发了BeamDojo强化学习框架,可以让人形机器人在稀疏落脚点上能灵活移动。

    在演示中,G1可以稳定地穿越多个面积狭小约20厘米宽、间距不一的像梅花桩一样的踏脚石。甚至,它还可以做到倒退着穿越踏脚石。

    20厘米宽度的平衡木挑战也不在话下。

    在平衡性方面。G1就算是在背负6千克重物、遭受外力干扰的情况下,也可以很好地穿越这些复杂地形。

    网友评论:越看越像人形机器人去少林寺训练进修了,疑是中国功夫片场景流出。

    据Huayi Wang介绍,这个框架主要有以下创新点:

    • 设计了两阶段的强化学习训练策略,让机器人学习效率更高。第一阶段让机器人在平地进行训练,通过输入地形参数让算法在安全环境中预学习;第二阶段切换至实际任务地形中进行策略优化。
    • 研究团队为多边形脚掌量身定制了基于采样的落脚点奖励机制,并采用“双评价器”(double-critic)架构,来平衡密集移动奖励和稀疏落脚点奖励之间的学习过程。
    • 搭载基于激光雷达的高程地图系统,使机器人能实时感知地形细节,为精准落脚提供数据支持。
    • 可以实现零样本泛化,尽管G1在训练过程中并未接触过稀疏地形与平衡木,但它却能对各类稀疏落脚点地形做到零样本泛化。

    实验表明,BeamDojo在模拟环境中实现了高效学习,在现实世界中,该框架也能让人形机器人在稀疏落脚点上精准落脚并灵活移动,并在受到较大外部干扰的情况下也能在保持较高的成功率,还可以进一步应用到像沟壑等更多具有挑战性的复杂地形中。

    来源:微信公众号“智东西”

  • 国投集团,再投人形机器人

    人形机器人赛道再获新融资。

    近日,人形机器人企业灵宝CASBOT宣布完成新一轮融资,至此,灵宝CASBOT融资额累计已超亿元人民币,投资方包括:联想创投、国投创合、河南资产基金等。

    据悉,本轮融资将主要用于加速推进人形机器人量产及核心技术的研发,进一步巩固灵宝CASBOT在市场竞争和技术创新方面的双重优势。

    灵宝CASBOT联创&COO张淼向创投日报记者表示,目前,灵宝CASBOT正按照2025年的目标,稳步推进订单交付,预计在今年实现小规模量产。

    01 定位多场景落地的通用类脑智能机器人

    灵宝CASBOT成立于2023年,致力于研发面向场景落地的通用人形机器人和具身智能产品。公司核心团队由来自国内外顶尖高校和科技企业的业内人士组成,在智能机器人、精密装配、视觉伺服、机器人技能学习等专业领域拥有超过20年的研究经验积累。

    2024年11月13日,灵宝CASBOT发布了首款双足人形机器人产品“CASBOT 01”,定位通用类脑智能机器人,整机拥有52个自由度,算力达550T,续航时间超过4小时。

    得益于“从大脑到小脑到本体再到仿生灵巧手”的全栈技术支撑,CASBOT 01实现了高性能全身一体化控制和长时序灵巧操作,能够广泛应用于工业制造、商业服务、家庭社区等多个领域。

    在2024年中关村仿生机器人大赛上,灵宝CASBOT团队获得人形仿生机器人赛道作业赛第一名、具身智能大模型赛道工业场景第一名。

    另外,在人形机器人关键的灵巧手方面,灵宝CASBOT五指灵巧手能做到弹钢琴和打螺丝等精细化作业,具有高强度、高刚度、低自重的特点,适用于家庭服务、工业装配等多种应用场景。

    关于目前灵宝CASBOT的智能水平所处阶段,张淼向创投日报记者表示,公司基于分层端到端架构,从运动智能、操作智能与认知智能三大维度构建技术体系。

    在运动智能方面,具备了全地形适应能力。机器人可在非结构化地形,如楼梯、斜坡及碎石等路面保持稳定拟人步态,并在跌倒后通过全身协同控制完成自主复位。

    在操作智能层面,灵宝 CASBOT 实现了涵盖物体转运等基础操作,以及亚毫米级精密装配这类高精度操作的通用技能体系构建 。借助先进的触觉 – 视觉多模态伺服控制技术,机器人的末端执行器能够敏锐捕捉接触力反馈,并据此实时、精准地调整抓取策略,以应对各类复杂操作场景。

    在认知智能方面,CASBOT 01搭载的CASBOT Embodied Brain整合了视觉-语言-环境状态的多模态大模型,能够实现高级环境感知、复杂任务分解,使机器人可理解自然语言指令,执行包含条件判断与逻辑推理的多步操作。

    谈及2025年及未来几年的量产目标和市场推广策略,张淼介绍,今年的目标是将产品完美地交付给客户,建立售前售中售后的完整链路。市场推广方面,2025年将结合灵宝在工业制造领域的优势,形成有行业竞争壁垒的产品和方案。“例如,在工业制造领域,我们已经与联想在智能制造领域达成深度业务合作。”

    据悉,灵宝CASBOT已经在应急救援、井下作业、工业制造和商业服务等多个领域积累了众多合作伙伴。

    据创投日报记者不完全统计,国内致力于人形机器人领域的企业还包括优必选、达闼科技、银河通用Galbot、宇树科技、以及逐际动力等。

    02 国投系联手河南国资出手

    成立至今,灵宝CASBOT一共经历了2轮融资。包括上一轮的联想创投和这一轮的国投创合。

    其中,联想创投于2016年正式成立,专注于科技产业投资。联想集团高级总监、联想创投董事总经理顾正斌表示,灵宝CASBOT在工业、煤炭等场景上落地快,非常务实。

    创投日报记者注意到,在机器人领域,联想创投此前还投资了服务机器人开发企业云迹科技、物流机器人企业未来机器人、人形机器人企业逐际动力等。

    本轮投资方国投创合,则是国投集团旗下专业的引导基金及产业基金管理机构,直接管理规模超过400亿元,专注于战略性新兴产业领域的股权投资、创业投资及基金投资,合计支持了4000多家创新型科技企业,其中230余家已上市。

    国投创合针对本次投资表示,灵宝CASBOT已实现人形机器人多地形快速稳定行走和复杂作业场景下的精密操控,团队技术底蕴深厚,研发及迭代速度快,优先面向高价值场景推出产品及服务,商业路径清晰。

    本轮另一投资方河南资产基金是河南资产管理有限公司(以下简称“河南资产”)的全资子公司,成立于2018年5月,河南资产成立于2017年8月8日,注册资本60亿元,是河南省人民政府批准设立并经银监会备案具有金融不良资产批量收购业务资质的地方资产管理公司。

    值得一提的是,灵宝CASBOT的创始人兼董事长张正涛,也是中国科学院自动化研究所研究员、博士生导师。2016年,他决定先投身自动检测行业的创业之中,并把一家初创公司做成了细分领域的世界第一。

    经过沉淀,张正涛既有深耕机器人领域十几年的技术沉淀,又深谙将技术转化为产业动能的商业逻辑。2023年8月,他创立灵宝CASBOT,入局人形机器人领域。据悉,公司预计在今年发布双足、轮式人形机器人整机产品和全新灵巧手。

    来源:微信公众号“创投日报”