博客

  • 宇树G1又炫技,脚踩梅花桩如履平地,网友:疑似少林寺训练内容流出

    宇树G1又炫技,脚踩梅花桩如履平地,网友:疑似少林寺训练内容流出

    宇树G1又炫技,脚踩梅花桩如履平地,网友:疑似少林寺训练内容流出

    智东西·2025年02月20日 17:58
    浙江大学、上交大又发布人形机器人研究新成果。

    宇树G1人形机器人在跳舞流畅得被人质疑像AI生成的一样后,又练起少林功夫了。

    机器人前瞻2月19日报道,今天,上海AI实验室、上海交通大学、浙江大学、香港大学、香港中文大学联合发布了一项新成果——BeamDojo强化学习框架,这是第一个可以让人形机器人在落脚点稀疏的危险地形上实现精细落脚点控制的基于学习的方法。

    在像踏脚石、平衡木这类落脚点稀疏的危险地形上行走,对机器人腿部运动来说是一项巨大挑战。机器人需要精确处理感知信息,在安全区域内精准放置脚步,并在整个过程中保持基座稳定 ,才可以灵活安全地进行移动。

    具体来说,主要有两大方面的技术难点:

    • 四足机器人已经解决了在这种落脚点稀疏的危险地形上行走的问题,但是却很难把同样的方法套用到人形机器人上。因为大多数四足机器人的脚是点状,但人形机器人的脚通常被是多边形,为点状脚设计的落脚点奖励并不适用于多边形脚。
    • 基于学习的人形机器人运动研究,在复杂地形和精细落脚点上的灵活运动方面还是存在不少问题,用于评估脚步放置的奖励信号很稀疏,学习过程效率极低,难以获取可靠的感知信息。

    所以,研究团队开发了BeamDojo强化学习框架,可以让人形机器人在稀疏落脚点上能灵活移动。

    在演示中,G1可以稳定地穿越多个面积狭小约20厘米宽、间距不一的像梅花桩一样的踏脚石。甚至,它还可以做到倒退着穿越踏脚石。

    20厘米宽度的平衡木挑战也不在话下。

    在平衡性方面。G1就算是在背负6千克重物、遭受外力干扰的情况下,也可以很好地穿越这些复杂地形。

    网友评论:越看越像人形机器人去少林寺训练进修了,疑是中国功夫片场景流出。

    据Huayi Wang介绍,这个框架主要有以下创新点:

    • 设计了两阶段的强化学习训练策略,让机器人学习效率更高。第一阶段让机器人在平地进行训练,通过输入地形参数让算法在安全环境中预学习;第二阶段切换至实际任务地形中进行策略优化。
    • 研究团队为多边形脚掌量身定制了基于采样的落脚点奖励机制,并采用“双评价器”(double-critic)架构,来平衡密集移动奖励和稀疏落脚点奖励之间的学习过程。
    • 搭载基于激光雷达的高程地图系统,使机器人能实时感知地形细节,为精准落脚提供数据支持。
    • 可以实现零样本泛化,尽管G1在训练过程中并未接触过稀疏地形与平衡木,但它却能对各类稀疏落脚点地形做到零样本泛化。

    实验表明,BeamDojo在模拟环境中实现了高效学习,在现实世界中,该框架也能让人形机器人在稀疏落脚点上精准落脚并灵活移动,并在受到较大外部干扰的情况下也能在保持较高的成功率,还可以进一步应用到像沟壑等更多具有挑战性的复杂地形中。

    来源:微信公众号“智东西”

  • DeepSeek的列车,有人准备躺上去了

    据说,全国的大城市,都在为错过DeepSeek彻夜难眠。

    江苏省委机关报《新华日报》旗下“交汇点”在2月7日晚、8日上午连发三篇专稿文章《DeepSeek为什么会出现在杭州?》《为什么南京发展不出“杭州六小龙”?》《杭州有DeepSeek,南京有什么?》

    深圳的自媒体集体反思:这里没有诞生DeepSeek,是不是深圳不行了。还有部分科技企业动了心思:接下来要不要搬到杭州去?

    下情上达,深圳立马宣布:全面接入入DeepSeek,“AI公务员”上岗。

    但,个别自媒体仍然紧追不放,喊出“拿来主义救不了深圳”。

    之前,四大一线城市在互联网科技领域长期“三强一瘸”,北京有字节、美团,上海有拼多多,深圳有腾讯、华为,广州是那“一瘸”。

    诞生了阿里等互联网公司的杭州,一直奋起直追,但也仅仅是对“第四席”广州形成威胁。

    直到DeepSeek出现,所有城市都露出了紧张感。

    因为,很多城市和公司都吃过经济转型升级、“移动互联网”代替PC的痛。现在,全互联网行业都把AI当作了另一次“移动互联网”大潮。

    因移动互联网来临而面临死亡的公司:国美、苏宁、天涯、人人、九城、易趣……

    后来出现的互联网巨头,字节、拼多多、美团、腾讯、滴滴、淘宝,每一个长大的土壤都是移动互联网。

    每一次大潮来临,都会诞生一批巨头,也会有一批企业死去。一家公司的死亡是小事,但在整个产业革新中没有上车,错过的可能是一整个时代。AI时代的到来也会一样。

    没有人想错过未来。因此,AI必争。

    而DeepSeek就是打破平衡,AI路上最快的那趟列车

    01 

    “造车”很难,但地产行业有一个非常形象的词,用来形容拿到红利:上车。

    他们把房价的飞速上涨比作一辆列车,只要你买房上了车,躺着就可以吃到涨价的红利。

    在价格红利之外,还有一种普通人很难看到的红利:资本红利。用股市举例,最直接的吃红利方式就是蹭热点概念股,把低估值资产向高估值领域转移。

    因此,由“上车”思维延展,在公司运作层面又有了:搭车、挂车、套牌车的逻辑。

    如何“搭车”DeepSeek,上周居然智家完美演示了一次。2月10日至14日五个交易日内,居然智家市值从214.9亿元,暴增至347亿元,增加132亿元。原因是公司接入了Deep Seek,拥抱AI。

    在股价暴涨期间,2月12日,元宵节,居然智家董事长汪林朋再次讲话说:新一年有几件重要的事情:第一、3月要参加英伟达GTC大会;第二、推出家装行业的自有大模型;第三、成立智能家居研究院;第四、推动家装AI设计样板间落地;第五、打造北京最大的新能源汽车交付中心。

    简要明了,AI、新能源全部击中。

    地产企业曾经也深谙其道。听说,有几家地产公司正在打听:如何接入DeepSeek?

    地产企业上一次对互联网这么兴奋,还要追溯到“互联网+”时期。

    在“互联网+”概念火热的那几年,大量上市地产企业也纷纷“+互联网”。鑫苑做云和机器人,SOHO中国做共享办公,花样年、乐生活做社区O2O,当代地产做众筹买房……万科、碧桂园、恒大们,每家都有几个与当时热门产业关联的业务线。

    一个“研习知识”的地产公号说,他们做得好是因为:“善用杠杆享尽市场红利”。“杠杆”不仅包括资本杠杆,还有“品牌杠杆”。

    所谓的“品牌杠杆”,就是把高度再拔一拔

    02

    有的地产企业不在明处搭车,而是暗中“挂车”。

    2017年9月,佳兆业斥资17.58亿收购A股上市公司明家联合21.25%的股权,成为其控股股东。

    佳兆业入主后,“明家联合”改名“佳云科技”,由郭英成之子郭晓群担任董事长。

    佳兆业曾计划将旗下互联网、大健康等产业资源注入佳云科技,推动其从互联网营销向“互联网+”综合服务转型,担当郭英成家族在境内的上市、融资平台,但因政策及市场环境变化未果。

    佳云科技只是一个样本。2015年前后,开发商通过互联网、大健康、金融、汽车等曲线寻找境内上市、融资平台的案例比比皆是。

    如今,翻开碧桂园、万科等企业上市体系外的“影子公司”,还能看到一个庞大、密集、错综复杂的资产网——每一个公司,都有其注册成立的直接目的。

    营销天才史玉柱曾经说过:实业家创造社会财富,资本家优化社会财富。

    不过,很多企业家自动把自己归到了“资本家”一档,并把社会财富向自己进行“优化”。

    当创造财富,把企业业务做强做大太艰难,他们就开始“走捷径”,创造概念,搭车热门概念。

    而DeepSeek、机器人,就是眼下最热门的概念。一群企业跟风而上,跟风而“接(入)”。

    对此,小栖的一位朋友评价:“都在找机器人要估值:现在很多机器人公司跟风研发,重点展示走路,其实机器人走路不走路无所谓的,重点研发方向应该是手,因为人类正是因为有了灵巧的手,才能制造各种工具,以及解决日常生活的各种问题。但是走路的机器人展示效果很好,毕竟看上去更像人。”

    对于这个问题,DeepSeek自己回答:

    全球经济不确定性下,科技赛道成为资本避风港。AI与机器人作为“硬科技”代表,容易获得政策扶持和融资,导致企业通过概念包装获取资源。但这场竞赛的本质,是对产业痛点的敬畏之心与工程化能力的终极考验。

    来源:微信公众号“未来可栖”

  • 微信接入DeepSeek后,腾讯正在把产品all in AI

    微信接入DeepSeek后,腾讯正在把产品all in AI

    腾讯CEO马化腾曾表示:

    对于工业革命来讲,早一个月把电灯泡拿出来,在长时间跨度上来看是不那么重要的。

    从Chat GPT出现,再到DeepSeek赋能中文互联网。

    眼下观望已久的腾讯终于决定出手了。

    腾讯正在把产品all in AI

    为什么说在2025年的开年阶段,腾讯正在将旗下产品和团队精力all in AI。

    在腾讯元宝从TEG(技术工程事业群)转入CSIG(腾讯云与产业事业群)后,搜狗输入法、QQ浏览器、ima等产品和应用也正式转入了CSIG,共同构成了腾讯向大模型时代挥出的“组合拳”。

    站在产品角度上进行观察,我们会发现资历老、用户多是搜狗输入法和QQ浏览器在AI时代的核心优势。它们的应用场景不仅可以无痛嵌入AI写作、AI搜索等大模型应用方向,其成熟的用户和内容积累,更是帮助腾讯省去了推广、培养用户使用习惯的成本。

    而ima作为腾讯内部在2024年10月孵化的AI原生应用,其“智能工作台”的产品定位搭配同公众号、微信直接联动的接口优势,也为广大用户提供了“搜、读、写一体化”的全新体验。让腾讯在使用AI技术赋能既有产品的同时,拓展了旗下AI产品的辐射空间,实现了“老产品”和“新路径”的两手抓。

    无论是产品对AI概念的快速适配,还是团队组织架构的灵活调整,它们都在一定程度上让我们见到了腾讯布局AI生态的决心。

    从春节结束的那天起,元宝、腾讯文档、腾讯地图、QQ音乐等腾讯产品对AI的适配消息就未曾断绝。

    由此可见,在DeepSeek引发了中文互联网的技术升级后,腾讯已经结束了自己在AI时代的“观测阶段”并为不同的产品找到了不同的发力点。

    在接下来的时间里,腾讯内部大概率会在组织结构、资源扶持层面进一步发力,以此实现品牌、旗下产品对大模型时代的全面拥抱。

    弯道超车的关键是老树发新芽

    腾讯CEO马化腾曾表示:“对于工业革命来讲,早一个月把电灯泡拿出来,在长的时间跨度上来看是不那么重要的。关键还是要把底层的算法、算力和数据扎扎实实做好。”

    这也就意味着,和AI相关产品的推出速度相比,腾讯内部更在意产品的使用体验,在意如何在现有、未来的应用场景中培养、维护用户的AI使用习惯。

    对腾讯而言,新赛道的开拓固然重要,但用新技术赋能老产品去实现“老树发新芽”的想法同样不能放弃。

    拿国民级APP微信举个例子。

    身为一款聊天软件,微信不是没有过挑战者。

    即时聊天、语音条互动等概念只能让它实现从0到1的变化,助其在“聊天软件”这个赛道里站下脚跟。

    若想实现从“应用”到“国民级应用”的转变,就要在不同的互联网产品周期里灵活运用“老树发新芽”战略去维持用户黏性,强化自己的产品地位。小程序、小游戏的出现如是,视频号、直播号的出现亦如是。

    在今天,历经多次“AI赋能”概念的冲击后。

    微信观望许久终于做出了接入DeepSeek的决定。

    相关报道显示,微信搜索在增加“AI搜索”功能后,整个公众号模块下的内容都将被纳入AI搜索的内容数据库。这样做除了可以帮助用户更好的解决问题外,还能让公众号推文的热度跨越传播周期,强化其以内容为导向的发展模式,进一步激活创作者的创作热情。

    最终让平台依托灵活、精准的AI推荐、解答机制,一举实现“用户、创作者”黏性的双重升级,完成平台正循环的量身定做。

    要知道,微信作为目前的国民级应用。

    它所做出的每一个决定、每一个更新,都会让腾讯本体迎来极高的关注度。而本次微信所展现出的高调态度,除了有为新功能造势的直观意向外,还通过对技术、用户体验的“双重押注”,一举击穿了外界对腾讯在大模型领域动作迟缓的错误印象,让自己成为了拥有后发优势的“冷静拳手”。

    谁会率先找到下一个杀手级应用

    随着词条“腾讯华为等接入DeepSeek每月亏超4亿”登上热搜,人们对大厂押注AI的行为也产生了一丝不解。

    相关内容显示,现在国内的大厂虽然纷纷接入了DeepSeek,但大家所采用的运营模式基本都是免费模式、低价模式。(满血版DeepSeek-R1每百万token仅收取16元)

    倘若企业每日输出1000亿token,则其每月基于DeepSeek服务的机器成本就高达4.5亿元,造成亏损4亿元;哪怕使用AMD芯片月收4500万,月机器成本下降至2.7亿元,也会有超2亿元的亏损存在。

    简单来说,当前大厂正陷入“用户越多,亏损越多”的商业怪圈。

    既然每个月都有亏损,那为什么目前没有一个大厂暂停布局AI的计划?

    因为大家都在搏那个“找到杀手级应用”的机会。

    虽然AI聊天机器人、AI搜索等功能代表了实现AI to C的重要诠释,但它们的本质都是各家公司探索AI潜力的不同方式以及用AI赋能自家产品的不同路径。直到今天,市面上一直没有出现真正意义上的“杀手级AI应用”。

    对那些布局AI赛道的大厂而言,他们的核心任务是坚定自己的AI转型步伐,因为市场、技术发展趋势均在暗示我们AI是下个商业版本的答案。在转型计划启动后,大厂的主线任务也就变成了发现、寻找用户真正想要的、能代表应用2.0体验的内容。

    正如微信押宝AI搜索那样。

    大家都在用自己的方式去抢夺AI时代的技术优势,去挖掘AI时代的用户所想。

    一旦领先他人实现了上述两点,那么未来的天平也将向自己全面倾斜。所以和主导未来的赛道话语权相比,眼下的亏损数字根本无法减缓大厂前进的步伐。

    参考:

    科创板日报:四大产品线合龙 腾讯跑步搭建AI应用矩阵

    证券时报:「e公司观察」超级应用接连联姻DeepSeek “技术共同体式”互联互通或成新趋向

    钛媒体APP:DeepSeek冲击下的互联网巨头:谁在崛起,谁在掉队

    来源:微信公众号“互联网那些事”

  • DeepSeek成BAT生死符,不接入就出局?

    DeepSeek成BAT生死符,不接入就出局?

    在自家云平台完成部署DeepSeek后,一众科技大厂又有了更为深入的新动作。

    先是阿里旗下的办公软件钉钉全面接入DeepSeek系列模型,随后微信搜一搜灰度测试接入DeepSeek R1满血版模型,百度搜索也官宣将全面接入DeepSeek,并且24小时内便全量上线。

    除了阿里外,腾讯和百度均将DeepSeek带到了自家最核心、流量最大的超级APP中,但百度引起的争议显然更大,其中除了对其如此迅速“缴枪”表示不理解外,更是对百度此前投入百亿All in AI的质疑。

    其实选择在自家主力APP中接入第三方大模型服务,是国内大厂的一次战略转变,也是一次对企业未来的押注。DeepSeek在行业中产生了一种化学反应,促使各玩家将点转向如何利用先进模型来赋能自家业务场景。

    从流量层面而言,DeepSeek就是当下最大的流量密码,从业务层面而言,DeepSeek不仅提供了强大的技术支持,在提升用户体验、优化业务流程方面也具备巨大潜力。

    微信和百度搜索的率先接入,无疑会将压力给到还未有主力APP接入的阿里系和字节系产品,但对于马化腾和李彦宏来说,拥抱DeepSeek也会带来新的考验。

    互联网巨头竞逐

    在互联网巨头中,腾讯拥抱DeepSeek的动作最为果断坚决。在微信最近的一次灰度测试中,上线了基于DeepSeek-R1的“AI搜索”功能,要知道此前腾讯自家的大模型都没有如此待遇。

    其中原因很大程度上是因为过往的大模型产品,不能给到微信用户像DeepSeek-R1这样的搜索体验的大幅升级。简单来说,对于在产品功能更新方面一向小心谨慎的微信来说,这种高调的操作,展现出了其积极拥抱优质AI的策略。

    作为一家具备极强产品基因的企业,腾讯坚持了应用体验优先的准则,在足够优秀的大模型体验出现之前,没有轻易投下自己手中的筹码。

    不止是火速接入微信,腾讯的果断还在于,其是目前唯一一个在自家大模型产品中直接接入DeepSeek大模型的互联网大厂。并且截至目前,腾讯地图、QQ音乐、腾讯文档等产品均已快速接入DeepSeek。

    ▲ 图/腾讯文档的AI文档助手

    腾讯施压之下,百度搜索跟进接入DeepSeek被看作是积极求变的信号。

    其实在百度搜索宣布接入DeepSeek之前,百度就改变了大模型发展路线,先是宣布文心一言将全部免费使用,后来直接一改闭源策略,开始拥抱开源路线,称未来几个月内推出的文心大模型4.5系列,将走向开源。

    而百度搜索接入DeepSeek一方面是应对微信搜一搜AI化带来的压力,另一方面则是为快速稳住搜索的基本盘,保证集团整体业务稳定。另外为了应对B端开发者流失的压力,与百度搜索接入DeepSeek同时宣布的,还有文心智能体平台将全面接入DeepSeek的消息,而在这之前百度智能云千帆大模型平台也已上线DeepSeek模型。

    显然,在对文心一言的执念和缓解用户流失压力的抉择中,李彦宏选择了后者。

    与腾讯和百度果断的将先进大模型上线业务侧产品不同,字节在是否接入DeepSeek的问题上给到了更为保守的答案。

    截至目前,字节系产品中,抛开云平台火山引擎不谈,字节系业务侧产品中,仅有飞书官宣上线了DeepSeek系列模型,且在实际操作后发现,其入口也极为隐藏,需要用户新建多维表格-添加列-搜索字段捷径后,才能找到DeepSeek R1的使用入口。

    最“保守”一定程度上也是“自信”的表现,毕竟在DeepSeek之前,豆包才是那个断层式领先的AI大模型,字节或许有足够的时间或者说相信自家研发人员在有限时间内,能让自研模型达到甚至超越DeepSeek的水平。

    DeepSeek的开源生态大大加速了AI场景落地进程,而面对DeepSeek异军突起带来的用户“涌现”,曾经在大模型探索道路上“故步自封的”互联网大厂,也不得不顺应趋势,做出改变。

    改变互联网格局

    大厂争先恐后接入DeepSeek,不仅仅是因为看到了技术趋势可能给行业带来的变化,也是想在AI这场持久战中建立阶段性优势。

    例如在云服务市场,DeepSeek带来的热度和低成本优势,成为打破市场价格战和吸引中小客户的突破口,谁能更快接入DeepSeek,就便能巩固现有市场,并且争取到那些为成本发愁的新客户。

    当然,这场“硬仗”的重点还是在于应用场景上。

    马化腾曾表示,“对于工业革命来讲,早一个月把电灯泡拿出来,在长的时间跨度上来看是不那么重要的。关键还是要把底层的算法、算力和数据扎扎实实做好,而且更关键的是场景落地,目前(我们)还在做一些思考。我感觉现在有很多公司太急了,感觉是为了提振股价,我们一贯不是这种风格。”

    显然,这个过程中,是否有自研大模型或者说是否依赖第三方大模型可能并不重要,重要的是,如何将现有的核心场景进行AI化。

    AI搜索便是最具代表性的产物。

    在前两年大模型火热之后,搜索便成为所有AI玩家率先抢占的高地。但好在,这些AI搜索产品给出的答案不够准确,内容不够完善等原因,导致它们始终难以撼动谷歌和百度搜索地位。

    不过DeepSeek打破了AI搜索既有平衡,将用户体验向前推进一大步,并且腾讯毫不犹豫地打出了微信AI搜索的底牌,促使百度也跟进接入DeepSeek,引发了行业的轰动效应。

    两大巨头的两款国民级APP同时拥抱DeepSeek,是一场搜索入口的保卫战,也意味着AI搜索时代的真正到来。这一变革将深刻改变用户的搜索方式,也将对整个互联网行业产生广泛影响。

    无论是拥有巨量用户的腾讯还是深耕搜索的百度,一旦利用DeepSeek补足自身AI产品在深度推理等能力上的短板,便能帮助其APP获得更广泛的用户,从而抢先成为最具有想象力空间的AI超级应用。

    其实微信和百度搜索只是具有代表性的超级APP和DeepSeek的组合,不止在搜索领域,未来短视频平台、图文平台、社交平台等等,这些拥有巨量流量的地方,都是AI改造的重点。

    在这个过程中,用谁家大模型、借助怎样的AI技术,都不再是各家企业乃至用户们关注的重点,一个好用的大模型不会再是赚钱的手段,而成了留住用户的必要条件。各个大厂未来一段时间需要面对的问题也只有一个,如何将更出色的AI大模型落地到自家产品。

    AI生态下最优解

    过去两年中,大模型给传统应用带来的体验升级,让越来越多人开始认同一种观点,所有应用都值得用大模型重做一遍。从微信到百度搜索,超级APP加上DeepSeek这样先进技术的组合,也向外界展示着未来产品生态的可能性,即AI可能更有利于现有应用厂商,尤其是头部应用厂商。

    腾讯就是极具代表性的例子。通过让微信搜一搜、腾讯元宝、腾讯地图、QQ音乐、腾讯文档等产品快速接入DeepSeek,一举扭转了外界对其在大模型领域动作迟缓、战略不够清晰的判断,从一个大模型研发的跟随者成为了一个拥有后发优势的重要玩家。

    也印证了此前金沙江创投主管合伙人朱啸虎所说,在现有应用基础上,融入AI能力,是当下AI落地更实际的选择。未来,甚至不排除由DeepSeek输出技术,由科技大厂输出应用和场景的新模式出现。

    的确,业务范围更广的大厂可以借助更出色的开源模型,完成更快的私有化部署,弥补自身的技术短板、提升产品体验、尝试功能创新。例如微信和百度通过接入DeepSeek,在其原有的搜索功能之上,新增了深度分析能力,用有限的成本拔高产品价值,实现“四两拨千斤”式的产品升级。

    不过率先接入,也并非占据领先身位。例如搜索领域,从传统搜索进入AI搜索时代后,竞争既需要模型的处理能力、也需要优质的内容供给。当大家都向优质大模型抛出橄榄枝后,理论上中长期各家的搜索处理能力拉平,赛点便来到内容供给储备以及生态丰富度上。

    毋庸置疑,相比创业公司重构新的场景,大模型无疑更加利好行业中的头部玩家。对于具有丰富业务生态的大厂来说,以及已经拥有使用场景的玩家,很容易就能为自己的产品加上AI的功能,而这也能快速提高业务协同效率、创造差异化优势。

    不过需要注意的是,“DeepSeek接入潮”背后可能会存在技术同质化的问题。当相同行业、相同市场推出相似产品或服务时,用户侧难免会出现“用谁家都一样”的心态。而要避免这种情况发生,要么比同行更快,要么结合自身优势实行定制化、差异化的用户留存策略。而这个过程拼的便是企业在产品、在服务上的能力。

    这场由DeepSeek引发的AI变革中,互联网巨头们纷纷调整战略,试图在新的技术浪潮中占据一席之地。然而,这场变革并非只是技术的简单应用,更是对企业战略眼光、执行水平、产品能力和生态构建能力的全方位考验。只是站在技术涌现的十字路口,无论大厂如何做选择,都值得我们给予更多耐心。

    来源:微信公众号“新熵”

  • “杭州六小龙”IPO首秀来了

    DeepSeek掀风浪,宇树科技上春晚;这段时间,大家的目光齐聚杭州与“六小龙”。

    “六小龙”指的是DeepSeek主体公司深度求索、宇树科技、游戏科学、云深处科技、强脑科技和群核科技这六家杭州新技术前沿领域企业。

    近期,其中之一的群核科技带头首冲IPO,向港交所递交招股书,欲当“全球空间智能第一股”。

    14年间,群核科技以“酷家乐”颠覆家居设计行业,月活及市场份额跃升至行业第一。背后创始团队是三位80后留美学霸,以AI与GPU技术重构空间设计,融资近3亿美元,投后估值超160亿元。

    机构股东包括:纪源资本、顺为资本、IDG资本、高瓴创投、经纬创投、Coatue、赫斯特资本、Pavilion Capital、云启资本、线性资本等知名机构。

    IPO前,IDG资本、纪源资本、高瓴创投均持有群核科技超10%的股份。

    80后浙大系留美学霸为空间造梦

    群核科技起源杭州与3位创始人中有2位来自浙大不无关系,黄晓煌和陈航本科毕业于浙江大学竺可桢学院,团队创业初期拿的也是浙大校友的天使投资。

    二人和清华毕业的朱皓则相识于美国伊利诺伊大学厄巴纳-香槟分校(UIUC)这所顶尖工程院校。三人在校期间主攻计算机图形学与高性能计算,黄晓煌曾在英伟达参与GPU架构研发,陈航任职于谷歌广告算法团队,朱皓曾在亚马逊和微软等知名科技公司担任软件工程师。2011年,他们捕捉到中国家居行业数字化空白,毅然回国创业,成立杭州群核信息技术有限公司。

    传统家居设计依赖AutoCAD等本地化软件,渲染一张效果图需数小时,客户体验滞后。群核科技瞄准这一痛点,提出“云设计”概念:将设计软件云端化,通过GPU集群实现实时3D渲染,用户拖拽模型即可生成逼真效果图,效率提升百倍。黄晓煌曾直言:“我们要让设计像发微信一样简单”。

    2013年,公司推出聚焦家居设计工具的旗舰产品“酷家乐”,并在2年内迅速以“免费+订阅制”快速占领中小设计师市场,积累超8000万户型图库。

    2016年,公司进入生态扩张阶段,不仅收购建筑模型平台Modelo、软装设计工具美间,还推出海外品牌COOHOM,构建覆盖设计、营销、供应链的全链条SaaS平台。

    2021年后,群核科技实现技术跃迁,发布面向室内环境AI开发的下一代空间智能平台SpatialVerse,其整合AIGC、AR/VR技术,进军机器人训练与元宇宙场景。

    14年间,群核科技的能力已经发生了从工具到生态的演变。截至2023年,酷家乐占据中国空间设计软件市场22.2%份额,MAU(月活跃用户)全球第一,服务顾家家居、索菲亚等超2万家企业客户。

    根据弗若斯特沙利文的资料,按2023年的平均月活跃用户(MAU)数目计算,群核科技是全球最大的空间设计平台;按2023年的收入计算,群核科技亦是中国最大的空间设计软件提供商,约占22.2%的市场份额。2024年,群核科技的平均月活跃访客数为8630万名。

    毛利飙高至80%

    招股书显示,2022-2024年前三季度营收分别为6.01亿、6.64亿、5.53亿元,收入年增速约10%-14%。

    企业客户构成了公司收入的主要支柱,涵盖了设计公司、家具制造商、房地产开发商等众多领域。报告期内的企业客户分别达到3.31万、4.11万和4.55万名,贡献了超过八成的营收。

    陈航曾表示,自AI赋能了以后,公司产品会越来越2C、更大众化。目前,公司也在孵化“AI超级助理”这类新产品。自征战海外市场后,该市场占比在报告期内分别为11.3%、6.0%和7.4%,也在逐步调整中。

    财务一大亮点是毛利率,从72.7%攀升至80.4%。尽管毛利可观,报告期内的净亏损还是高达7.04亿、6.46亿、4.22亿元。

    研发与营销成两大“吞金兽”。2024年前三季度,公司研发投入2.63亿,占比为47.6%,销售费用为2.48亿,占比约44.9%,合计吞噬92.5%营收。

    面对亏损局势,群核科技CEO陈航曾向媒体表态,群核科技的重点仍在研发,核心依然是运用数字化能力提高产业效率。“任何一家企业长期肯定要实现盈利,现阶段虽然支出比较高,但资本看到公司增长、客户价值后,依然愿意来投资我们。”

    IPO缓解资金压力势在必行。招股书表示,此次融资将用于国际扩张、技术升级与市场扩展。

    纪源资本、经纬、高瓴等投出一个超160亿独角兽

    2013年获得IDG资本A轮融资后,群核科技开启资本化快车道,8轮融资引入纪源资本、高瓴、经纬等顶级美元基金为主的基金,估值飙升至22.42亿美元(超160亿元)。

    成立伊始,创始团队通过个人关系和校友资源获得了浙大校友王淮等个人投资者的资金支持,解决了公司初期的燃眉之急。

    A轮融资发生在2013年,因看好其技术潜力,IDG资本领投,投资金额为数百万美元。

    随着酷家乐产品的上线和用户增长,群核科技进一步吸引了多家知名机构的关注。次年完成B轮1000万美元,纪源资本领投,经纬、IDG、云启创投和赫斯特资本跟投。

    2016年,IDG资本、纪源资本、经纬、赫斯特资本、云启等继续加注,线性资本首次加盟,公司拿到数千万美元C轮融资。此时公司估值达到5亿美元,这标志着群核科技在空间设计领域的领先地位逐渐确立。

    2018年,群核科技进军海外市场之际D轮融资发生,顺为资本领投、淡马锡旗下Pavilion Capital跟投,老股东IDG资本、纪源资本、云启资本、赫斯特资本、线性资本继续跟投,融资金额超1亿美元,投后估值约6亿美元。

    2019年融资还在继续,由高瓴领投,老股东顺为资本、纪源资本等跟投的D+轮融资后,估值跃升至10亿美元,成为行业独角兽。

    2021年,公司完成上市前最后一轮融资,高瓴、Coatue等现有股东跟投,融资金额为2亿美元。此轮融资后,公司估值达到20亿美元。其随后开启赴美上市之路,受中概股监管风暴影响于2023年2月停下步伐,并于2025年2月赴港递交招股书,终成“杭州六小龙”IPO首秀。

    来源:微信公众号“投中网”

  • AI成人娃娃火了,当情趣娃娃用上DeepSeek,赛博女友真来了

    AI成人娃娃火了,当情趣娃娃用上DeepSeek,赛博女友真来了

    朋友们,今天咱们聊点刺激的。

    这两天,AI成人娃娃火了,甚至把A股上那些AI娃娃概念股全都给干涨停了。

    起因是一则南华早报的文章。据说,广东中山有家叫金三玩美的公司,把AI模型安到了硅胶娃娃上,直接把硅胶娃娃拉进了下一个时代。

    自从有了AI,硅胶娃娃不再只是个哑巴新娘,还能把情绪价值给你拉满。比如,如果用户这次表现比上次好,会给出夸赞,反之如表现不佳,娃娃也能提供安慰——“没关系,2分钟也很厉害了”。

    这样的情绪价值,直接让买家赞不绝口。金三玩美的老板透露,靠着AI大模型,今年销售额能够增长30%。

    01 当情趣娃娃学会PUA,赛博女友的福报来了?

    说起金三玩美,堪称成人界的拼夕夕。十年前还在给淘宝店做塑料模特,发现隔壁岛国硅胶娃娃卖8万一个,当场拍大腿:这钱不赚不是中国人!

    结果硬生生把价格砍到十分之一,直接把日本同行干出脑血栓。

    金三玩美90%的销售额来自出口,其中卖到老美的占到公司出口量的一半。现在中国向全球出口的每10个硅胶娃娃里,有4个印着Made by金三(别问我怎么知道的)。

    但你以为这就完了?人家现在玩得更野——给娃娃装ChatGPT,甚至生产线上也开始用AI 3D建模取代人工建模!这波操作堪称情趣用品界的工业革命,建议马斯克连夜买票来中山进修。

    他们的MetaBox系列堪称赛博妲己,包括温柔、活泼、知性等8种性格任君挑选。温柔型开口就是”哥哥加班辛苦了”,傲娇型能翻三个月前的旧账,最绝的是毒舌型,完事还嘲讽你:

    “就这?我前任可是马拉松选手”

    更骚的是订阅制玩法:花1500-2000刀买回家只是个哑巴新娘,想解锁互动语音包?每月再交100-200刀!不过公司会免费赠送一年。

    一旦你交了钱,娃娃就具备了长期记忆的能力,可以连续数天进行对话(最多3个月)。如果用户这次表现比上次好,会给出夸赞,反之如表现不佳,娃娃也能提供安慰——“没关系,2分钟也很厉害了”。

    目前,金三玩美已经集成了多种开源大语言模型,包括Meta的Llama模型,同时在权衡是否整合DeepSeek,因为一些海外国家,如意大利,并不支持DeepSeek模型。

    最魔幻的是隐私条款——”数据绝对本地存储,随时可删”。翻译成人话就是:你那些深夜emo的聊天记录,删得比前任微信还干净。

    但别急着下单,这玩意国内根本买不到!

    在国内,虽然金三玩美也开设了淘宝店铺,但不供应MetaBox系列。

    据了解,金三玩美淘宝店铺在国内销量最高的两款的成人娃娃,销量都在100+左右,售价分别为3280元和4990元,但这两款产品只是纯粹的硅胶娃娃并没有内置AI功能。

    店铺中售价最高的产品为9780元,同样不具备AI功能,只是简单的内置天猫精灵助手。

    也就是说,想体验AI版的朋友们,还得找海外代购。

    之后,他们还要和深圳的AI仿生机器人公司无芯科技合作,生产具有动态面部表情和避震动作的娃娃,以后娃娃能翻白眼、能假哭,就差学会要彩礼要包包了。

    02 赛博温存,1万起步!

    其实,在AI成人娃娃前,AI情趣玩具已经不是一个新鲜事物了。

    2017年那会儿,美国老哥马特·麦克穆伦整了个大活:推出了全球首款会说话的硅胶女友Harmony。在CES 2018上,马特·麦克穆伦又带来了Harmony的升级版。

    Harmony头部的价格约为8000美元,一个完整的Harmony性爱机器人价格则超过1万美元。虽然价格不便宜,还真有人愿意买单。当场,马特·麦克穆伦就收到了就20个订单。

    在今年CES上,这老哥又来了,身份变成了Realbotix COO,还带来了两款新货:Aria和Melody。

    其中,Aria是Realbotix去年推出的人形机器人,而Melody是其最新的人形机器人。

    Melody最大的改进就是逼真,不仅皮肤看起来和摸起来都很逼真,眼睛里还嵌入的先进微型摄像头,这让Melody能够更好地与人保持眼神交流。

    与之前不同的是,这两款机器人的定位都不在是性爱机器人,而是陪伴机器人。根据马特·麦克穆伦介绍,Realbotix则定位于制造定制化的超真实AI机器人,用于娱乐、陪伴、医疗保健和教育市场。

    虽然机器人干的工作从性爱转到了陪伴,不变的是这份赛博温存的价格。根据介绍,Melody机器人半身像价格为1万美元,全身型变体的价格为17.5万美元,这个价格可着实不低。

    除了Realbotix外,其实市场上也有不少有特点的性爱机器人/娃娃公司:

    Abyss Creations(美国)

    Abyss Creations全球首个推出AI交互式成人娃娃的企业,也是马特·麦克穆伦的另一家公司,最早做人体模型和情趣玩偶起家。

    性爱机器人“Novax”是由美国公司 Abyss Creations 旗下的 RealDoll 制造的,外形都很“写实”,脸部仿生度很高。这款机器人采用模块化设计,用户可以根据个人偏好定制其外观和功能,不过要多付5000美元。

    Novax的基础版本售价为7199.99美元,并具备一定的交互能力,例如能够模拟面部表情和语音反应。

    嵌入机器人下体的传感器,需要另外付钱。它可以模拟人体的接触,检测使用者的运动,反馈给机器人,让她做出逐渐兴奋的反应——但目前也仅仅是声音上的。

    Synthea Amatus(西班牙)

    Synthea Amatus是一家由Sergi Santos于2015年创立的公司,致力于性爱机器人的研发。该公司设计了一款名为Samantha的AI性爱机器人,具备多种模式,甚至可以拒绝性行为。

    Synthea Amatus配备传感器,可以感知触摸的力度,并根据预设程序对用户的行为做出反应。当时,这款全球最先进的性爱机器人之一售价高达2500英镑。

    EXDOLL(中国·深圳)

    EXDOLL同样是一家中国公司,一直以来致力于研发高品质成人玩具。

    和Harmony一样,EXDOLL的性爱机器人都是私人定制,每一款娃娃都会由设计师亲手来打造,从眼球的打磨到精致的妆容,都会是独一无二的设计。

    除此之外,设计师们还为和谐研发了18种人格类型,只需要在手机等智能设备上安装APP,就可以自行定制想要娃娃表现的情感和性格…

    目前为止,每个月都会生产400多台私人定制的性爱机器人。这些机器人的功能基本上和那款Harmony差不多,但是价格却只有它的四分之一,人民币大概是25000元。

    早在2023年5月,蒂艾斯(EXDOLL)就在中国机器人峰会上展出了他们的仿生机器人,银灰发色的女性机器人微表情逼真、皮肤质感接近真人,能够语音播报,尚不能语音对话,当时正在推进接入ChatGPT、文心一言等大模型。

    星辰科技(Starprey)

    星辰科技是一家来自深圳的性爱玩偶生产商。

    去年8月星辰科技CEO李文豹在采访时表示,公司正在目前正在训练自己的大型语言模型,预计将上架两款性爱娃娃(男性和女性两种形态)。

    新一代性爱娃娃由人工智能模型驱动并配备传感器,可以与用户进行语音和肢体的互动,能够大大提升了用户体验。在定价方面,预计售价仅为1500美元。

    星辰公司的目标不止性爱玩具。未来,公司将开发能够做家务、帮助残疾人和提供养老护理的机器人。到2025年,公司的目标是推出首款”智能服务机器人”,能够为残疾人提供更复杂的服务。

    介绍完这些公司,最后说点正经的(难得):

    当AI开始模拟人类情感,当孤独成为可收割的韭菜,到底是我们在消费科技,还是科技在驯化我们,这始终是一个问题,建议各位老铁且用且珍惜。

    来源:微信公众号“乌鸦智能说”

  • 微软Muse秒生游戏登Nature,10亿级画面练出最强AI,千亿游戏市场重洗牌

    微软Muse秒生游戏登Nature,10亿级画面练出最强AI,千亿游戏市场重洗牌

    一夜之间,游戏产业要变天了!微软公布全球首个世界与人类行动模型,名为Muse,可秒生游戏画面,精准预测玩家操作。未来,游戏开发或将从数月压缩至几分钟,千亿美金游戏市场或被颠覆。

    同一天,微软放出两个核弹,首个拓扑量子芯片,还有首个世界与人类行动模型。

    AI离数秒生成游戏视频的未来,又近了一步。

    今天,微软团队首次引入了「世界与人类行动模型」(WHAM),并冠以希腊艺术女神「缪斯」(Muse)之名。

    它可以生成游戏视觉效果、控制器动作,甚至可以全都要。最新研究登上Nature期刊。

    论文地址:https://www.nature.com/articles/s41586-025-08600-3

    在相同的10帧(1秒)真实游戏玩法的条件下,Muse生成了行为和视觉多样性的样例。

    同时,这也是首个基于Ninja Theory的多人对战游戏Bleeding Edge,超10亿张画面训练的GenAI模型。从单个V100集群,成功scaling到多达100个GPU上完成训练。

    Muse AI强大核心在于,对3D游戏世界的深度理解。

    它不仅仅是一个简单视频生成工具,而是能够精准模拟游戏中物理规则、玩家行为。

    比如,当玩家按下手柄某个按键时,Muse AI可以预测游戏世界动态变化,并生成与之匹配的连贯画面。

    传统上,游戏开发需要数月甚至数年,进行角色设计、动画制作和游戏测试。而如今,Muse能够将这一周期从几个月缩短至几分钟。

    对于游戏开发者来说,它的出现无疑是一场革命,是颠覆千亿游戏产业革命的存在。

    就连马斯克在AI游戏上押下重注,据称其创办AI游戏工作室即将要官宣。

    AI重塑游戏开发,全球30亿玩家狂欢

    Muse AI诞生之前,还有这么一段精彩的故事。

    2022年12月,微软研究院游戏智能团队的负责人Katja Hofmann刚刚结束产假,回到工作岗位。

    她忽然发现,在自己休假这段时间里,机器学习领域发生了翻天覆地的变化——

    OpenAI发布ChatGPT,这一基于Transformer架构的生成模型,展示出令人惊叹的能力,尤其是在处理大量文本数据时。

    这一突破,让Hofmann开始思考,生成式AI的崛起,对于AI与视频游戏的交叉领域意味着什么?

    他们发现,尽管GenAI展现出巨大的潜力,但多项研究表明,其能力往往达不到创意人员的期望值。

    特别是,在3D游戏开发这种高难度复杂领域,LLM的应用还面临着诸多的挑战。

    众所周知,3D游戏开发是一个需要多样化创意技能的过程,会涉及到角色设计、场景构建、剧情编写、互动机制等多个方面。

    在Hofmann看来,丰富且多样化的游戏玩法数据,为进一步创新提供了关键数据。

    这种时间相关、多模态的数据能够探索日益复杂的任务,从而生成更高质量3D世界、与NPC互动和游戏机制。

    更重要的是,游戏产业作为全球娱乐产业最大领域,已经覆盖了超30亿人口。

    GenAI的出现,为世界游戏玩家们,甚至游戏工作室提供了一个绝佳的机会。

    那么,微软团队是如何打造出Muse AI?

    Xbox真人实战,超10亿张图像

    微软的游戏智能团队,拥有非常不同的数据来源。

    多年来,研究团队与Xbox游戏工作室的Ninja Theory(与游戏智能研究团队一样,位于英国剑桥)合作,收集2020年发布的Xbox游戏《Bleeding Edge》的游戏数据。

    《Bleeding Edge》是一款4对4的在线游戏。经玩家同意EULA后,比赛会被记录下来。

    研究团队与Ninja Theory的同事以及微软合规团队密切合作,确保数据的收集符合道德规范,并且仅用于研究目的。

    Bleeding Edge部分游戏角色

    Ninja Theory的技术总监Gavin Costello,见证了相关研究,感到非常高兴:

    在黑客马拉松中,首次将AI集成到《Bleeding Edge》中,而这只是开始:此后,从构建行为更像人类玩家的AI智能体,再到世界和人类行为(WHAM)模型在人类指导下,能够构想出全新的《Bleeding Edge》玩法。

    能见证这项技术的潜力,让人大开眼界。

    Muse训练数据

    当前的Muse模型是在Xbox游戏《Bleeding Edge》的人类游戏玩法数据(视觉和控制器操作)上训练的。

    下图左显示的是训练当前模型的300×180像素分辨率。在超过10亿张图像和控制器操作上,Muse(使用WHAM-1.6B)已经进行了训练,相当于人类连续玩7年多游戏。

    下图右是相关研究团队,一起体验《Bleeding Edge》游戏。

    直到2022年底,游戏智能团队一直将《Bleeding Edge》视为类人导航(human-like navigation)实验平台,还没有真正利用手中大量的人类玩家数据。

    在文本模型的启发下,研究团队开始思考:「如果我们使用基于transformer的模型来训练这些海量的游戏数据,我们能够取得什么样的成果?」

    扩大模型训练

    随着团队开始深入研究,面临的一个关键难题是如何扩大模型训练的规模。

    最初,使用了一个V100集群,并成功验证了如何扩展到在多达100个GPU上进行训练。这为后续在H100上进行更大规模训练奠定了基础。在项目初期,做出了一些关键的设计决策,主要是关于如何充分利用大语言模型(LLM)社区的见解,包括如何有效地表示控制器操作和图像。

    扩大训练规模努力的第一个成果是一个令人印象深刻的演示。

    当时Game Intelligence的研究员Tim Pearce整理了一些训练初期与后期的对比示例。看着这些演示,就像看着模型学习一样。

    这为后续展示这些模型中如何出现缩放法则奠定了基础。

    Muse训练中的一致性

    给模型的提示是:输入1秒的人类游戏玩法(视觉和控制器操作)和9秒的真实控制器操作。

    在这种设定下,Muse如果能够生成与真实情况非常接近的视觉图像,那么它已经捕捉到了游戏动态。

    随着训练的进行,观察到生成的视觉图像质量明显提高。

    在早期训练(10k训练更新)中,看到了初步的成果,但质量迅速下降。

    在100k训练更新后,模型在时间上保持一致,但尚未捕捉到游戏动态中相对不常见的场景,如飞行机制。

    随着额外训练的进行,与真实情况的一致性继续提高。例如,在1M训练更新后,模型学懂了飞行机制。

    真实的人类游戏玩法(左)与Muse生成的视觉图像(使用WHAM-206M)的比较

    跨学科合作:一开始就让用户参与

    很早以前,研究团队就开始探索评估这类模型,比如下列3个项目:

    研究实习生Gunshi Gupta和高级研究科学家Sergio Valcarcel Macua,推动了对线性探测学习到的表征的理解。

    高级研究科学家Raluca Georgescu,负责探索了在线评估的方式。

    研究实习生Tarun Gupta,主导了既有视觉特效又有动作的内容生成的研究。

    但要系统地评估Muse,需要更广泛的见解。更重要的是,需要了解人们如何使用这些模型,以便知道如何评估它们。

    这就是跨学科研究变得至关重要的地方。

    研究团队已经与高级首席研究经理Cecily Morrison和Teachable AI Experiences团队合作了几个月,讨论了这项工作的各个方面。

    在Cecily、设计研究员Linda Wen和首席研究软件工程师Martin Grayson推动下,团队还与游戏创作者合作,调查在创意实践中,游戏创作者希望如何使用GenAI。

    Cecily说:「这是一个很好的机会,在早期阶段就联合起来,让模型满足创作者的需求,而不是试图改造已经开发的技术。」

    关于如何处理这项工作,Linda提供了一些宝贵见解:

    我们已经看到技术驱动的AI创新如何颠覆创意产业——通常让创作者措手不及,让许多人感到被排斥。

    之所以从一开始就邀请游戏创作者,共同塑造这项技术,这就是原因。

    北半球主导了AI创新。认识到这一点,我们还优先考虑招募来自代表性不足的背景和地区的游戏创作者。我们的目标是创造一个惠及所有人的技术——不仅仅是那些已经处于特权地位的人

    WHAM Demonstrator解锁新创意

    现在,随着模型逐渐显现的能力和用户的反馈,是时候将所有部分整合在一起了。

    在微软内部的黑客马拉松中,不同团队共同合作,探索Muse可以解锁的新交互范式和创意应用场景。

    最终,开发了一个原型,命名为WHAM Demonstrator,它允许用户直接与模型进行交互。

    Martin 说:「全球黑客马拉松是一个完美的机会,大家齐聚一堂,构建了了第一个工作原型。我们希望为WHAM模型开发一个界面,这样就能探索它的创意潜力,并开始测试从与游戏开发者的访谈中得到的想法和应用。」

    为了与诸如Muse之类的AI模型进行互动,WHAM Demonstrator提供了与WHAM实例互动的视觉接口。

    用户可以探索新玩法,并进行调整,例如使用游戏控制器来控制角色。 这些功能展示了 Muse 的能力如何在创作过程中支持迭代和调整,帮助用户不断优化和完善游戏体验。

    模型架构与评估

    使用WHAM演示器亲身体验Muse的能力,并从用户研究中获得见解,研究团队系统地确定了在使用像Muse这类生成模型时,游戏创作者所需的关键能力:一致性、多样性和持久性。

    一致性:指的是模型生成游戏玩法时,能够尊重游戏的动态特性。例如,角色的移动与控制器操作一致,不会穿过墙壁,通常反映了游戏底层的物理特性。

    多样性:指的是模型在给定相同的初始提示时,能够生成多种游戏玩法变体的能力。

    持久性:指的是模型能够将用户修改(或「持久」)整合到生成的游戏玩法中的能力,例如将一个角色复制粘贴到游戏中。

    模型架构设计

    建模设计反映了识别出的模型能力,如下图所示。

    一致性:一个顺序模型,能够准确捕捉游戏视觉和控制器操作之间依赖关系。

    多样性:能够生成数据并保留视觉和控制器操作序列条件分布。

    持久性:基于(修改过的)图像和/或控制器操作,通用条件化的预测模型得以实现。

    在全部三个能力中,选择提供可扩展性的组件,这意味着模型应该从大量训练数据和计算资源中受益。

    WHAM设计如图所示,它建立在transformer架构上,作为其序列预测骨干。

    新方法的关键在于将数据框定为离散token序列。

    为了将图像编码为令牌序列,使用VQGAN图像编码器。用于编码每张图像的令牌数量是一个关键的超参数,它在预测图像的质量、生成速度和上下文长度之间进行权衡。

    对于Xbox控制器操作,尽管按钮天生是离散的,将左和右摇杆的x和y坐标离散化为11个桶。然后训练一个仅解码Transformer来预测交织的图像和控制器操作序列中的下一个token。

    然后,该模型可以通过自回归采样下一个token来生成新序列。

    还可以在生成过程中修改令牌,允许对图像和/或操作进行修改。也就是说控制器操作或直接编辑图像本身,可以控制(或提示)生成的能力,这评估持久性的先决条件。

    WHAM架构概览

    一致性

    通过使用真实的游戏玩法和控制器动作来提示模型,并让模型生成游戏视觉效果来评估一致性。此处展示的视频是使用Muse(基于 WHAM-1.6B)生成的,展示了模型生成长达两分钟的一致游戏玩法序列的能力。

    在论文中,还使用FVD(Fréchet Video Distance,视频生成社区中一个既定的指标)将生成的视觉效果与真实的视觉效果进行了比较。

    多样性

    在总共102,400个动作(1,024 条轨迹,每条轨迹100个动作)中,对10,000个人类和模型动作进行子采样,并计算它们之间的距离。

    重复此过程十次,并绘制平均值 ± 1个标准差。越接近人与人之间的基线越好。均匀随机动作的距离为5.3。所有模型都通过训练得到改进,并且可以通过增加动作损失的权重来进一步改进。

    图a:三种WHAM变体的多样性,通过与人类动作的Wasserstein距离来衡量。

    在下图b中,看到行为多样性(玩家角色在生成位置附近盘旋与直接前往 Jumppad)和视觉多样性(玩家角色安装的悬浮滑板具有不同的皮肤)的示例。

    图b:使用相同起始上下文生成的1.6B WHAM的三个生成示例。

    持久性

    下列视频展示了Muse(基于WHAM-1.6B)如何保持修改的一些示例。

    首先,取自原始游戏数据的一张视觉图像,然后将另一个角色的图像编辑到这张图像中。

    生成的游戏序列展示了该角色是如何被融入到生成的游戏序列中的。

    开源资源

    与此同时,为了帮助其他研究人员,研究团队决定将开源 Muse 的权重、样本数据,并提供WHAM Demonstrator可执行文件——这是一个概念原型,提供了一个可视化界面,用于与 WHAM 模型进行交互,并支持多种方式的模型提示。

    项目链接:https://huggingface.co/microsoft/wham

    像Muse这样的模型,能够学习到的游戏世界的丰富结构,更重要的是,新研究还展示了如何通过研究洞察来支持生成性AI模型在创意领域的应用。

    参考资料:

    https://www.nature.com/articles/s41586-025-08600-3

    来源:微信公众号“新智元”

  • 国投集团,再投人形机器人

    人形机器人赛道再获新融资。

    近日,人形机器人企业灵宝CASBOT宣布完成新一轮融资,至此,灵宝CASBOT融资额累计已超亿元人民币,投资方包括:联想创投、国投创合、河南资产基金等。

    据悉,本轮融资将主要用于加速推进人形机器人量产及核心技术的研发,进一步巩固灵宝CASBOT在市场竞争和技术创新方面的双重优势。

    灵宝CASBOT联创&COO张淼向创投日报记者表示,目前,灵宝CASBOT正按照2025年的目标,稳步推进订单交付,预计在今年实现小规模量产。

    01 定位多场景落地的通用类脑智能机器人

    灵宝CASBOT成立于2023年,致力于研发面向场景落地的通用人形机器人和具身智能产品。公司核心团队由来自国内外顶尖高校和科技企业的业内人士组成,在智能机器人、精密装配、视觉伺服、机器人技能学习等专业领域拥有超过20年的研究经验积累。

    2024年11月13日,灵宝CASBOT发布了首款双足人形机器人产品“CASBOT 01”,定位通用类脑智能机器人,整机拥有52个自由度,算力达550T,续航时间超过4小时。

    得益于“从大脑到小脑到本体再到仿生灵巧手”的全栈技术支撑,CASBOT 01实现了高性能全身一体化控制和长时序灵巧操作,能够广泛应用于工业制造、商业服务、家庭社区等多个领域。

    在2024年中关村仿生机器人大赛上,灵宝CASBOT团队获得人形仿生机器人赛道作业赛第一名、具身智能大模型赛道工业场景第一名。

    另外,在人形机器人关键的灵巧手方面,灵宝CASBOT五指灵巧手能做到弹钢琴和打螺丝等精细化作业,具有高强度、高刚度、低自重的特点,适用于家庭服务、工业装配等多种应用场景。

    关于目前灵宝CASBOT的智能水平所处阶段,张淼向创投日报记者表示,公司基于分层端到端架构,从运动智能、操作智能与认知智能三大维度构建技术体系。

    在运动智能方面,具备了全地形适应能力。机器人可在非结构化地形,如楼梯、斜坡及碎石等路面保持稳定拟人步态,并在跌倒后通过全身协同控制完成自主复位。

    在操作智能层面,灵宝 CASBOT 实现了涵盖物体转运等基础操作,以及亚毫米级精密装配这类高精度操作的通用技能体系构建 。借助先进的触觉 – 视觉多模态伺服控制技术,机器人的末端执行器能够敏锐捕捉接触力反馈,并据此实时、精准地调整抓取策略,以应对各类复杂操作场景。

    在认知智能方面,CASBOT 01搭载的CASBOT Embodied Brain整合了视觉-语言-环境状态的多模态大模型,能够实现高级环境感知、复杂任务分解,使机器人可理解自然语言指令,执行包含条件判断与逻辑推理的多步操作。

    谈及2025年及未来几年的量产目标和市场推广策略,张淼介绍,今年的目标是将产品完美地交付给客户,建立售前售中售后的完整链路。市场推广方面,2025年将结合灵宝在工业制造领域的优势,形成有行业竞争壁垒的产品和方案。“例如,在工业制造领域,我们已经与联想在智能制造领域达成深度业务合作。”

    据悉,灵宝CASBOT已经在应急救援、井下作业、工业制造和商业服务等多个领域积累了众多合作伙伴。

    据创投日报记者不完全统计,国内致力于人形机器人领域的企业还包括优必选、达闼科技、银河通用Galbot、宇树科技、以及逐际动力等。

    02 国投系联手河南国资出手

    成立至今,灵宝CASBOT一共经历了2轮融资。包括上一轮的联想创投和这一轮的国投创合。

    其中,联想创投于2016年正式成立,专注于科技产业投资。联想集团高级总监、联想创投董事总经理顾正斌表示,灵宝CASBOT在工业、煤炭等场景上落地快,非常务实。

    创投日报记者注意到,在机器人领域,联想创投此前还投资了服务机器人开发企业云迹科技、物流机器人企业未来机器人、人形机器人企业逐际动力等。

    本轮投资方国投创合,则是国投集团旗下专业的引导基金及产业基金管理机构,直接管理规模超过400亿元,专注于战略性新兴产业领域的股权投资、创业投资及基金投资,合计支持了4000多家创新型科技企业,其中230余家已上市。

    国投创合针对本次投资表示,灵宝CASBOT已实现人形机器人多地形快速稳定行走和复杂作业场景下的精密操控,团队技术底蕴深厚,研发及迭代速度快,优先面向高价值场景推出产品及服务,商业路径清晰。

    本轮另一投资方河南资产基金是河南资产管理有限公司(以下简称“河南资产”)的全资子公司,成立于2018年5月,河南资产成立于2017年8月8日,注册资本60亿元,是河南省人民政府批准设立并经银监会备案具有金融不良资产批量收购业务资质的地方资产管理公司。

    值得一提的是,灵宝CASBOT的创始人兼董事长张正涛,也是中国科学院自动化研究所研究员、博士生导师。2016年,他决定先投身自动检测行业的创业之中,并把一家初创公司做成了细分领域的世界第一。

    经过沉淀,张正涛既有深耕机器人领域十几年的技术沉淀,又深谙将技术转化为产业动能的商业逻辑。2023年8月,他创立灵宝CASBOT,入局人形机器人领域。据悉,公司预计在今年发布双足、轮式人形机器人整机产品和全新灵巧手。

    来源:微信公众号“创投日报”

  • 李开复动刀,零一万物又又又分拆了

    李开复动刀,零一万物又又又分拆了

    《智能涌现》从多名独立信源处获悉,李开复创立的AI独角兽零一万物,近日内部发生多处变动:

    • 计划拆分数字人业务,由零一万物数字人业务研发负责人杨昌鹏带队。
    • 零一万物AI视频混剪项目负责人蓝雨川离职创业,新项目SparkView方向为AI视频编辑工具。

    对上述信息,零一万物回复《智能涌现》:零一万物去年有一个多亿的收入,今年会有快速增长。零一万物不仅在不断上线更多的应用发掘价值,这个过程中,零一万物也会根据市场PMF对项目进行快速调整,包括加强投资部分业务、鼓励有商业化潜力的项目进行独立融资,也包括关停部分项目。

    放弃“超大模型”后,零一要靠拆分融资“输血”

    对于零一万物而言,2025年的开端从合作与分拆开始。

    与资源雄厚的巨头合作,是零一万物留在大模型牌桌上的重要一环。继与阿里云联合成立产业大模型联合实验室后,零一万物又将布局大模型的野心放在了苏州,与苏州高新区联合成立的产业大模型基地。

    合作的另一面,是业务分拆。数字人作为首先被分拆的业务,是因为这是当下零一万物变现能力最强的业务之一。

    多位行业人士认为,数字人市场盘子够大,依靠李开复和零一万物联创、销售负责人祁瑞峰的资源积累,拿下签单并不难。

    事实上,“分拆”已经是近两年来,零一万物架构调整的主旋律。2024年,零一万物就在业务分拆上有所动作。

    工商信息显示,2024年9月13日,零一万物就成立了名为“零一绿洲”的子公司,主要业务与AI游戏有关,由零一万物联合创始人、副总裁马杰担任董事长。

    据《智能涌现》了解,将不同业务拆分,独立运营、独立造血,实则是零一万物整合核心预训练团队后的造血策略。

    《智能涌现》曾独家报道,2024年12月中旬,零一万物裁撤了预训练算法团队和Infra团队。2024年12月末,阿里的通义和智能云团队,又分别给预训练算法团队和Infra团队提供了工作offer。

    对此,李开复对《智能涌现》表示,零一万物认为初创公司投入超大模型预训练的性价比太低,公司将转向更轻量化模型的预训练。

    之所以要靠拆分的手段“造血”,有不少业内人士对《智能涌现》就此表示,整合预训练团队的零一万物,已经需要新故事获得融资。

    有关拆分业务的考量,李开复曾回应《智能涌现》:能够更聚焦业务,并且可以分摊中央研发的成本至于业务拆分的标准,则是“先去找投资人聊,看有没有人愿意投”。

    2024年末,六小虎纷纷给自己筹集“过冬钱”:智谱完成30亿元的融资,阶跃星辰完成数亿美元B轮融资。据多名知情人士透露,百川智能和MiniMax除了正在推进融资外,自身还有能够造血的业务,账上还有充足的钱。

    零一万物披露上一轮融资,还是在2024年8月,那是一笔由某国际战投和东南亚财团参与的数亿美元投资,此后便再无公开的融资进展。据《智能涌现》了解,零一万物的融资正在推进。

    早期成员另起炉灶,聚焦AI视频编辑

    近期离职创业的蓝雨川,也是零一万物的早期成员。他最早在零一万物负责大模型API开放平台,而后转去负责PopAi和Mona两款零一万物主力产品的增长,以及零一万物的AI视频混剪项目。

    蓝雨川

    PopAi,是零一万物的出海AI办公应用,而Mona,是一款出海情感陪伴产品。自零一万物成立以来,李开复就多次提到,零一万物的产品策略是海外做To C。

    据《智能涌现》了解,截至2024年上半年,零一万物旗下已经成立了6个To C产品项目组。

    但2024年下半年,除了ROI(投入产出比)接近打正的PopAi,零一万物其余产品都逐渐关停、运维,或者合并。多名零一万物员工告诉《智能涌现》,除了PopAi表现尚可,部分产品的试水都不太成功。

    频繁的调整,让零一万物在2024年下半年经历了一波员工离职潮。

    据了解,2024年8月,PopAi的大部分核心成员选择了离职,包括PopAi早期舵手、零一万物生产力产品负责人曹大鹏。此后,阿里早期的资深算法专家赵斌强(阿里花名:乐田)接任了他的职位。

    一名知情人士告诉《智能涌现》,蓝雨川选择离职,是因为想做不同于零一万物产品的新方向。

    蓝雨川的新项目SparkView,聚焦在一个已经在海外市场被验证的方向:AI视频编辑。据《智能涌现》了解,SparkView也是零一万物内部在2024年下半年立项的产品项目。

    此前,由一位华人工程师创立的AI视频剪辑工具OpusClip,发布7个月就突破了500万的用户量,ARR(年度经常性收入)做到了近1000万美元。

    据接触过蓝雨川的多名投资人表示,SparkView计划先从短视频广告素材切入,做AI Video Agent(AI视频智能体)

    加入零一万物前,蓝雨川曾担任飞书产品解决方案高级总监,也有过创业经历。《智能涌现》获悉,目前SparkView已经开启融资。

    来源:智能涌现

  • 李飞飞巴黎演讲:如果 AI 资源被少数公司垄断,整个生态系统都会完蛋

    李飞飞巴黎演讲:如果 AI 资源被少数公司垄断,整个生态系统都会完蛋

    在许多人眼中,人工智能是关于技术、现代世界和未来的故事,而这正是我们今天在此相聚的原因。但对我而言,人工智能的故事,更要追溯到五亿年前的生命起源之初。

    那是极其遥远的时代,远到视觉尚未出现,眼睛也未进化。没有任何生物亲眼目睹世界,所有生命都处于一片黑暗之中,就像你们现在在屏幕上看到的那样。

    要回顾五亿年历史,一篇文章显然不够。因此,我将长话短说。当进化赋予这些生物感知和回应外界刺激的能力时,即便只是微弱的感知,一场进化竞赛便拉开了序幕。从最初被动地感受光线,到逐渐变得丰富和活跃,神经系统开始进化,视觉发展为洞察力,看见成为理解,理解力催生行动——所有这些共同孕育了智能,并永远改变了地球生命的本质。

    快进五亿年,回到今天,人类的智能已引导我们以前所未有的方式构想和塑造工作与生活。我们不再满足于自然赋予的智能,好奇心驱使我们创造机器,赋予它们与我们匹敌,甚至超越我们的智能。

    因此,我们本周探讨的这项开创性技术,其探索之旅始于 20 世纪中期。英国伟大的数学家艾伦·图灵极具远见,早在计算机诞生之前,他就已开始思考赋予机器媲美人类认知能力的智能这一哲学问题。对我而言,他的著作始终是一种挑战,激励人类大胆想象会思考的机器,正如他所预见的那样。

    同样的求知欲和雄心也激励着早期的美国计算机科学家。他们不仅发起首个研究项目,探索会思考的机器的可能性,更在 1956 年那个炎热的夏天,在“人工智能”概念普及之前数十年,创造了“人工智能”这个术语本身。这是他们为那次研讨会撰写的研究论文的截图。

    坦白说,有趣的是,他们当时认为在两个月内就能解决大部分问题,并揭开智能之谜。或许他们过于乐观,但其胆识令人钦佩。如今,我们在这项“为期两个月”的项目上已投入 820 个月,但我们已取得显著进展。

    对人工智能的另一个误解是,它仅仅是计算机和工程学的问题。然而,事实上,人工智能始终是一项充满活力的多学科事业。我们身处的现代人工智能时代,是三项意义深远且截然不同的技术与科学进步融合的成果。

    首先是对感知算法的研究,即探究生物(包括人类)如何理解周围世界。最终目标是创建数学模型,使机器也能做到这一点。在艾伦·图灵(Alan Turing)提出大胆设想、以及达特茅斯人工智能夏季研讨会召开几年后,神经生理学家Hubel和Wiesel首次阐明了哺乳动物视觉皮层神经元处理信息的分层结构,这项发现为他们赢得了诺贝尔奖,并彻底革新了我们对视觉处理的理解。

    大约在同一时期,心理学家弗兰克·罗森布拉特构建了最早的神经网络原型之一——感知器。这项工作激励了其后数十年的计算机科学家,特别是早期的先驱者,如福岛邦彦、杰夫·辛顿(Geoffery Hinton)、杨立昆(Yann LeCun)、约书亚·本吉奥(Yoshua Bengio)等人,去设计日益复杂的模型,最终发展成我们今天熟知的深度学习神经网络算法,赋予了机器不可思议的能力。

    与此同时,第二个研究方向也逐渐兴起。认知科学家们深入研究人类自身的思维,揭示了我们感知环境能力的惊人深度和复杂性。他们的研究明确指出,我们的大脑与进化所处的环境密不可分。大脑并非仅仅是锁在颅骨中的机器,而是自生命之初,就渴望从每一缕光线、一丝触感、一声细语中学习的求知者。

    对我个人而言,作为一名在 21 世纪初崭露头角的科学家,感知算法几乎是我研究领域的唯一焦点。认知科学给我的启示是“规模”(Scale)的重要性。进化和发展受益于海量数据驱动学习,我们推测机器亦是如此。但这一次,机器不再使用生物传感器采集数据,而是来自现代数字设备和互联网。这启发了我的实验室开展 ImageNet 项目,这是首个互联网规模的人工智能训练和评估数据集。我们关于“数据是神经网络等高容量算法关键”的假设,以前所未有的方式焕发活力,并掀起全球范围内使用大数据进行人工智能研究的浪潮,这便是如今被称为人工智能缩放定律(Scaling Law)的开端。

    然而,最终,如果没有强大的算力来运行这些算法,所有这些成就都难以实现,甚至无法起步。这要从冯·诺依曼架构等里程碑式的发展说起。这种计算机架构范式最早在 20 世纪 40 年代提出,至今仍被沿用,并催生了20世纪70年代早期首批微处理器的诞生。

    但有趣的是,是视频游戏推动了硅芯片原始速度的极限。一个始于 20 世纪 90 年代初、旨在提升游戏画面的产业,在短短几十年内发展成全球性的强大产业,英伟达等巨头制造出日益强大的图形处理器(GPU)。这最终成为神经网络算法能够从互联网规模的大数据中学习的最后一块拼图。因此,如果有游戏玩家在场,我们必须感谢你们。

    当然,这不仅仅是历史回顾,更是构建未来的蓝图。2012 年,在 ImageNet 挑战赛上,我的实验室率先将算法、数据和算力这三个要素首次以足够大的规模结合,几乎在一夜之间改变了整个领域。机器首次能够理解并可靠地描述图像内容,数百万张图像。这在今天看来理所当然,但在当时,这是一个尚未解决的难题,一种近乎科幻的能力。这是里程碑式进展中倒下的第一块多米诺骨牌,而且随着时间推移,这些进展愈发迅猛。

    如今,十多年过去,我们仍在探索这一切的意义。最初只是学术上的好奇,如今却年复一年地受到商业领袖、企业家、行业分析师乃至政治家的高度关注,且这种关注似乎有增无减。我们正处于人工智能的第一个真正时代,一个历史学家未来必将如此称呼的时代,大约持续十年左右。无论以何种指标衡量——计算机科学学位、人工智能项目、投资金额、初创企业等等——人工智能都是一场规模和范围不断扩大的革命。

    无需赘言,在过去几年中,随着大语言模型的问世,人工智能迎来又一个惊人的转折点。这些模型将现代人工智能的三个要素扩展到更大规模:一种名为 Transformer 的新架构,在近乎整个互联网的数据上训练,并由惊人数量的顶尖芯片提供算力支持。正如大家所见,其结果是机器能力以前所未有的速度爆发。我们现在已习以为常地认为,人工智能能够用流利的自然语言与我们对话,回答几乎任何领域的问题,甚至生成复杂的图像、声音、音乐和视频。ChatGPT 的巨大成功,创下用户采纳率记录,充分证明了这项创新对日常生活的影响。

    这些能力并非仅停留在表面。如图所示,近年来,人工智能模型在从手写识别到博士级科学问题等一系列基准测试中,表现突飞猛进。在某些极具挑战性的任务中,其性能提升曲线几乎呈垂直上升。

    从流畅的语言能力出发,大语言模型现在在问题解决中扮演着更积极的角色,能够分解任务并规划实现现实世界目标的步骤。许多人将这种被称为“Agentic AI”的人工智能智能体,视为这项重大技术在 2025 年的最新篇章,它将为众多用户和企业带来变革。

    然而,未来还有更多值得期待。智能不仅限于语言智能。以人类为例,我们是作为一个整体而智能的生物。一个崭新的篇章正在开启,空间感知能力正扩展为更加积极主动的能力。在我所从事的相机和机器人领域,人工智能开始在有形或无形的 3D 空间中进行创造、理解、推理和互动。它可以用于与人或物交互,我们称之为空间智能和具身智能。

    如今,我们的视觉智能使我们能够轻松识别出图中的所有物体:猫、盆栽、桌子,当然还有那杯牛奶。但这真的是我们感知能力的全部吗?我敢肯定,仔细观察这张照片,肯定有不少人不仅理解了画面内容,还非常想伸出手去扶住那杯牛奶,以免它掉在地上摔碎。这只是一个微小的例子,却突显了从“观察”到“行动”之间存在着深刻的差异。它预示着我认为我们即将到达的转折点:人工智能将从观察者转变为与我们并肩行动的行动者。

    事实上,就我所敬佩的艾伦·图灵而言,我现在认为他对未来的愿景过于狭隘,略显内向。进化本身明确地告诉我们,智能的真正力量不仅在于思考,更在于运用思考驱动行动。想想人类的空间智能如何赋予我们力量,去建设我们的文明,从古代金字塔到工业革命,从科学发现到艺术表达。当人工智能扩展我们的空间智能和具身智能时,我们与周围世界的关系将发生怎样的进一步变化?它将帮助我们创造和发现什么?我们又将构建怎样的未来?

    同样令人兴奋的是,机器人技术,作为具身人工智能的一种形式,也在迅速发展。我在实验室的研究,是将机器人学习与大语言模型和视觉模型相结合的最新例证。与以往那些高度编程和精心设计的机器人相比,这些研究使机器人能够在更加开放、真实的场景中执行日常的人类任务。

    这些都是令人振奋的可能性。但是,如果人工智能真的不仅成为会思考的机器,更成为会行动的机器,那么我们引导这项技术的集体责任就变得更加迫切和重要。我认为,称这一切已将我们带到一个具有文明影响的时刻,绝不为过。那么,我们该如何应对?

    多年来,这个问题一直指引着我的工作。虽然我确信没有简单的答案,但有一个主题始终贯穿于我的所有研究:以人为中心的人工智能。它由三个简单的价值观构成:尊严、自主性和社群

    首先是尊严。面对日益强大的技术,我们人类常常面临一个问题:是什么定义了我们?抛开我们能够完成的所有任务,作为人类的自豪感,自主做出决定和采取行动的能力,仍然是我们存在的基石。如果这项技术能够帮助守护,甚至将这种尊严感带回给我们所有人,特别是最脆弱的群体,那将令我无比振奋。这是一个关于机器人技术和人工智能技术如何帮助赋予甚至瘫痪病人自主能力的例子。

    在斯坦福大学,我的合作者和学生们通过非侵入式脑电图(EEG)收集脑电波,纯粹通过人的意念来控制机械臂。我们的人工智能算法能够解码人的意念和指令,并引导机械臂制作出一份完整的日式寿喜烧。

    第二是自主性。我实验室研究工作的一个核心原则是探索人工智能的应用,以增强人类能力,而非取代人类。正如历史上每一次重大技术变革都重塑劳动力市场一样,人工智能的进步也必然会对就业岗位产生影响。但我认为,人工智能不应取代我们,而应助力我们提升能力,从创造力到医疗健康,从科学发现到工业制造。人工智能的诸多技能与人类技能互补,我们拥有大量机会,利用这种数字或物理的协作方式来增强自身能力。我实验室过去十年在人工智能医疗健康领域的探索,让我看到了诸多机遇,人工智能可以帮助提升护理质量,减轻医护人员负担。这里有三个例子,展示了如何利用人工智能算法驱动的智能摄像头,来帮助医院提高临床医生的手部卫生习惯,帮助记录患者的行动锻炼,以及辅助手术器械跟踪。

    最后但同样重要的是社群。过去十年,很多时候技术的故事都在将我们彼此分离:信息茧房、煽动性内容等等。人工智能正处在又一个岔路口。一条路通向人工智能使真实的社交体验黯然失色,个性化定制内容强化我们偏见的世界;另一条路则通向人工智能帮助我们建立更美好、更强大社群的世界。例如,教育辅助工具可以将学习机会带给更多人,包括孩子和成年人。

    这里有两个简单的例子:左边是使用人工智能和虚拟现实技术作为个性化学习工具,帮助患有阅读障碍的大学生取得更好学习效果;右边是由美国布法罗大学创建的人工智能专家系统,旨在弥补语言病理学家短缺问题,以便对 3 至 10 岁有言语和语言障碍的儿童进行早期干预。

    所有这些都引出了我想分享的最后一个想法。在这个具有文明意义的关键时刻,我们如何才能共同努力,以理性、务实和负责任的态度治理人工智能,从而守护其惊人的潜力?

    首先,至关重要的是,我们的治理要以科学为基础,而非科幻想象。从街头巷尾到华尔街,今天关于人工智能的大部分讨论,都被耸人听闻和夸大的言论所渲染,导致了具有误导性的人工智能治理政策。相反,我们需要运用更科学的方法来评估和衡量人工智能的能力与局限性,从而制定更精准、更可操作、更符合实际的政策。

    进而引出我的第二点,即在人工智能治理方面,要采取务实的态度,而非意识形态化的立场。人工智能有望成为一项强大技术,若能合理运用,它可以帮助我们生活得更美好,工作得更高效。因此,我们不应阻碍这项仍处于发展初期技术的探索与研究,而应更加关注其具体应用,确保其有益用途,并防范潜在的负面影响。

    最后,我们需要投入资源,构建更健康、更具活力的人工智能生态系统。在这个生态系统中,学术界、创业者、开源社区和公共部门都应积极参与,与大型企业共同发挥关键作用,推动技术进步。如果人工智能要改变世界,我们需要各行各业的人都参与塑造这一变革。

    在本文的前半部分,我提到了现代人工智能的三个关键要素:算法、数据和算力。如果这些资源过度集中在少数公司手中,人工智能生态系统将因缺乏好奇心驱动的研究、顶尖人才培养、开源协作和多学科探索而受到损害。

    75 年前,艾伦·图灵就已洞见未来,并深受启发,大胆挑战人类去创造会思考的机器。今天,我们已将图灵的挑战推进到他可能无法想象的程度。人工智能时代的科技进步令人叹为观止。我认为,现在是时候提出新的挑战了。与其仅仅自问“我们能否创造人工智能”,不如反思“我们能否将人工智能塑造成一种向善的力量”。

    简而言之,今天我想向所有人发出挑战:共同构建以人为中心的人工智能。