分类: 人物访谈

邀请AI领域的专家、学者、企业家等进行深入访谈,分享他们的见解、经验和对AI发展的看法,为用户提供行业洞察和启发。

  • 谷歌AI掌门人Jeff Dean对话Transformer作者:AI提速300%,1000万倍工程师要来了

    谷歌AI掌门人Jeff Dean对话Transformer作者:AI提速300%,1000万倍工程师要来了

    如果没有「Attention Is All You Need」这篇论文,今天的AI会是什么样子?

    Jeff Dean,谷歌的首席科学家,和Transformer的作者Noam Shazeer,最近在一场深度访谈中,不仅回顾了AI发展的关键时刻,还大胆预测了未来的方向。

    他们揭秘了模型蒸馏、MoE架构的内幕,甚至讨论了如何让AI模型处理整个互联网的信息!

    访谈内容十分丰富,看点十足。

    低精度让模型快三倍

    「最近,我感觉基于通用CPU的机器扩展性不如以前了。」Jeff说。

    他表示,制造工艺的改进现在需要三年时间,而不是以前的两年。多核处理器等架构改进也没有给我们带来20到10年前那么大的提升。

    但是,同时我们看到了越来越多的专用计算设备,比如机器学习加速器、TPU,以及最近的专注于机器学习的GPU,它们让我们能够在现代计算中获得非常高的性能和良好的效率,这些计算与传统的C++代码,比如运行Microsoft Office这类任务的计算大不相同。

    可以说,算法正在跟随硬件的发展。Noam表示,现如今算术运算非常便宜,而数据传输的成本则相对还较高。

    正是因为这一点,深度学习才得以迅速发展。「你可以通过矩阵乘法来构建深度学习,这实际上是N立方次的运算和N平方字节的数据传输。」Noam说。

    对此,Jeff表示认同。他说,「我认为,向硬件转向的这一重要变化非常关键,因为在那之前,CPU和GPU并不特别适合深度学习。」

    后来,谷歌开始打造TPU,这些TPU其实是低精度线性代数处理器,一旦有了这样的硬件,就需要充分利用它。

    就像拉里·佩奇曾说的:「我们的第二大成本是税收,最大成本是机会成本。」在这种情况下,把这些算术单元填满!可以让算术运算的数量增加几个数量级。

    然后,接下来要改变的是什么?算法、数据流,等等。Jeff继续说道,「哦,对了,算术运算的精度可以非常低,这样你就可以在芯片上放更多的乘法单元。」

    「我认为一个普遍的趋势是,我们在量化或拥有更低精度模型方面变得越来越好。」Jeff说到。

    从TPUv1开始,当时他们甚至不确定能否使用8位整数进行量化并进行模型推理。但有一些早期证据显示这可能是可行的,于是他们就决定围绕这一点构建整个芯片。

    随着时间的推移,大家已经能够在训练中使用更低精度了。而且推理的精度也降低了。现在人们使用INT4或者FP4。

    「如果20年前你告诉一个超级计算浮点数专家,我们要使用FP4,他一定会觉得那太疯狂了。」Jeff说,他们喜欢64位的浮点数。

    Jeff说到,「一些人正在将模型量化到2位或1位,我认为这是一个明显的趋势。是的,量化确实有点烦人,但你的模型会快三倍,所以你得接受它。」

    扩展神经网络确实有效

    当Jeff被问到有没有在研究某个领域时,突然有了想法,并且有种「天啊,简直不敢相信这竟然成功了」的感觉时。Jeff回忆起在Brain团队早期的时候。

    那个时候,他们专注于「看看能否构建一些基础设施,让我们能够训练非常非常大的神经网络」。

    当时,他们的数据中心没有GPU,只有CPU。但是他们知道如何让大量的CPU一起工作。所以构建了一个系统,能够通过模型并行和数据并行的方式训练相当大的神经网络。

    「我们有一个针对 1000 万个随机选择的 YouTube 帧进行无监督学习的系统。」Jeff表示,它采用了一种空间局部表示的方法,因此它会基于尝试从高层表示中重构事物来构建无监督表示。他们让这个系统在2000台计算机上运行,使用了16000个核心进行训练。

    不久之后,该模型实际上能够在最高层构建一个表示,其中一个神经元会被猫的图像所激发。

    「它从未被告知什么是猫,但它在训练数据中看到了足够多的猫的正面面部视图,因此这个神经元会对这些图像产生反应,而对其他东西则不太敏感。」Jeff说,类似的,你还会看到其他神经元对人脸、行人的背影等产生反应。

    「这个过程非常酷,因为它是基于无监督学习原理,构建出这些非常高层次的表示。」

    随后,他们在监督学习的ImageNet 20000类别挑战中获得了非常好的结果,相对于之前的技术,提升了60%的性能,这在当时是非常不错的。

    这种神经网络可能比之前训练过的神经网络大了50倍,并且得到了很好的结果。

    所以这让Jeff有了一种感觉,「嘿,实际上,扩展神经网络似乎是个不错的主意,看来确实有效,我们应该继续推动这一方向。」他说。

    想办法处理数万亿token

    谈到长上下文问题时,Jeff表示,「我们还没有完全做到,但我确实看到了在未来可实现的目标。」

    Jeff表示,他已经思考这个问题一段时间了。

    你看到这些模型的一个特点是它们相当不错,但它们有时会产生幻觉并且存在事实性问题。部分原因是你在数万亿的token上进行了训练,并将所有这些都混合在数百亿甚至数千亿的参数中。

    在上下文窗口中,也就是模型的输入中,信息是非常清晰明确的,因为我们在Transformer中有一个非常好的注意力机制。模型可以关注事物,并且它知道它正在处理的确切文本、视频的确切帧、音频或其他任何内容。

    目前,我们有能够处理数百万token上下文的模型,这已经相当多了。Jeff表示。「这相当于数百页的 PDF、50 篇研究论文、数小时的视频、数十小时的音频,或者这些内容的某种组合,这非常酷。」

    但是,如果模型能够处理数万亿的token,那就太好了。它能否关注整个互联网并为你找到正确的内容?它能否为你处理所有个人信息?

    「我很希望有一个模型可以访问我的所有电子邮件、所有文档和所有照片。当我要求它做某事时,它可以在我的许可下利用这些信息来帮助解决我想让它做的事情。」Jeff说。

    但这将是一个巨大的计算挑战,因为朴素的注意力算法是二次方的。你几乎无法在相当多的硬件上让它处理数百万的token,更不用说让它直接处理数万亿的token了,这是不可能的。

    因此,需要大量有趣的算法近似来实现的:一种让模型在概念上能够处理更多、更多的token,数万亿token的方法。

    也许可以将所有Google代码库放入每个Google开发者的上下文中,将世界上所有的开源代码放入任何开源开发者的上下文中。

    那将是惊人的。

    一百万个「邪恶的」Jeff

    访谈中,主持人提出了一个极具挑战性和前瞻性的问题,将讨论引向了AI安全性的深层领域:如果AI系统偏离了预设目标,转而优化一些未知的、甚至可能有害的目标函数,将会产生怎样的后果?

    主持人进一步设想了一个场景:假设一个AI获得了与Jeff或Noam相当、甚至超越他们的编程能力。

    在这种情况下,如果该系统被恶意复制或自我复制,产生了数百万个具有顶级编程水平的「副本」,那么这种失控的局面将可能导致难以挽回的后果。

    这一假设情景触及了当前AI安全研究的核心关切——目目标对齐(Goal Alignment)问题。即如何确保AI系统的目标与人类的价值观和预期目标保持一致,避免出现意外或有害的行为。

    对此,业界存在两种极端的观点:灾难论(Catastrophism),认为AI系统在各方面都将远超人类,最终可能导致人类被AI压制或取代。乐观论(Optimism), 认为AI系统将带来巨大的福祉,无需过分担忧其潜在风险。

    对此,Jeff表示,他的立场介于这两种极端观点之间。他虽然对AI的潜在风险保持警惕,但并未表现出极度的担忧。

    这种审慎乐观的态度,反映了当前AI领域许多专家对AI安全问题的主流看法:既要重视潜在风险,积极开展安全研究,也要对AI的未来发展保持信心。

    1000万倍工程师

    在访谈中,两位专家深入探讨了AI发展所面临的关键挑战与巨大机遇。

    Jeff预测,随着AI聊天界面等应用的普及,计算资源需求将面临爆炸性增长。他指出:「目前可能只有10%到20%的计算机用户了解并使用这类交互式界面,但随着用户认知和应用场景的拓展,未来使用量可能增加一到两个数量级。」

    这对底层基础设施和算力提出了严峻挑战。

    AI技术的快速发展也伴随着潜在风险。Jeff Dean强调:「我们需要警惕AI可能被用于生成虚假信息、实施自动化网络攻击等恶意行为。因此,在模型设计中必须尽可能内置防护和缓解措施,以确保AI的安全可控。」

    Noam认为,AI领域并非零和博弈,其发展将带来广泛的社会效益。他乐观地预测:「当前AI的发展态势预示着未来在GDP、医疗健康、财富创造等多个领域将实现数个数量级的增长。」这表明AI有潜力成为推动社会进步的重要引擎。

    接着,Jeff提出了一个引人深思的问题:如果每增加一倍的计算资源投入,就能使AI助手的能力提升5到10个点,那么企业是否愿意为实现「10倍工程师」、「100倍工程师」甚至「1000万倍工程师」的生产力跃升而加大投入?

    这一设问揭示了AI在提升生产力方面的巨大潜力,可能引发新一轮的技术革命和产业变革。

    结语

    Jeff Dean和Noam Shazeer的对话,让我们看到了AI技术发展的无限可能。

    从让模型快三倍的低精度计算,到处理数万亿token的长上下文挑战,再到对AI安全性的深刻思考,这场访谈为我们描绘了一个激动人心的未来。

    正如Jeff所说,他并不完全担心AI的「邪恶」版本,但我们仍需在技术发展的同时,保持对潜在风险的警惕。

    参考资料:

    https://www.youtube.com/watch?v=v0gjI__RyCY

    来源:微信公众号“新智元”

  • 专访微软CEO:AGI并非真正基准,AI行业也不会“赢家通吃”

    专访微软CEO:AGI并非真正基准,AI行业也不会“赢家通吃”

    【编者按】日前,微软首席执行官 Satya Nadella 在参加由知名科技播客主持人 Dwarkesh Patel 主持的播客节目 Dwarkesh Podcast 时,谈到了他对当前人工智能(AI)/通用人工智能(AGI)的前景、量子计算的革命性进展,以及科技如何推动全球经济变革的看法。

    当各家公司都在争先恐后地追逐 AGI 时,Nadella 在访谈中却语出惊人,“我们自己宣称达成某个 AGI 的里程碑,对我来说,那只是一些无意义的基准修改。真正的基准是:全球经济增长 10%。”

    同时,他认为,法律与伦理基础设施(如责任归属、劳动价值重构)是部署强大 AI 系统的先决条件。

    此外,他还预言, 未来人类将管理“智能体蜂群” ,通过 Copilot 等界面协调任务,而认知劳动的定义将随着技术迭代不断升级。

    主要内容包括以下 9 个方面:

    1. AI 行业不会“赢家通吃”
    2. 真正的基准:全球经济增长 10%
    3. 智能的价格正在下降
    4. 量子突破
    5. Muse 将如何改变游戏?
    6. AI 的法律障碍
    7. 让 AGI 真正安全
    8. 34 年微软生涯
    9. 相信 AGI 吗?

    学术头条在不改变原文大意的情况下,对整体内容做了精编, 全篇内容较长,干货满满,建议收藏 ,如下:

    Dwarkesh Patel:Satya,非常感谢你来参加我们的播客。

    稍后我们将讨论微软近期取得的两项突破,恭喜你们,这两项成果同一天在《自然》杂志上发表:Majorana 芯片,就放在我们面前,还有 WHAM(世界和人类行动模型)。你描述了你在 80 年代和 90 年代看到的事情,现在它们又在重新发生。

    Satya Nadella:对我来说感到兴奋的是……Dwarkesh,首先,非常高兴参与你的播客。我是你的忠实听众,我非常喜欢你做访谈的方式和你所探讨的广泛话题。

    这让我有点想起我在 90 年代刚进入科技行业的前几年,当时人们就在争论到底是采用 RISC 还是 CISC,或者“嘿,我们真能用 x86 来构建服务器吗?”

    当我加入微软时,那正是 Windows NT 诞生之初。因此,从核心芯片平台到操作系统,再到应用层——这种全栈方法——整个过程都在争论之中。

    你可以说云计算领域也有类似的情况,显然分布式计算和云计算确实改变了客户端-服务器架构,网页也发生了巨大的变化。但这感觉似乎比我曾经参与过的更像是一个全栈。

    Dwarkesh Patel:当你回顾上世纪 80 年代和 90 年代,想想哪些决策最终成为了长期赢家,哪些没有,特别是当你想到你曾在 Sun Microsystems 工作时,他们在上世纪 90 年代的互联网泡沫中经历了一段有趣的历程。人们常说数据中心的建设是一个泡沫,但与此同时,我们今天的互联网也是当时建设的结果。

    那么,什么是经得起时间考验的经验教训?什么是固有的世俗趋势?哪些只是昙花一现?

    Satya Nadella:回过头来看,我参与过四大变革中的客户端以及客户端-服务器。这就是图形用户界面(GPU)和 x86 架构的诞生,基本上让我们能够构建服务器。

    我记得非常清楚,1991 年,我去参加 PDC(微软专业开发者大会),当时我还在 Sun Microsystems 工作。那一年,我去了 Moscone,那时候,微软首次描述了 Win32 接口,我当时就很清楚接下来会发生什么,服务器也会成为 x86 架构的东西。当某个东西具备规模优势时,那就是你必须做出的长期投资选择。在客户端发生的一切会在服务器端发生,然后你就能真正构建客户端-服务器应用程序。因此,应用模型变得清晰。

    然后,互联网就是我们的重大挑战,我们必须在开始时就应对它。实际上,我一加入微软,网景浏览器(Netscape)或马赛克浏览器(Mosaic)就发布了,大概是在 1993 年 12 月或 11 月吧?应该是 Andreessen 和他的团队推出的。

    从一个有趣的视角来看,这真是一个改变游戏规则的大事件,当时,我们正掀起客户端-服务器浪潮,而且很明显我们也将在这一浪潮中获胜。我们迎来了浏览器时代,因此我们必须做出调整。由于浏览器是一种全新的应用模式,我们的调整工作做得相当出色。

    我们所做的一切都是为了全力拥抱那个时代,无论是在 Word 中使用 HTML,还是我们自己构建一个新的浏览器并为之竞争,抑或是在我们的服务器堆栈上构建一个 web 服务器。然而,不可否认的是,我们错过了网络上最大的商业模式,因为我们都认为网络的核心是分布式——谁能想到搜索会成为组织网络的最大赢家呢?显然我们没有看到这一点,而 Google 看到了,并且执行得相当出色。

    所以,这就是我学到的一个教训:你不仅要把握好技术趋势,还必须了解这一趋势将在哪里创造价值。这些商业模式的转变可能比技术趋势的变化更难预测。

    AI 行业不会“赢家通吃”

    Dwarkesh Patel:人工智能的价值将在哪里创造?

    Satya Nadella:这是一个很好的问题。我可以比较有信心地说两个地方。一是表现良好的超大规模运营商(Hyperscaler),因为从根本上讲,如果你回顾一下 Sam 和其他人的描述,如果智能是计算的对数,那么谁能进行大量计算,谁就是大赢家。

    另一个有趣的地方是,如果你看一下任何 AI 工作负载的底层,就像拿 ChatGPT 来说,并不是每个人都对 GPU 方面的进展感到兴奋,虽然它很棒。事实上,我甚至把我的计算资源看作是 AI 加速器、存储和计算的比率。在规模上,你必须不断扩展它。

    Dwarkesh Patel:是的。

    Satya Nadella:所以,全球对这种基础设施的需求将会呈指数级增长。

    Dwarkesh Patel:没错。

    Satya Nadella:因此,事实上,拥有这些 AI 工作负载就像是天赐之物,因为你猜怎么着?他们对计算的需求更大,不仅是为了训练,也是为了测试时。想想看,一个 AI 智能体会以指数级的速度增加计算量,因为这不只是一个人调用一个程序,而是一个人调用的程序又会调用更多的程序。这将创造出巨大的计算基础设施需求和规模。因此,我们的超大规模业务,Azure 业务,以及其他超大规模公司,我认为这是一件大事。

    之后,情况就变得有点模糊了。你可以说,嘿,有赢家通吃的模式,但我没发现。顺便说一下,这是我学到的另一件事:善于理解哪些市场是赢家通吃,哪些不是赢家通吃,某种意义上来说,这就是一切。我记得在我刚开始进入 Azure 时,亚马逊已经领先很多,人们会来找我,投资者也会找我说,“哦,结束了,你们永远无法赶上,亚马逊是赢家通吃。”

    在与甲骨文和 IBM 在客户端-服务器领域竞争过后,我知道买家是不会容忍赢家通吃的。从结构上讲,超大规模公司永远不会是赢家通吃的,因为买家很聪明。

    消费者市场有时可能是赢家通吃的,但只要买方是公司、企业、IT 部门,他们就会希望有多个供应商。所以,你得成为其中一个供应商。

    我认为,这在模型方面也会发生。会有开源的存在,也会有一个“管制者”。就像在 Windows 上,我学到的一个重要教训是,如果你有一个闭源操作系统,那么一定会有一个与之互补的开源系统。

    因此,在某种程度上,这就是对事态发展的真正制衡。我认为在模型方面,可能会有少数几个闭源的,但一定会有开源的替代方案,开源的替代方案实际上会确保闭源的赢家通吃被遏制。

    这是我对模型方面的看法。顺便说一下,如果这些东西真的像人们说的那样强大,政府是不会坐视不管让私营公司到处……全世界都是如此。所以,我不认为它是赢家通吃的

    除此之外,我认为还是老一套,那就是在消费者市场,某些类别中,可能会有赢家通吃的网络效应。毕竟,ChatGPT 就是一个很好的例子。

    它是一个规模化(at-scale)的消费产品,已经获得了真正的“逃逸速度”(escape velocity)。我去 App Store 看,它总是排在前五名,我就会想,“哇,真不可思议。”

    所以,他们能够利用这个早期优势,把它转化为应用程序优势。在消费者市场上,这种情况可能发生。而在企业市场上,我认为不同的类别会有不同的赢家。至少我是这样分析的。

    Dwarkesh Patel:我还有很多问题。我们一会儿要聊量子计算,但关于模型可能被商品化的观点:也许几年前就有人对云计算提出过类似的论点——从根本上说,它不过就是一块芯片和一个盒子。

    但最终,当然,你和其他许多人找到了在云计算中获得惊人利润率的方法。你们找到了规模经济的途径,并增加了其他的价值。从根本上说,即使抛开行话不谈,如果你有了 AGI,并且它能帮助你创造更好的 AI ——现在是合成数据和强化学习(RL),也许未来是自动化的 AI 研究员——这似乎是巩固优势的一个好方法。我很好奇你对此怎么看,单纯是关于在这方面走在前面真的很重要的这个想法。

    Satya Nadella:在规模上,没有什么是商品化的。关于云计算的观点,每个人都会说,“哦,云计算是商品。”除非,当你做到规模化……这就是为什么运营一个超大规模公司需要特定的技术和经验……你可以说,“哦,那有什么难的?我可以把服务器堆叠起来。”

    Dwarkesh Patel:没错。

    Satya Nadella:事实上,在超大规模计算的早期,大多数人认为“有这么多主机托管商,但那些不是什么好生意。超大规模计算真的是生意吗?它会有业务吗?”结果证明,超大规模计算是一个真实的生意,因为 Azure 拥有运行全球 60 多个地区所有计算的专门技术。这是很难复制的。

    所以,我更想说的是,这是一个赢家吗?到底是不是赢家通吃?因为这一点必须搞清楚。我喜欢参加 TAM(总可用市场)的类别,这样就不会有赢家通吃的风险。最好的情况是,一个大市场能容纳几个赢家,而你就是其中之一。

    这就是我所说的 hyperscale 层级。在模型层级,一个模型最终需要在一些 hyperscale 的计算平台上运行。所以,我觉得这种联系将永远存在。它不仅仅是模型;模型需要状态,这意味着它需要存储,还需要需要常规的计算资源来运行这些智能体和智能体环境。

    因此,这就是为什么我认为一个人跑赢并建立一个完整的模型的极限可能不会发生的原因。

    Dwarkesh Patel:关于 hyperscaler 计算平台,顺便说一下,作为一个 hyperscaler,你的优势也很有趣,特别是在推理时扩展方面,如果这涉及到未来模型的训练,你可以将数据中心和 GPU 的成本摊销,不仅用于训练,还可以再次用于推理。

    我很好奇,你认为微软和 Azure 是何种类型的 hyperscaler。是侧重于预训练的部分?还是提供 o3 类的推理?还是你们只是提供托管和部署市场上的任何单一模型,对此保持中立?

    Satya Nadella:这是个很好的问题。我们希望构建的计算平台在某种意义上是顺应摩尔定律(Moore’s Law)的。我认为,这就像我们过去做的所有事情一样:每年不断刷新平台,按照这些设备的生命周期价值进行折旧,然后对机群进行非常好的布局,以便能高效地运行不同的任务。有时会有非常大的训练任务,需要配置高度集中的峰值计算能力,并且这些任务也需要相互协同。这很好。我们应该有足够的数据中心资源来满足这些需求。

    但归根结底,这些都变得非常庞大,甚至在预训练规模的情况下,如果需要持续进行,预训练的规模有时也必须跨越数据中心的边界。这一切或多或少都存在。

    那么,很好,一旦开始跨越预训练的数据中心边界,这和其他有什么不同呢?我考虑的方式是,嘿,分布式计算将保持分布式,所以要构建你的平台,使其准备好应对大规模训练任务,准备好进行测试时计算,甚至准备好——如果可能发生的强化学习最终实现了,你可以先建立一个大模型,然后进行大量的强化学习。对我来说,这就像是更多的训练计算,因为你想为不同的任务创造这些高度专业化、精炼的模型。

    因此,你需要那样的计算平台,然后是服务需求。归根结底,光速就是光速,你不能在得克萨斯州建一个数据中心,然后说,“我要从这里为全世界提供服务。”

    你必须在世界各地都有推理机群的基础上为全世界提供服务。这就是我对我们构建真正超大规模平台的理解。

    哦,顺便说一下,我希望我的存储和计算也靠近这些所有的东西,因为不仅仅是 AI 加速器是无状态的。我的训练数据本身需要存储,然后我想能够多路复用多个训练任务,我想能有内存,我希望能有这些环境,在这些环境中,智能体可以去执行程序。这就是我的想法。

    全球经济增长 10%

    Dwarkesh Patel:你最近报告说,你们每年通过 AI 获得的收入是 130 亿美元。但如果你看看年增长率,按照这个趋势,四年后,你们的 AI 收入将是现在的 10 倍,达到 1300 亿美元。如果这一趋势继续下去,你预见到如何利用所有这些智能,如何实现这种工业规模的应用?

    是通过 Office 吗?是你们为其他公司提供部署平台吗?要有 AGI,才能有 1300 亿美元的收入?那会是什么样子?

    Satya Nadella:这是个很好的问题,因为从某种程度上来说, 如果我们真的会迎来这种爆炸性的、丰富的、可利用的智能商品,我们首先要观察的就是国内生产总值(GDP)的增长

    在我谈微软的收入将是什么样子之前,所有一切的唯一制约因素有一个。我觉得, 我们在所有 AGI 的炒作中有些自夸 。记住,发达国家的经济增长率是 2%,如果调整通胀的话,可能是零增长。

    所以,2025 年,当我们坐在这里时,我不是经济学家,但至少我能看出我们有一个真正的增长挑战。因此,首先我们必须做的是,当我们说这就像是工业革命时,让我们实现那种工业革命式的增长。

    对我来说,那意味着 10%、7%,发达国家经过通胀调整后增长 5%。那才是真正的标杆。不能只是供应端的变化。

    事实上,这就是问题所在,很多人在写这个,我很高兴他们写这些,真正的赢家不会是科技公司。赢家将是那些使用这种丰富的商品的广泛行业,顺便说一下,智能将变得丰富,突然间生产力上升,经济的增长速度加快。当这种情况发生时,我们这个行业就好起来了。

    但对我来说,那才是关键时刻。 我们自己宣称达成某个 AGI 的里程碑,对我来说,那只是一些无意义的基准修改。真正的基准是:全球经济增长 10%

    Dwarkesh Patel:好吧,如果全球经济增长 10%,假设世界经济总量是 10 万亿美元,那如果增长 10%,相当于每年多创造 10 万亿美元的价值。如果是这样,作为一个超大规模服务商…… 800 亿美元似乎太少了,但难道你们不应该做到 8000 亿美元吗?

    如果你真的认为在几年内,全球经济能以这个速度增长,而关键瓶颈将是:你是否拥有足够的算力来部署这些 AI,完成所有这些工作?

    Satya Nadella:没错。但顺便说一下,经典的供应方观点是,“嘿,让我建好了,他们就会来。”这是一个论点,毕竟我们也做过,我们敢冒足够的风险去做。

    但在某个时候,供应和需求必须匹配。这就是为什么我同时关注这两个方面。你完全可能在炒作供应方时偏离轨道,而没有真正理解如何将其转化为对客户的实际价值。

    这就是为什么我关注我的推理收入,也是为什么我会披露推理收入的原因之一…… 有趣的是,很多人并没有谈论他们的真实收入,但对我来说,这是理解它的一个重要标准。

    你不能指望它们在任何给定时刻都对称匹配,但你需要有实际证明,证明你能够把昨天的“资本”转化为今天的需求,这样你才能再次投资,甚至可能以指数级的方式投资,知道你不会完全错配增长速度。

    Dwarkesh Patel:我在想这两种观点是否存在矛盾,因为你做得很好的一件事就是提前下注。你在 2019 年就投资了 OpenAI,甚至是在 Copilot 和任何应用出现之前。

    如果你看看工业革命,这些 6%、10% 的铁路建设和其他东西,其中很多都不是像 “我们已经从车票上获得了收入,现在我们要…… ”

    Satya Nadella:那时候确实有很多钱被浪费了。

    Dwarkesh Patel:没错。那么,如果你真的认为这里有潜力将世界的增长率提高 10 倍或 5 倍,然后你可能会想,“那么,GPT-4 的收入是多少?”

    如果你真的认为这是下一个层次的可能性,你难道不应该说“疯狂点,做数千亿美元的算力”吗?我觉得是有可能的,对吧?

    Satya Nadella:有趣的事情就在这里,没错。这就是为什么我觉得对基础设施采取平衡的方法非常重要。问题不在于建造算力,而是在于建造那些不仅能帮助我训练下一个大模型,还能为下一个大模型提供服务的算力。只有做到这两点,你才有可能真正利用你的投资。

    所以, 这不是单纯地在比谁能建造一个模型,而是在比谁能创造一种世界上正在使用的商品 ,推动……你必须有完整的思路,而不仅仅是关注某一件事。

    顺便说一下,其中一个问题是,肯定会有过度建设。关于你提到的互联网泡沫时期的情况,大家都知道,现在你需要更多的能源,需要更多的算力。多亏了这一点,每个人都会加入这场竞赛。

    实际上,不仅仅是公司在部署,国家也会投入资本,而且显然……我非常激动自己是一个领导者,因为,顺便提一下,我建造了很多,也租赁了很多。我很高兴看到我将在 2027 年、2028 年租赁大量的算力,因为我看到这些建设情况,我想,“这太棒了。”唯一会发生的事就是,所有算力的建设将导致价格下降。

    智能的价格正在下降

    Dwarkesh Patel:说到价格下降,你最近在 DeepSeek 模型发布后发了一条关于杰文斯悖论(Jevons Paradox)的推文。我很好奇你能否详细解释一下。杰文斯悖论发生在需求对某物的价格高度弹性时。智能是不是也受到价格下降的制约?

    因为至少在我作为消费者的使用案例中,智能技术已经非常便宜了。每百万个 token 只要两美分。我真的需要它降到 0.02 美分吗?我只是在让它变得更智能方面遇到了瓶颈。如果你需要向我收取 100倍 的费用,那就做 100 倍更大的训练。我很乐意公司这么做。

    但是也许你在企业端看到的是不同的情况。什么样的智能应用真的需要它降到每百万 token 0.002 美分?

    Satya Nadella: 我认为真正的关键在于 token 的效用 。两者都需要发生:一是智能需要变得更好、更便宜。每当出现突破性进展,比如 DeepSeek 所做的那样,性能与每个 token 的效率前沿发生变化,曲线会弯曲,前沿也会移动。这就带来了更多的需求。这正是云计算所经历的。

    有一个有趣的事情是:我们曾经以为“天哪,我们在客户端-服务器时代已经卖出了所有服务器”。但一旦我们开始把服务器放进云里,人们突然开始消费更多,因为他们可以以更便宜的价格购买,并且是弹性的,他们可以按使用量购买,而不是购买许可证,这完全扩展了服务器的消费范围。

    比方说,我们去印度这样的国家,跟他们讲“这是 SQL Server”。我们卖得不多,但天哪,印度的云计算远远超过了我们在服务器时代所能做的。我认为这将会继续发生。

    想想看,如果你真的想在全球南部、在发展中国家开展业务,如果这些 token 可以非常便宜地用于医疗保健,那将是史无前例的变革。

    Dwarkesh Patel:我认为,如果有人听到像我这样在旧金山的人说“他们有点傻;他们不知道在现实世界中部署技术是什么样的”,这其实是很合理的。

    作为一个与这些财富 500 强公司合作并帮助它们为数亿、数十亿人部署技术的人,你怎么看待这些功能的部署速度?

    即便拥有了能够工作的智能体,甚至是能够为你远程工作的一些工具,考虑到所有合规问题和固有的瓶颈,这会是一个大的挑战吗,还是会很快解决?

    Satya Nadella:这将是一个真正的挑战,因为真正的问题是变革管理或流程变革。这里有一个有趣的事情:我常用的一个类比是,想象一下,像我们这样的大型跨国公司,在没有个人电脑、电子邮件和电子表格的时代,是如何做预测的。传真到处都是。然后,有人拿到传真,做了一份部门间备忘录,然后到处传阅,人们输入数字,最后得出预测,也许正好赶上下一季度。

    然后有人说,“嘿,我只要把 Excel 表格放到电子邮件里,发出去,让大家编辑一下,我就能得到预测。”所以,整个预测的业务流程发生了变化,因为工作成果和工作流程发生了变化。

    这就是 AI 引入知识工作时需要发生的事情。事实上,当我们想到这些智能体时,根本的变化就是有了一种新的工作方式和流程。

    比如说,在准备我们的播客时,我会去我的助手那里说,“嘿,我要和 Dwarkesh 讨论我们关于量子计算的公告以及我们为游戏生成所建立的新模型。给我一个我在谈话前应该阅读的内容摘要。” 它知道了那两篇《自然》杂志的论文,并且提取了相关信息。我甚至说,“嘿,给我做一个播客格式的总结。” 结果,它做得很不错,两个人像聊天一样讨论了这个话题。

    所以这就成了—实际上,我还把它分享给了我的团队。我把它放进了 Pages,这是我们的工具,然后分享给了大家。所以我现在的工作流程是,我和我的同事一起使用AI来完成工作。

    这就是对所有从事知识工作的人来说,根本性的变革管理,突然间大家开始弄清楚这些新的模式,“我如何用新的方式完成我的知识工作?” 这需要时间。这将会在销售、金融和供应链中发生。

    对于现有公司来说,我认为这将是一件,让我们以我喜欢用的类比来说明,就像制造商做的精益生产方面所做的事情。我喜欢这个类比,因为,从某种意义上来说,精益生产成为了一种方法论,它可以让人们将制造的端到端流程变得更加高效。这是一种持续改进的过程, 减少浪费、增加价值

    这也是知识的发展趋势。这就像是知识工作中的精益生产。这将是从事知识工作的管理团队和个人的艰苦工作,需要时间。

    Dwarkesh Patel:我可以简短地问一下关于那个类比的问题吗?精益生产做的其中一件事是,物理上改变了工厂车间的面貌。它揭示了人们在真正关注流程和工作流程之前没有意识到的瓶颈。

    你简要提到了你的工作流程——AI 改变了你的工作流程。我很好奇,随着 AI 智能体越来越智能,管理一个大公司会是什么样子?

    Satya Nadella:你问得很有意思。我在想,举个例子,如果我的工作非常依赖电子邮件。我早上到达办公室,发现我的收件箱满了,我在回复邮件,所以我迫不及待地想让一些 Copilot 智能体自动填充我的草稿,这样我就可以开始审阅和发送了。

    但我现在在 Copilot 里至少有十个智能体,我会根据不同的任务向它们提问。我觉得会有一个新的收件箱诞生,那就是 我与成千上万的智能体打交道,它们需要向我报告一些异常情况,发出通知,或者请求我的指示

    因此,至少我现在想到的是,会有一个新的框架,那就是智能体管理器。它不仅仅是一个聊天界面。我需要一个比聊天界面更智能的工具来管理所有智能体及其对话。

    这就是为什么我认为 Copilot 作为 AI 的用户界面非常重要。我们每个人都将拥有它。基本上,你可以把它看作:有知识工作,就有知识工作者。知识工作可能由许多智能体来完成,但你仍然有一个知识工作者在处理所有这些知识工作者。而我认为,这就是我们需要构建的界面。

    量子突破

    Dwarkesh Patel:你是世界上少数几个可以说拥有 20 万个以微软公司及其所有员工为形式的智慧蜂群的人。你需要管理它,你需要与之互动,如何最好地利用它。希望未来世界上更多的人也能够拥有这种体验。

    我很好奇,如果所有人的收件箱像你一样,你的收件箱早晨会是什么样子的。

    好吧,在我们深入讨论这个问题之前,我想继续问你一些关于AI的问题,我真的很想问你关于微软研究院宣布的量子领域的重大突破。你能解释一下这是怎么回事吗?

    Satya Nadella:这是我们另外一段 30 年的旅程。简直难以置信。我是微软第三任 CEO,曾对量子计算充满热情。

    这里的根本突破,或者说我们一直以来的愿景是,你需要一个物理学的突破,才能构建一个实用规模的量子计算机。我们认为,要想获得噪声更小或更可靠的量子比特,唯一的办法就是在物理特性上下注,因为从定义上讲,物理特性更可靠,而这就引领我们走向了马约拉纳零模式(Majorana zero mode),马约拉纳零模式是 20 世纪 30 年代就提出的理论。问题是,我们能否真的物理上制造出这些东西?我们真的能构建它们吗?

    实际上,我知道你也跟 Chetan 聊过,真正的突破就是我们现在终于有了一个存在性证明和物理学突破,即在一种新的物质相中发现了马约拉纳零模式。这就是为什么我们喜欢将这一突破类比为量子计算的“晶体管时刻”,因为我们实际上拥有了一个新的阶段,即拓扑阶段(Topological phase),这意味着我们现在可以可靠地隐藏量子信息、测量它,并且可以制造它。现在,我们已经掌握了这种核心基础制造技术,我们可以开始制造马约拉纳芯片了。

    这个“马约拉纳一号”(Majorana One),我认为它将基本上是第一个能够支持百万量子比特的物理芯片。然后基于它,可以实现数千个逻辑量子比特,经过纠错处理。到那时,真正的挑战就开始了。突然间拥有了构建一个真正的实用规模量子计算机的能力,对我来说,这现在变得更加可行了。没有像这样的突破,仍然能实现一些里程碑,但永远无法构建一个实用规模的计算机。这就是我们感到兴奋的原因。

    Dwarkesh Patel:太惊人了。顺便说一句,我相信这就是它。

    Satya Nadella:没错,这就是它。

    Dwarkesh Patel:是的。

    Satya Nadella:我现在有些忘了,我们是不是叫它马约拉纳?对,没错,就是马约拉纳一号。很高兴我们以这个名字来命名它。

    想想看,我们竟然能在如此小的体积中构建出一个百万量子比特的量子计算机,真是难以置信。这就是问题的关键:除非我们能做到这一点,否则就别想着能构建一个实用规模的量子计算机。

    Dwarkesh Patel:你是说最终的百万量子比特会放在这么小的芯片上吗?太棒了。

    其他公司也宣布了 100 个物理量子比特,比如谷歌、IBM 等。你说你们也有一个,但你提到你们的量子计算机在规模扩展性上远远领先时,是什么意思?

    Satya Nadella:是的。我们还做了一件事,我们采取了一种将软件和硬件分开的方法。我们正在构建自己的软件堆栈,现在,我们与中性原子和离子阱的团队合作,还与其他一些有相当不错的光子学方法的团队合作,这意味着会有不同类型的量子计算机。事实上,我想我们最近宣布的有 24 个逻辑量子比特。所以我们在纠错方面也取得了一些非常棒的突破,这使得我们能够在中性原子和离子阱量子计算机上构建这些 20 个以上的量子比特,我认为这个进展会持续下去,你将看到我们在这一方面的不断改进。

    但我们也说过, “让我们从基本原则出发,构建我们自己的量子计算机,将赌注押在拓扑量子比特上。” 这就是这次突破的意义所在。

    Dwarkesh Patel:太惊人了。百万拓扑量子比特,数千个逻辑量子比特,预计要达到这个水平的时间是多久?如果你们已经有了第一个晶体管,那么这里的摩尔定律会是什么样的?

    Satya Nadella:显然,我们已经为此努力了 30 年。我很高兴我们现在有了物理学上的突破和制造技术上的突破。

    我希望我们现在能有一台量子计算机,因为,顺便说一下,量子计算机首先能让我们做的事情就是制造量子计算机,因为模拟这些新量子门的原子级构建将变得更加容易。

    但无论如何,接下来的真正任务是,既然我们有了制造技术,就让我们去制造第一台容错量子计算机吧。

    所以,我现在可以说,“哦,也许到 2027、2028、2029 年,我们就能真正造出这台计算机”。现在我们有了这个量子“门”,我能把它装进集成电路里 然后把这些集成电路装进真正的计算机里吗?这就是下一步的逻辑所在。

    Dwarkesh Patel:那么,你预料,到了 2027、2028 年,你们的量子计算机能工作了吗?它可以通过应用程序接口(API)访问吗?还是它是你们内部用于材料和化学研究的工具?

    Satya Nadella:这是一个很好的问题。让我感到兴奋的一件事是,即使在今天的世界里我们有这个量子程序,还为它添加了一些 API。我们在两年前取得的突破是把高性能计算堆栈、人工智能堆栈和量子放在一起考虑。

    事实上,如果你想想看,AI 就像是模拟器的仿真器。量子就像是大自然的模拟器。量子会做什么?顺便说一下,量子不会取代经典计算。量子擅长它能做的事,而经典计算也会……

    量子在任何不是数据密集型但在状态空间方面是探索密集型的事情上都将非常出色。它应该是数据轻量的,但在你想要探索的指数状态上。模拟就是一个很好的例子:化学物理、什么的、生物学。

    我们开始做的其中一件事就是真正将 AI 作为仿真引擎。但你可以然后进行训练。所以我认为的方式是,如果你有 AI 加量子,或许你会用量子生成合成数据,然后让 AI 利用这些数据训练更好的模型,从而能够模拟化学、物理或其他领域。这两者会一起使用。

    因此,即使今天,我们实际上就是在做高性能计算(HPC)和 AI 的结合。我希望能够用量子计算机替代一些 HPC 的部分。

    Dwarkesh Patel:你能不能告诉我,你是如何做出这些研究决定的,尤其是在微软这样规模的公司,这些决定在 20 年、30 年后是否真的会带来红利?显然,你对这个项目的技术细节非常了解。你觉得在微软研究院做所有这些事情的同时,你还能做出这样的决策吗?

    你怎么知道你现在下的赌注在 20 年后会有回报?是必须通过组织有机地涌现出来,还是你如何跟踪这一切?

    Satya Nadella:我觉得比尔(盖茨)在 1995 年左右创办微软研究院(MSR)时的做法非常棒。我认为,在这些以好奇心为驱动力的研究机构的悠久历史中,只做基础研究的研究机构和 MSR,多年来已经建立起了这种制度优势,因此,当我考虑资本分配或预算时,我们首先把筹码放进去,然后说:”这是 MSR 的预算”。我们每年都要这样做,因为我们知道,大多数赌注都不会在有限的时间内得到回报。也许微软的第六任 CEO 会从中受益。在科技行业,我认为这是必然的。

    我真正考虑的事情是,当像量子计算、新模型等这样的技术时机到来时,能否抓住这些机会?作为在位者,如果你回顾一下科技史,你会发现并不是说人们没有投资下注,而是你需要有一种文化,知道如何把创新进行规模化。

    这对 CEO 和管理团队来说是真正困难的部分,坦率地说,这一点很吸引人。它不仅仅关乎良好的判断力,也关乎良好的文化。有时候我们做对了,有时候做错了;我可以告诉你微软研究院有上千个项目,我们应该领导这些项目,但我们没有做到。我总是问自己为什么。因为我们没有足够的信心去完成那个完整的思考,不仅仅是把创新引入市场,而是把它做成一个有用的产品,并有一个商业模式,我们能拿去市场推广。

    这是 CEO 和管理团队的工作: 不能只对某一件事感到兴奋,而是能够真正执行一个完整的方案。这说起来容易,做起来难。

    Dwarkesh Patel:你提到微软可能会有三位继任 CEO,如果他们每个人都能将市值提高一个数量级,那么当你取得下一个突破时,你就会成为世界经济的领头羊之类的人物。

    Satya Nadella:或者记住,世界将以 10% 的速度增长,所以我们会没事的。

    Muse 将如何改变游戏

    Dwarkesh Patel:让我们深入了解你们刚刚取得的另一个重大突破。你们在同一天发布了这两项突破,在你们的游戏世界模型中真的让人震惊。如果你能简单介绍一下这个模型,我将非常高兴。

    Satya Nadella:我们将其称为 Muse,它将成为这个世界的行动模型或者说人类行动模型。

    这真是太酷了。显然,Dall-E 和 Sora 在生成模型方面所取得的成就令人难以置信。我们想要追求的一件事就是利用游戏玩法数据,你能否生成既一致又能展现游戏多样性的游戏,并且能够对用户的 mod 进行持久化处理?

    这就是问题所在。他们能与我们的一家游戏工作室合作,这就是《自然》杂志上的另一篇文章。

    最酷的是,我期待着将来很快会有一个游戏目录,我们将开始使用这些模型,或者我们会训练这些模型来生成游戏,然后开始玩它们。

    事实上,当 Phil Spencer 第一次向我展示时,他拿着一个 Xbox 手柄,这个模型基本上根据输入生成了输出,而且与游戏一致。对我来说,这是一个巨大的“哇”的时刻。这就像我们第一次看到 ChatGPT 说完整的句子,或者 Dall-E画画,或者 Sora 一样。这是这样一个时刻。

    Dwarkesh Patel:今天早上,我有机会看到你们的首席研究员 Katja 展示的实时演示视频。和她谈过后,我才真正意识到这有多么不可思议,因为我们过去已经使用 AI 来建模智能体,而仅仅利用相同的技术来建模智能体周围的世界,便能提供一致的实时反馈——我们将在这期播客上叠加相关视频,大家可以亲眼看到。到时候它应该也会发布,大家可以在那里观看。

    这一切本身就令人难以置信。作为 CEO,你已经投入了数百亿美元来建立微软游戏并收购知识产权。

    回顾过去,如果你能将所有这些数据整合成一个大型模型,能够带给你同时访问和体验多个世界的感受,而如果这是游戏未来发展的方向,看起来这笔投资是非常值得的。你当时有预感到这一点吗?

    Satya Nadella:我不会说我们投资游戏是为了构建模型。坦率地说,我们投资游戏,实际上是因为——这是我们历史中的一件有趣的事:我们在开发 Windows 之前就已经开发了第一款游戏。飞行模拟器在我们开发 Windows 之前就是微软的产品。

    所以,游戏在公司历史上有着悠久的传统,我们投资游戏是为了游戏本身。我总是先说,我讨厌那种为了达成某种目标而进入的行业。它们必须本身就是目的。

    是的,我们不是一个企业集团,我们是一家公司,必须将这些资产整合起来,通过增值成为更好的所有者。例如,云游戏对我们来说是一个自然的投资方向,因为它将扩展市场总量(TAM),并扩大人们在任何地方玩游戏的能力。

    同样,AI 与游戏的结合:我们确实认为它可能会有所帮助——它就像是长期以来游戏的 CGI 时刻。这太棒了。作为全球最大的发行商,这对我们非常有帮助。但与此同时,我们必须制作高质量的游戏。我的意思是,如果不专注于这一点,你根本不能成为一个游戏出版商。

    这个数据资产将会非常有趣,不仅在游戏的背景下,而是作为一个通用的行动模型和世界模型,这太棒了。我认为或许就像 YouTube 之于 Google一样,而游戏数据之于微软也是如此。因此,我对此感到非常兴奋。

    Dwarkesh Patel:是的,这就是我想表达的意思,就是说,你可以在多种不同的游戏中获得统一的体验。除了 AI 之外,这与微软过去所做的其他工作有什么关系,比如混合现实?也许能给小型游戏工作室一个机会来制作这些 AAA 级动作游戏?在五到十年后,你能想象有哪些方式?

    Satya Nadella: 我早在五、六、七年前就说过,我们要下的三大赌注是 AI、量子和混合现实

    我仍然相信它们,因为从某种意义上讲,要解决的大问题是什么?存在感。这是混合现实的梦想。你能创造出真正的存在感吗?就像你我在做这种播客一样。

    老实说,我认为这是那些挑战中最难的一个。我本以为它会更容易解决。可能更困难的一部分,是因为它涉及到社交因素:穿戴设备等等。

    实话讲,我们很高兴能与 Anduril 还有 Palmer 合作,尤其是他们如何推动 IVAS 项目,因为这是一个绝佳的应用案例。我们会在这方面继续努力。

    二维(2D)界面也是如此。我认为这会继续发展下去。这是一个长期的趋势。

    我们已经讨论过量子了,AI 是另一个。所以,这三件事是我关注的方向。我在思考如何将这些东西结合起来?最终,不是为了技术本身,而是为了实现我们作为人类在生活中所追求的一些基本需求,并且更多地在我们的经济中推动生产力。如果我们能以某种方式把这一点做对,我认为我们就真的取得了进展。

    AI 的法律障碍

    Dwarkesh Patel:回到 AI 这个话题,你在 2019 年投资了 OpenAI,非常早,你在书中提到过, “也可以说我们正在孕育一种新物种(new species),其智能可能没有上限。”

    当然,2017 年谈论这个话题是非常超前的。我们已经在具体细致地讨论智能体、Office Copilot、资本支出等问题。但如果把眼光放远,考虑到你的这番话,再加上你作为一个超大规模公司运营者,同时也是研究这些模型的人,为构建一个新物种提供培训、推理和研究,你是如何从全局的角度看待这个问题的?

    你认为在你作为 CEO 的任期内,我们会朝着超人类智能的方向发展吗?

    Satya Nadella:我认为甚至 Mustafa 都用过这个词。实际上,他最近也提到了这个“新物种”。

    我的看法是,信任是必须的。在我们宣称这是一个物种之前,我们要做的最基本的事情就是要有真正的信任,无论是个人层面的信任还是社会层面的信任,这才是硬道理。

    我认为,影响这项技术最大限制因素将是我们的法律……可以称之为基础设施,我们讨论的是所有计算基础设施,那么法律基础设施如何发展以应对这一点呢?整个世界都是建立在诸如人类拥有财产、拥有权利和承担责任等概念上的。这是一个根本问题,首先必须问清楚的是,这对现在人类作为工具使用的所有事物意味着什么?如果人类将更多的权力委托给这些工具,那么这种结构将如何发展?在这个问题得到真正解决之前,我认为光谈技术能力是无法实现的。

    Dwarkesh Patel:意思是,在我们搞清楚如何解决这个问题之前,我们不能部署这种类型的智能?

    Satya Nadella:完全正确。因为归根结底,今天你无法部署这些智能,除非有某个人为其提供担保。

    就像你说的,这也是为什么我认为,即使是最强大的 AI,基本上也还是在人某个类的授权下运作。你可以说,哦,那都是对齐问题,等等。正因如此,我认为你必须真正确保这些对齐能够发挥作用,并且能够以某种方式验证,但我就是不认为你可以部署那些失控的智能。例如,AI 的起飞问题可能会成为一个真正的问题,但在它成为真正的问题之前,真正的问题会出现在法庭上。没有哪个社会会允许某个人说:“是 AI 干的。”

    Dwarkesh Patel:是的。世界上有很多社会,我想知道是否有哪个社会的法律体系会更为宽容。如果没有起飞,那你可能会担心。这不一定非得发生在美国,对吧?

    Satya Nadella:我们认为没有哪个社会能做到不在乎,对吧?虽然确实可能会有不法分子,我并不是说不会有不法分子,它们确实存在。

    但要认为整个人类社会根本不在乎这一点,也是不对的。我认为我们所有人都会在意。我们现在知道如何应对流氓国家和不法分子。世界不会坐视不管,而说“我们可以容忍”。

    Dwarkesh Patel:是的。但如果你能想象出经济增长 10 %的景象,我认为这真的取决于像 AGI 这样的东西能否发挥作用,因为数十万亿美元的价值,听起来更接近人类工资的总和,约 60 万亿美元的经济总量。要达到这种规模,你基本上必须在非常显著的方式上自动化劳动或补充劳动。

    如果这有可能,一旦我们弄清楚它的法律后果,那么即便在你任期内,我们也有可能解决这个问题。你在考虑超人类智能吗?就像你职业生涯中最大的成就就是这个?

    Satya Nadella:你提到了另一个点。我知道 David Autor 等人谈了很多这个问题,60% 的劳动——我认为需要解决的另一个问题是,至少在我们的民主社会中,稳定的社会结构和民主制度的运作不能仅仅依靠资本的回报,而没有劳动的回报。我们可以讨论这个问题,但这 60% 的劳动必须重新估价。

    用我自己简单的方式,也许你可以称之为天真,我们将开始评估不同类型的人类劳动。今天被认为是高价值的人类劳动,可能会变成商品。我们可能会看重一些新的东西。

    包括那个帮助我做理疗的人,或者其他我们看重的东西,但归根结底,如果我们的劳动没有回报,工作没有意义,工作没有尊严,那也是这些东西能否部署的一个制约因素。

    让 AGI 真正安全

    Dwarkesh Patel:关于对齐问题,两年前,你们发布了 Sydney Bing。为了明确一点,就当时的能力水平而言,这只是一个迷人、令人愉快、也有些幽默的误对齐的例子。

    在当时,它就像聊天机器人一样。它们可以思考 30 秒,给你一些有趣或不恰当的回复。但是,如果你考虑到这种系统–我想,对于《纽约时报》的记者来说,这种系统曾试图让他离开他的妻子或其他什么–如果你考虑到这种系统的未来,而你拥有的这些智能体在未来的几个小时、几个星期、几个月里,就像自主的 AGI 群一样,他们可能会以类似的方式错位,把事情搞砸,也许还会相互协调,你们将如何应对,确保当你们拥有那个“大型 AGI”时,能够做到正确的对齐?

    Satya Nadella:没错。这也是我们通常在分配计算资源时的原因之一—— 我们要为对齐问题分配计算资源

    更重要的是,我们需要考虑真正能够监控这些事情的运行时环境是什么?它的可观察性如何?我们今天在传统的技术领域也面临很多类似的问题,比如网络安全。我们不只是编写软件,然后任其发展。有了软件,还要对其进行监控。你要监控它是否遭受网络攻击、是否存在故障注入等等。

    因此,我认为我们必须在这些部署方面建立足够的软件工程支持,然后在模型本身内部解决对齐问题。这些问题中,有些是科学问题,有些是工程问题,我们必须逐一攻克。

    这也意味着我们需要承担我们自己的责任。所以,我更倾向于将这些技术部署在那些可以实际管理其范围和规模的地方。你不能就这样把某个系统释放到外部世界中,造成伤害,因为社会不允许这样做。

    Dwarkesh Patel:当你拥有能够为你完成数周任务的智能体时,你希望在让它运行一个随机的财富 500 强公司之前,你想要的最基本的保障是什么?

    Satya Nadella:我认为,当我使用像 Deep Research 这样的东西时,最低的保障要求是,在我们特别拥有任何东西的物理化身之前,这应该是一个门槛,当你越过这个门槛时,才会考虑进一步的部署。那可能是其中一个点。

    另一个方面是,比如说,这些系统运行的环境的权限。

    Dwarkesh Patel:我的意思是,我们已经有了网络搜索,而且已经脱离沙箱了。

    Satya Nadella:但即便是网络搜索,它做的事情,以及它写的内容——比如说,假如它只是为了进行某些计算而写一堆代码,那些代码是在哪里部署的?这些代码是仅仅为了创建输出而临时生成的,还是会被放出去到世界上?

    这些是你在行动空间中可以真正控制的东西。

    Dwarkesh Patel:除了安全问题之外,当你考虑到自己的产品套件,并且思考如果你确实拥有如此强大的 AI 系统时,某个时刻,它不仅仅像是 Copilot——你提到的关于你如何为这次播客做准备的例子——更像是你实际将工作委派给同事的方式。

    在你当前的产品套件基础上,添加这些 AI 会是什么样子?我指的是, 是否有一个问题是,大语言模型(LLM)会被其他事物商品化?

    我在想,这些数据库、画布、Excel 表格等等——如果 LLM 是你访问所有这些东西的主要入口点,是否有可能 LLM 会让 Office 商品化?

    Satya Nadella:这是一个有趣的问题。我认为,至少在第一阶段,我的想法是:LLM 能否帮助我更高效地使用所有这些工具或画布来完成知识工作?

    我见过的一个最好的演示是,一位医生准备参加肿瘤委员会会议的工作流程。她要参加肿瘤委员会会议,首先她使用 Copilot 来创建会议议程,因为 LLM 可以帮助她理清所有案例,这些案例在某个 SharePoint 网站上。它会说:“嘿,这些案例——显然,肿瘤委员会会议是一个高度关键的会议,你需要考虑不同案例的差异,以便分配适当的时间。”

    甚至仅仅是创建一个议程的推理任务,它知道如何分配时间,这非常好。所以,她用 LLM 来做这个。然后她进入会议,在和所有同事在 Teams 通话中,她能够专注于实际案例,而不是做笔记,因为现在有这个 AI Copilot 在做完整的会议记录。这不仅仅是转录,还包括了会议内容的数据库条目,以供随时回顾。

    然后,她从会议中出来,讨论了案例,而没有被做笔记分心。她是位教学医生,她想去准备她的课堂。所以她进入 Copilot,说:“把我的肿瘤委员会会议内容做成 PPT,好让我可以给学生讲解。”

    这就是这种类型的工作。我现在的用户界面(UI)和支撑框架是通过 LLM 填充的画布。而工作流程本身正在被重塑;知识工作正在进行。

    有一个有趣的事情:如果在上世纪 80 年代末有人告诉我:“你桌上会有一百万份文件”,我可能会说:“那是什么鬼?”我本来会以为桌上会有一百万份纸质文件。但事实上,我们确实有一百万份电子表格和一百万份文档。

    Dwarkesh Patel:我没有,你有。

    Satya Nadella:它们都在那儿。所以,即使是智能体,也会发生这样的事情。会有一个 UI 层。对我来说,Office 不仅仅是今天的办公室,它是知识工作的 UI 层。它将随着工作流程的演变而进化。这就是我们想要构建的。

    我确实认为,今天存在的 SaaS 应用程序,这些 CRUD 应用程序,最终会发生根本性变化,因为业务逻辑将更多地进入这种智能体层。实际上,我在 Copilot 的另一个很酷的体验是,当我说,“嘿,我准备和客户开会,”我只需要说,“给我所有相关的会议笔记。”它会从我的 CRM 数据库中提取,从我的 Microsoft Graph 中提取,创建一个合成的、本质上的人工制品,然后在上面应用逻辑。对我来说,这将改变我们今天所知道的 SaaS 应用程序。

    Dwarkesh Patel:SaaS 作为一个行业,可能每年价值数千亿美元到数万亿美元,具体取决于如何计算。如果这真能被 AI 击垮,那在未来十年里,微软的市值是否会再次增长 10 倍?因为你在谈论数万亿美元的市场…

    Satya Nadella:它还将为 SaaS 创造大量价值。也许我们没有太关注的一个方面是,世界上存在的 IT 积压问题。

    这些代码生成技术,加上可以通过智能体来查询你所有的 SaaS 应用并获取更多效用,将会带来应用程序的巨大爆炸,它们会被称为智能体,所以在每个行业、每个类别中,我们突然间就能够获得服务。

    因此,将会有很多价值。你不能停滞不前。你不能再说“哦,我对某个狭窄的业务流程做了框架设计,我在浏览器中有一个 UI,这就是我的工作了。”这种说法已经不再适用了。 你必须要站得更高,问问自己:“我需要参与的任务是什么?”

    你将希望能够将你的 SaaS 应用程序转变为一个出色的智能体,在一个多智能体的世界中发挥作用。只要你能做到这一点,那么我认为你就可以增加它的价值。

    34 年微软生涯

    Dwarkesh Patel:我可以问你一些关于你在微软工作的事情吗?

    Satya Nadella:当然可以。

    Dwarkesh Patel:做为一个公司人(company man,指的是那些长期在一家公司工作,对公司文化、历史和业务有深入了解,并逐渐通过公司内部晋升至高位的员工。)是不是被低估了?你在微软大部分时间里工作,或许可以说,你之所以能创造如此多的价值,其中一个原因就是你见证了微软的文化、历史和技术。你通过在公司内部晋升,获得了所有这些背景。是不是更多的公司应该由那些拥有这种背景的人来管理?

    Satya Nadella:这是一个很好的问题。我没有从这个角度思考过。

    在我 34 年的微软生涯中,每一年我都觉得比前一年更激动人心。并不是觉得,哦,我是个公司人,或者其他什么。我非常认真对待这一点,尤其是对于任何加入微软的人来说。并不是说他们加入微软是因为他们觉得这只是一个经济回报的平台,而是他们觉得能够利用微软平台来实现自己的使命和目的。这就是我们之间的契约。

    所以我认为是的,企业必须创造一种文化,允许员工进入公司并成为像我这样的“公司人”。至少在我的案例中,微软在这一点上做得利是大于弊端的,我希望未来依然如此。

    Dwarkesh Patel:你所说的第六任 CEO,将会使用你现在开始的这些研究,你是如何留住未来的 Satya Nadella,确保他们能够成为未来的领导者的?

    Satya Nadella:这很有意思。今天是我们的第 50 个年头,我经常在思考这个问题。我们应该理解的是,持久性不是目标,意义才是目标。

    我和我们 20 万名员工每天要做的事情是:我们所做的事情,是否对世界有用并且有意义,我们不仅要考虑今天的世界,还要考虑未来的世界。

    我们所处的行业没有特许经营价值,这是另一个难点。如果你把我们今年的研发预算拿出来,那都是在推测五年后会发生什么。基本上,你必须抱着这样的态度去做,说“我们正在做我们认为会有意义的事情”。

    所以你必须关注这个目标。然后要知道,你的打击率是有限的,你不会总是成功,你必须对失败有很高的容忍度。你必须进行足够的尝试,才能说:“好吧,作为一家公司,我们会成功的”。这就是这个行业的棘手之处。

    Dwarkesh Patel:还有两个月就是微软成立 50 周年了。如果你看一下市值排名前十的公司,或者前五名,基本上,除了微软,其他公司都比微软年轻。这个现象非常有趣,微软是如何做到在这么多年中始终保持活力的?如何不断重整旗鼓(refounding)?成功的公司往往都比较年轻。世界 500 强企业的平均寿命为10到15年。

    Satya Nadella:我喜欢 Reed Hoffman 用的那个词,refounding。这就是一种思维方式。人们常说“创始人模式”(founder mode),但 对于我们这些普通的CEO来说,更像是“重整旗鼓模式”(refounder mode)

    能够以全新的视角重新看待事物是关键。对于你的问题:我们能否在文化上创造一个环境,使得“重整旗鼓”成为一种习惯?我们每天来这里都会说:“我们觉得我们与这里息息相关,能够改变我们所做的事情的核心假设,并重新定义我们与周围世界的关系。我们给自己这个权限了吗?”我认为,很多时候,公司会觉得自己受到了商业模式等的限制。对此,你必须需要解除对自己的束缚。

    Dwarkesh Patel:如果你离开微软,你会创办什么公司?

    Satya Nadella:我会创办什么公司?天啊。这时候“公司人”的我就说:“我永远不会离开微软。”

    如果我真要做点什么,我认为选择一个有…当我看到科技的梦想时,我们一直在说,科技是最大的、最伟大的民主化力量。

    我觉得我们最终具备了这样的能力。如果你说每瓦特每美元能产生的效益,我愿意去找到一个可以应用这种能力的领域,尤其是那些服务不足的应用领域。

    那就是医疗、教育…公共部门会是另一个应用领域。如果你把这些领域,也就是服务不足的地方,作为这个国家的公民、这个社会的成员或任何地方的一员,能够受益于这种技术带来的丰富性,转化为更好的医疗、更好的教育和更好的公共部门服务,那将会很棒。

    相信AGI吗?

    Dwarkesh Patel:听了你对不同问题的回答,有一点我不太确定,你是否认为 AGI 是一个存在的事物。是否会有一种能够自动化所有认知劳动的东西,像是任何人能够在电脑上做的事?

    Satya Nadella:这是我对人们讨论它的定义有所困惑的地方。认知劳动并不是一成不变的。今天就有认知劳动。如果我有一个收件箱,管理我所有的智能体,那是新的认知劳动吗?

    今天的认知劳动可能会被自动化。那么,产生的新认知劳动呢?这两者都必须考虑到,这就是转变。

    这就是为什么我做出这样的区分,至少在我的脑海中是这样:不要把知识工作者和知识工作混淆。今天的知识工作可能会被自动化。但谁说我的人生目标是处理我的电子邮件?让智能体处理我的电子邮件,但在处理完我的电子邮件之后,再给我一个更高层次的认知劳动任务,比如,“嘿,这三份草稿是我真正想要你审阅的”。这是一个不同的抽象概念。

    Dwarkesh Patel:但 AI 能达到第二个层次吗?

    Satya Nadella:有可能,但一旦它达到了第二个层次,就会有第三个层次。当我们在历史上使用的工具已经改变了认知劳动的本质时,我们为什么还在担心所有的认知劳动都会消失呢?

    Dwarkesh Patel:我敢肯定你之前听过这些例子,比如说马匹仍然在某些事情上有用,有些地形是你无法开车去的。但认为你会看到马匹在街上跑,或者雇佣百万马匹,这种情况显然不会发生。

    然后这个问题是,类似的情况会不会发生在人类身上?

    Satya Nadella:但是仅仅在一个非常狭窄的维度上吗?按照我们今天的理解,人类开始重视某些被称为“认知劳动”的这种狭义的东西,这样的历史只有两百年。

    以化学为例。如果量子力学加上 AI 确实帮助我们做了很多新型的材料科学研究,那由它做的新材料科学研究是非常棒的。这是否会剥夺人类能做的其他事情呢?

    为什么我们不能在一个有强大认知机器的世界里生存,同时知道我们的认知能力并没有被剥夺呢?

    Dwarkesh Patel:我会问这个问题,不是关于你的,而是关于一个不同的情境,所以也许你可以在不感到尴尬的情况下回答。假设在微软的董事会中,你能看到增加一个 AI 成员吗?它能否拥有判断力、背景和全面的理解,成为一个有用的顾问?

    Satya Nadella:这是一个很好的例子。我们在 Teams 中增加了一个主持智能体。目前还处于早期阶段,我们的目标是,能否让这个主持智能体利用长期记忆,不仅仅是会议背景,还包括我们正在进行的项目、团队等背景,成为一个出色的主持人?

    我甚至希望它能在董事会会议中使用,因为董事会成员每个季度才开一次会,他们需要消化一个像微软这样复杂的公司的信息。一个能够真正帮助人们集中注意力,保持专注于重要问题的主持智能体,那真是太棒了。

    这就像你说的,回到你之前的问题,拥有一个拥有无限记忆的东西能帮助到我们。毕竟,Herbert Simon 怎么说的来着?我们都是有限理性。因此,如果人类的有限理性能够通过外部的认知放大器得到处理,那就太好了。

    Dwarkesh Patel:说到材料和化学,我记得你最近说过,你希望下一个 250 年在这些领域的进展能在未来 25 年内实现。现在,当我想到下一个 250 年可能实现的事情时,我想到的是太空旅行、太空电梯、永生以及治愈所有疾病。你觉得未来 25 年能做到这些吗?

    Satya Nadella:我提到这个的原因之一是,我喜欢那个观点:工业革命是 250 年的进程。我们必须从一个基于碳的系统转变到另一种系统。

    这意味着,你必须从根本上重塑过去 250 年里化学领域发生的一切。 这就是我希望量子计算机能够发挥作用的地方,量子计算机帮助我们发现新材料,然后我们可以制造出这些新材料,来应对我们在这个星球上面临的所有挑战。然后我也支持星际旅行。

    Dwarkesh Patel:太棒了。Satya,非常感谢你抽出时间来和我们交谈。

    Satya Nadella:非常感谢。这真是太棒了。谢谢。

    Dwarkesh Patel:太好了,谢谢。

    原文链接: https://www.dwarkeshpatel.com/p/satya-nadella

    来源:微信公众号“学术头条”

  • DeepSeek 创始人梁文锋牛逼的个人经历

    DeepSeek 创始人梁文锋牛逼的个人经历

    这个春节,DeepSeek  实在太火爆了

    DeepSeek 的爆火,引发了全国人民的关注,大家纷纷好奇这位幕后创始人究竟是何许人也,我也不免俗地产生了浓厚兴趣。尤其是他前不久刚刚参加了总理主持的座谈会,紧接着在不到一个月的时间内,前天又出席了中国规格最高的民营企业座谈会

    与马化腾并肩坐在第一排,其受重视程度可见一斑

    然而,这位创始人却异常低调,低调到何种程度呢?

    在撰写这篇文章时,我按照常规在 DeepSeek上搜集资料,却发现只要涉及到“梁文锋”这三个关键字的问题,信息均显得稀缺。

    DeepSeek 总是以换话题的方式回应我,似乎在暗示着更多的探讨空间。于是,我转而登录腾讯的 DeepSeek R1 平台,搜索有关“梁文锋”的信息,以完成这篇文章的撰写。由此可见,DeepSeek 的数据分散策略或许有其道理,可以有效避免单一企业的信息霸权。

    让我们先从梁文锋的求学之路说起:

    1985年,他出生于广东省湛江市下辖的吴川市覃巴镇,成长于一个普通家庭,父母都是小学教师。

    2002年,他以吴川一中的高考状元身份,考入了浙江大学,主修电子信息工程专业。尽管他的分数足以进入清华,但他坚持选择了浙江大学,因为这里能让他学习心仪的专业。这反映出他在高考时便对自己的人生方向有着清晰的规划,不为国内顶尖学府的诱惑所动。

    2007年,他继续在浙江大学深造,攻读信息与通信工程硕士学位,并于2010年毕业,其硕士论文题为《基于低成本 PTZ 摄像机的目标跟踪算法研究》。

    值得一提的是,近年来成功的企业家,比如:刘强东、雷军、虞仁荣、梁文锋等,往往有着优异的高考成绩或显赫的学历背景。随着时代的发展,创业越来越依赖于高科技,对创始人的背景要求也日益提高。而能成为高考状元,本身就是一种能力的体现。

    接下来,我们来看看梁文锋的创业历程

    毕业后,他没有像大多数同学那样加入大公司,而是选择在一个简陋的环境中,探索计算机赚钱的各种可能,他的生活几乎被代码和数据包围。

    在探索过程中,他偶然接触到了量化投资,并在发现其盈利潜力后,决定组建公司发展这一领域。

    2010年,他大学毕业,同年沪深300股指期货正式推出。

    2013年,他与浙江大学校友徐进共同创立了人生中的第一家公司——杭州雅克比投资管理有限公司。

    2015年,他成立了杭州幻方科技,专注于 AI 量化投资,并在当年的市场波动中依靠高频策略取得了显著成就。

    2016年,他推出了首个 AI 模型,到2017年管理规模达到30亿元,2018年获得了私募金牛奖。

    2019年,他自主研发了“萤火一号”训练平台(配备了 1100 块 GPU),管理规模突破百亿。

    2021年,管理规模更是突破千亿,使他成为量化私募界的“四大天王”之一。

    这一切成就,都是他在量化投资领域的成长轨迹,短短不到10年,他就从一个行业新手成长为国内顶尖的私募机构领导者。值得一提的是,梁文锋在招聘时有一个特点,他偏好那些没有基金背景的“外行”人才。

    在 AI 领域的发展又是另一条线索

    在运营量化基金期间,他为了训练模型进行股票交易,提前积累了大量的 GPU,其数量足以与国内一线大厂媲美。

    有人传言,DeepSeek 拥有上万张 GPU,虽然这一说法未经证实,但可以肯定的是,其 GPU 数量在国内绝对是首屈一指的。

    梁文锋曾说过,他的核心动力是好奇心,对 AI 能力边界的好奇。在好奇心的驱使下,他创建了 DeepSeek,不为利润,只为探索通用大模型的无限可能

    2023年7月,他创立了 DeepSeek(深度求索),进军通用人工智能(AGI)领域。

    2024年5月,发布了 DeepSeek-V2,其定价仅为 GPT-4 Turbo 的1%。

    2024年12月,推出了 DeepSeek-V3,并开源了技术细节。

    2025年1月,发布了 DeepSeek-R1 模型,并参加了国务院总理主持的座谈会。

    DeepSeek 的具体迭代路线,可以通过下方的图表来了解:

    最后,分享两个有趣的八卦

    一是关于梁文锋的创业伙伴徐进的近况

    比较好奇,最开始和梁文锋创业的徐进去哪里了,大概查了一下有这么一个小八卦。
    2023 年 10 月,一条 “股民的钱去了哪里?都被头部量化私募股东割韭菜来包养二奶!” 的微博小作文引发关注。发帖人是徐进的妻子,她控诉徐进不但长期 PUA 她,还在其面前公开出轨,用投资人的钱大肆包养二奶,玩各种大尺度色情游戏,甚至要求她们住在一起。
    2023 年 10 月 26 日,幻方量化官方公众号发布情况说明称,徐进作为公司团队成员,其对于个人家庭事务处理不当,引发负面舆论,对公司声誉造成不良影响,决定对徐进作出停职处理。

    二是关于捐款的趣事。2022年,幻方量化向慈善机构捐赠了2.2138亿元,而公司员工“一只平凡的小猪”个人捐赠了1.38亿元。后来证实,“一只平凡的小猪”正是梁文锋。

  • 王兴兴:宇树科技创始人,9岁造机器人,座谈会上唯一的90后,从大疆辞职创业,34岁获10亿元融资

    王兴兴:宇树科技创始人,9岁造机器人,座谈会上唯一的90后,从大疆辞职创业,34岁获10亿元融资

    什么?机器人现在都能扭秧歌,转手绢了?

    在2025年央视春晚的舞台上,一个名为《秧BOT》的创新节目一举成为全场焦点。借助高精度3D激光SLAM自主定位与导航、多智能体协同规划、先进组网方案等前沿技术,16台机器人在舞台上精准律动,自主跳舞,挥舞手绢,为观众带来了前所未有的科技盛宴。这些惊艳亮相的机器人,正是来自宇树科技的人形机器人 Unitree H1。据报道,其舞蹈动作基于强化学习算法生成,16台机器人能时调整队形,即使环境不断变化,仍能保持动作同步误差小于0.1秒。

    图片来源:《秧BOT》节目截图

    早在2021年春晚,宇树科技便携四足机器人“犇犇”登台,以高性能机器人集群舞蹈震撼全场。宇树科技如今稳居机器人行业的霸主地位,2023年全球四足机器人市场中,宇树科技的销量份额高达70%,市场规模份额达到41%,展现出强大的行业统治力。

    2025年2月17日,民营企业家座谈会在北京隆重召开,宇树科技创始人王兴兴作为六位企业家代表之一发表演讲。而与他同台发言的,正是华为任正非、比亚迪王传福、小米雷军等业界巨擘。能与这些商业巨头并肩而立,足以证明宇树科技在行业中的分量。

    令人惊叹的是,这位2016年才创业的年轻企业家,如何在短短不到十年的时间里,从一个初创公司迅速崛起,跻身全球机器人行业的领军者?他又是如何一步步奠定宇树科技的行业霸主地位?

    图片来源:风闻

    偏科严重的小发明

    1990年,王兴兴出生于浙江宁波余姚的一个普通家庭,自幼展现出对科技和手工制作的浓厚兴趣。从雕塑、绘画到电子电路,他都乐在其中。小学时,他亲手制作了一款风力小车,这是他人生中的第一个小发明。此后,他不断探索,从改装四驱赛车的直流电机,到利用铁皮、漆包线和磁铁手工制作直流电机,他总是乐此不疲。

    然而,他在英语学习上却屡屡受挫。尽管他从小学二三年级就主动学习英语,但记忆单词成为他最大的难题。严重的偏科导致他学业受阻,高中入学,不仅学校普通,成绩排名还全校倒数。不过,随着数理化课程比重的增加,他逐渐找回信心,第一学期便跃居前列,但英语依然是难以逾越的障碍,整个高中仅有三次勉强及格。

    2009年,王兴兴考入浙江理工大学机械与自动控制学院机电专业,尽管学历在行业内算不上顶尖,但这段求学经历成为他正式踏入机器人研究领域的起点。大学伊始,他便开始思考未来,并迅速投身于各种手工制作,探索自己的兴趣与发展方向。

    2009年冬天,王兴兴第一次接触单片机(MCU,Microcontroller Unit),并用自己的零花钱购买了一块几十元的Arduino开发板。到了大一寒假,他又购入了十多个9g舵机,开始研究制作机器人。或许是因为从小就习惯于凭借简陋的工具纯手工制作各种小发明,王兴兴手工制图,靠着手动钻头和一些边角料,硬是成功制作出一个14自由度的双足人形机器人。他曾自嘲自己“超级抠门”,仅用200元的成本就可以把机器人做出来。这背后,其实是王兴兴不同于一般人的天赋和毅力。

    图片来源:观察网

    这个机器人至今还在王兴兴的办公室里,是他发明的第一个人形机器人,颇具纪念意义。但在当时,这个机器人“步履蹒跚”,实在没有什么性能可言。事实上,这也是彼时全世界技术局限的缩影。王兴兴曾说:“当时看了一下全世界的技术水平,会发现以当时的人类科技水平,很难驾驭高复杂度的人形机器人。没有什么商业价值,只能做玩具,或者是科研、实验室场景,商业化非常难。”

    对人形机器人的探究暂且搁置,到了大一下学期,王兴兴开始接触神经网络和人工智能相关领域。此外,王兴兴在大学期间还积极参与科研项目,主动寻找不同的实验室,向老师展示自己的成果。在这一过程中,他逐渐意识到自己的专业深度仍然不足,因此萌生了攻读研究生的想法,以进一步拓展自己的学术视野和技术能力。

    2013年,王兴兴从浙江理工大学毕业,他的毕业论文是《一种BLDC控制器的研制》。毕业后入读上海大学机电工程与自动化学院机械工程专业硕士研究生。

    其实,他最初的目标是浙江大学,但英语成绩再次成为阻碍。尽管总分合格,却因英语未达标,最终调剂至上海大学。在上海大学就读期间,王兴兴研发出了XDog——全球首款采用外转子无刷电机驱动的小型高性能低成本四足机器人。XDog不仅开创了低成本、高性能四足机器人方案的先河,为他日后在行业内的发展铺下基石。

    四足机器人爆火 实习生意外创业

    读研究生开始,王兴兴就对小型的纯电力驱动的四足机器人产生了极大的兴趣。

    起初,王兴兴所在的实验室正尝试做一款比较大的液压机器人。液压驱动是彼时业界的主流,如美国机器人先驱公司波士顿动力就采取液压驱动,力量虽大但成本很高。相比之下,王兴兴的想法非常超前,他认为“整个(液压机器人)工程量非常大,很难做。但是电驱动这个方向,整个电控系统、机械结构、包括控制算法,在全世界做的还不够优,有很多方案可以把它做的更好”。于是,王兴兴在完成了电控系统、机械结构、控制算法的自主研发后,拿出了XDog的方案,经过验证,效果很好。

    图片来源:智源社区

    转眼就要毕业。为了能够将剩下的一半机器人项目完成,本应在2015年中下旬毕业的王兴兴主动申请了延期毕业,又花了半年多的时间,最终完成项目。而这个研发投入只有大约2万人民币的机器人,却给他带来了一系列意想不到的丰厚收获。

    XDog 图片来源:智源社区

    申请延毕后,王兴兴机缘巧合的参加了国际智能“星创师”大赛。因为其他同学都已经毕业,他只能带着XDog机器人独自参赛。相比于其他的参赛团队的热闹,王兴兴显得有些形单影只。但最终,他顺利通过了五六次比赛答辩,并获得二等奖,赚到了8万元。

    2015年,他还公开了机器狗电驱动方案。这比波士顿公司2016年公布电驱动早了一年时间,这个技术方案也是后续很多机器狗公司沿用的方案。

    2016年6月,王兴兴从上海大学毕业。他的硕士毕业论文课题就是《新型电驱式四足机器人研制与测试》。

    王兴兴也曾找过几个投资人。但当时的市场还不够成熟,投资人兴趣不高。虽然王兴兴的创业梦想暂时搁置,但XDog的履历,依然让他顺利拿到大疆的offer。可试用期还没结束,他的创业启动金就悄然来临。

    起初,王兴兴只是把XDog的测试视频上传到优酷平台,没想到被IEEE Spectrum转载到海外网站之后直接爆火。在国内外媒体轮番报道之后,买家和投资人接踵而至。王兴兴认为,这至少可以证明“社会上已经达成了一定的共识,大家愿意接受这个产品,整个的基本盘已经有了”,于是王兴兴拿着200万元的天使投资,果断辞职创业。

    建立宇树科技 掌管全球四足机器人市场

    2016年8月,王兴兴在浙江杭州成立杭州宇树科技有限公司(Unitree Robotics)。据悉,王兴兴曾想把公司取名为“科技树”,希望能帮助人类点亮“科技树”。但是这个名字没能通过工商注册,于是改名为“宇树”。

    宇树科技在创立初期便经历了严峻的考验。起初,公司只有三个人,都是技术工种。基于XDog的技术,王兴兴带领团队精益求精,在经过一年多的反复探索,于2017年10月,正式发布第一款机器狗——莱卡狗(Laikago),以此纪念被前苏联送上太空的那只狗狗Laika。

    产品做出来了,可是钱也花光了。2017年到2018年,公司的第一笔融资款耗尽。为了维持运营,王兴兴主动停发自己的工资来填补缺口,“创业是创业,不能亏待所有人,也不要太亏待自己,因为这是底线”。直到2018年初,王兴兴拿到极客公园变量资本的投资,才解了燃眉之急。

    图片来源:极客公园

    此外,虽然早在2017年宇树科技就开始产品预售,但真正交付给客户却花了一年多的时间。王兴兴深知,做DEMO工程机或许两个月就能完成,但要打造真正满足客户需求的产品,至少需要一年。他曾自豪地表示,直到2022年,仍有客户在使用公司的初代产品,这也证明了其长期稳定的产品质量。

    值得一提的是,2018年MIT开源了自己的机器狗方案,这在国内掀起了一股机器狗研发热潮。让王兴兴惊讶的是,MIT的电机方案与他在2016年公布的方案几乎完全一致,电控方案也高度相似。不仅如此,在软件方面,两者也有着惊人的相似之处。不仅关节电机的命名方式相同,通讯协议甚至是王兴兴版本的子集。而实际上,他的方案早在2013年就已经完成。王兴兴推测,可能是在自己公布低成本机器人方案后,MIT参考并加以改进,最终将其开源。他的研究进度,比MIT足足早了五年。

    自2018年底正式向客户发货后,宇树科技的资金流开始步入正轨。王兴兴曾透露,公司在2018年实现了数百万收入,而随后的2019至2020年,发展势头愈发迅猛,业务拓展更加顺畅。

    如果回顾宇树科技近6年的成长轨迹,不难发现,从行业功能性应用,到教育科研,再到工业和消费市场,王兴兴对整个产业的布局远比外界想象得更加全面。

    2019年,宇树科技发布了四足机器人 AlienGo,专注于行业功能性应用。AlienGo凭借全球最大尺寸和重量级别的后空翻能力,成为当时行业内的一大技术突破。这一年,宇树科技成功售出数百台四足机器人,产品市场认可度不断提升。同年12月,宇树科技获得红杉资本中国基金和德迅投资的Pre-A轮融资。

    2020年,宇树科技又发布教育版四足机器人A1,不仅体积更小,售价更低——不到十万人民币。当年10月,宇树科技的四足机器人受邀成为2021年央视春晚舞台的“表演嘉宾”。这次春晚对宇树科技来说,是一个命运转折点。据王兴兴回忆,他们在春晚后台连续奋战了一个月,通宵加班,终于保证了24只四足机器人“犇犇”的完美表演。“犇犇”是基于A1机器人改装而成,一经亮相便惊艳全场,引发全球关注。凭借春晚的广泛曝光,宇树科技的产品迅速走进大众视野,品牌影响力大幅提升。此后,宇树科技的机器人又陆续亮相2022年北京冬奥会开幕式、2023年Super Bowl赛前表演、2023年杭州亚运会和亚残运会等国际舞台,持续展现中国机器人技术的创新实力。

    机器牛“犇犇” 图片来源:新京报

    2021年6月,宇树科技乘胜追击,发布了第一款真正面对消费市场的四足机器人Go1。这是一款伴随仿生机器人,它的售价降至1.6万元人民币,一年累计出货近千台。反观波士顿动力Spot定价高达7.4万美元,Go1的售价仅为其价格的3%。

    同年7月,领宇树科技获得雷军的顺为资本1000万美元A轮融资;次年3月,获得经纬创投、敦鸿资产、深创投、顺为资本等机构B轮融资数亿元。

    图片来源:观察网

    2022年6月,宇树科技发布工业级机器狗B1,被成功应用在公共救援、电力巡检、勘测探索等行业级场景。

    2023年7月,宇树科技震撼发布消费级四足机器人Go2。据悉,Go2搭载宇树科技自研的4D激光雷达L1,实现360°感知,轻松适应复杂地形。集成OpenAI GPT模型,具备智能交互与数据处理能力,并开放AI模型接口,满足多场景需求。ISS2.0智能伴随系统提升50%定位精度,遥控范围超30米。此外,膝关节热管散热系统防止过热,最高奔跑速度5m/s,可模拟宠物狗的追球等动作,兼顾趣味性与实用性。这样一款高性能的伴随仿生机器人,起售价只有9997元!彻底将消费级机器狗的价格打到了万元以下。

    图片来源:官方

    紧接着,宇树科技在2023年11月发布工业级机器狗B2。有媒体报道,2024年10月,机器狗B2在泰山上当“智能挑夫”的视频在海外爆火,外交部副部长华春莹也在社交平台上发布相关片段,并配文称:“机器狗在雄伟的泰山上充当搬运工:科技造福人类。”

    据官方透露,2024年2月,宇树科技完成B2轮融资,近10亿元人民币,投资方包括美团、金石投资、源码资本等。有媒体表示,宇树科技2024年9月完成C轮融资,投资方包括美团龙珠、北京机器人产业投资基金等。

    2024年12月,宇树科技发布了升级版B2-W的测试视频。宇树科技相关人士曾向媒体表示,此次B2-W工业轮足机器人新功能包括完成双旋转,转换成三周半旋转倒立,侧翻,360°跳跃旋转;艰难的地形穿越;可承载重达40kg的重物,甚至可承载一人。这段视频在外网疯传,特斯拉创始人马斯克亲自下场回复称:未来的战争是无人机战争。

    图片来源:风闻

    “未来的战争是无人机战争” 图片来源:Xapp

    至此,宇树科技的四足机器人在现有技术框架下,已实现高度覆盖各大行业领域。产品如今已深度渗透至工业、消费市场、公共安全、科研等多个领域,广泛应用于自动化生产、安防巡逻、学术研究、娱乐教育等多个场景。宇树科技相关负责人曾向媒体介绍,其四足机器人出货量,占全球四足机器人出货量的60%以上。目前,该公司业务范围覆盖全球一半以上的国家和地区。据有关报道,曾有机器人行业从业者直白的表示:“我们不会做机器狗了,因为宇树科技已经一家独大,机器狗赛道没有机会了。”

    图片来源:官方

    借势而起,入局人形机器人市场

    人形机器人是王兴兴的初心,但也是他曾经坚决不越的雷池。

    2018年到2021年,很多投资人都曾对人形机器人感兴趣,但都被王兴兴坚决地拒绝。这并非因为他对人形机器人缺乏兴趣,而是他始终在等待合适的“借势”时机。相比盲目投入,他更倾向于在技术、市场和产业环境都足够成熟的情况下,以最优的策略切入。

    直到2022年马斯克明确表示开始研发人形机器人“擎天柱”,推动了行业的发展,再加上2022年年底ChatGPT横空出世,人们对AI行业的信心倍增。“有人愿意买(这种产品),我们才做这个方向”,王兴兴认为时机成熟,于2023年开始入场人形机器人。

    2023年8月,宇树科技迅速推出首款通用人形机器人H1,售价9万美元。H1被定位为国内首台具备跑步能力的全尺寸通用人形机器人,采用超轻量级设计,整机重量约47kg,最大扭矩达360N·m。宇树科技自主研发大扭矩关节电机等核心组件,使其能够执行复杂动作和任务。H1的移动速度可达3.3m/s,潜在运动性能超过5m/s,具备实地环境下的灵活奔跑和跳跃能力。就连OpenAI创始成员Karpathy都直呼“想要”。

    图片来源:Xapp

    2024年5月,宇树科技又推出了第二代人形机器人G1。G1机器人搭载43个自主研发的关节电机,最大扭矩120牛·米,并通过精准的动态平衡算法,将误差控制在毫米级,确保运行稳定流畅;在成本控制方面,G1采用三指力控方案替代传统五指设计,既能满足90%的抓取需求,又成功降低40%的制造成本。G1机器人以9.9万元的定价被行业称为“价格屠夫”,预售首日即斩获超三千台订单。

    图片来源:风闻

    今年1月,在国际消费电子展(CES 2025)上,宇树科技携带G1人形机器人和Go2机器狗亮相。Go2售价为1600美元,相比之下,形态类似的波士顿动力Spot机器人售价高达74500美元;G1人形机器人售价16000美元。有媒体证实,宇树科技在人形机器人领域的出货量处于行业前列。

    为何宇树科技可以把产品价格压低?核心在“技术资产复用”,最大化降低研发与生产成本。不同于特斯拉 Optimus 采用从零构建人形机器人技术栈的高投入模式,宇树科技借助四足机器人产品线的持续迭代,将运动控制、环境感知等底层技术进行模块化封装,形成高复用性的技术架构。其已有技术可直接迁移超过60%,大幅缩短H1 的研发周期。这种技术复用不仅加速了产品落地,也让BOM(物料清单)成本大大降低。

    王兴兴在社交媒体发布G1跳舞视频 图片来源:小红书

    据相关数据显示,宇树科技自成立以来已完成9轮融资。有消息指出,完成数亿元的C轮融资后,投后估值达到80亿元人民币。此外,宇树科技在机器人核心零部件、运动控制、机器人感知等多个领域积累了深厚的技术实力。公司具备自主研发全链条能力,涵盖电机、减速器、控制器、激光雷达等关键核心部件,以及高性能感知与运动控制算法。截至目前,宇树科技已累计申请国内外专利180余项,其中授权专利超过150项。

    有趣的是,尽管王兴兴对AI在人形机器人中的应用前景十分看好,但在AI研发投入上,他却表现得格外谨慎。他坦言,AI的研发成本极高,尤其是GPU算力的消耗更是难以负担。

    在他看来,目前AI与机器人结合的技术临界点尚未到来,但通用AI的技术已经出现曙光,并且未来将有更多人才投身于具身智能的研究道路。如果进展顺利,三到五年内或许能够迎来真正的技术突破。“如果哪一天有人把 AI 机器人的模型做出来,我可以保证年底之前直接给他做 10 万个人形机器人。”他曾这么说。

    识时务者为俊杰,而既懂市场又精通技术的俊杰,更是凤毛麟角。王兴兴正是这样的人。作为商人,他目光独到,总能在市场最需要的时候精准出手,垄断不同场景的多元化客户群体;他借势而为,早年拒绝跟风人形机器人,但在2023年AI技术突破后,仅用半年便推出H1,并迅速迭代至G1。

    而作为技术专家,他对机器人每个构件都了然于胸,甚至连一颗螺丝钉都亲自把关。正因如此,宇树科技通过自研构建起深厚的技术壁垒,成本远低于竞品,抢占市场份额,构建宇树帝国。而最核心的是,王兴兴自始至终都对机器人有着浓厚的兴趣,正是这份深深植根于内心的热爱,转化为强大的自驱力,让他在技术探索和行业革新的道路上坚定前行。

    正如王兴兴所言:“创新就是既要仰望星空洞察技术趋势,又要脚踏实地解决产业痛点。最重要的是,兴趣驱动的实践探索才能让创新具有爆发力。” 他希望,宇树科技的名字不仅代表着一家企业,更是一棵不断生长的科技之树,在广阔的宇宙中枝繁叶茂,最终点亮人类的未来生活

    图片来源:新闻联播

    来源:微信公众号“极思TopMinds”

  • 李飞飞巴黎演讲:如果 AI 资源被少数公司垄断,整个生态系统都会完蛋

    李飞飞巴黎演讲:如果 AI 资源被少数公司垄断,整个生态系统都会完蛋

    在许多人眼中,人工智能是关于技术、现代世界和未来的故事,而这正是我们今天在此相聚的原因。但对我而言,人工智能的故事,更要追溯到五亿年前的生命起源之初。

    那是极其遥远的时代,远到视觉尚未出现,眼睛也未进化。没有任何生物亲眼目睹世界,所有生命都处于一片黑暗之中,就像你们现在在屏幕上看到的那样。

    要回顾五亿年历史,一篇文章显然不够。因此,我将长话短说。当进化赋予这些生物感知和回应外界刺激的能力时,即便只是微弱的感知,一场进化竞赛便拉开了序幕。从最初被动地感受光线,到逐渐变得丰富和活跃,神经系统开始进化,视觉发展为洞察力,看见成为理解,理解力催生行动——所有这些共同孕育了智能,并永远改变了地球生命的本质。

    快进五亿年,回到今天,人类的智能已引导我们以前所未有的方式构想和塑造工作与生活。我们不再满足于自然赋予的智能,好奇心驱使我们创造机器,赋予它们与我们匹敌,甚至超越我们的智能。

    因此,我们本周探讨的这项开创性技术,其探索之旅始于 20 世纪中期。英国伟大的数学家艾伦·图灵极具远见,早在计算机诞生之前,他就已开始思考赋予机器媲美人类认知能力的智能这一哲学问题。对我而言,他的著作始终是一种挑战,激励人类大胆想象会思考的机器,正如他所预见的那样。

    同样的求知欲和雄心也激励着早期的美国计算机科学家。他们不仅发起首个研究项目,探索会思考的机器的可能性,更在 1956 年那个炎热的夏天,在“人工智能”概念普及之前数十年,创造了“人工智能”这个术语本身。这是他们为那次研讨会撰写的研究论文的截图。

    坦白说,有趣的是,他们当时认为在两个月内就能解决大部分问题,并揭开智能之谜。或许他们过于乐观,但其胆识令人钦佩。如今,我们在这项“为期两个月”的项目上已投入 820 个月,但我们已取得显著进展。

    对人工智能的另一个误解是,它仅仅是计算机和工程学的问题。然而,事实上,人工智能始终是一项充满活力的多学科事业。我们身处的现代人工智能时代,是三项意义深远且截然不同的技术与科学进步融合的成果。

    首先是对感知算法的研究,即探究生物(包括人类)如何理解周围世界。最终目标是创建数学模型,使机器也能做到这一点。在艾伦·图灵(Alan Turing)提出大胆设想、以及达特茅斯人工智能夏季研讨会召开几年后,神经生理学家Hubel和Wiesel首次阐明了哺乳动物视觉皮层神经元处理信息的分层结构,这项发现为他们赢得了诺贝尔奖,并彻底革新了我们对视觉处理的理解。

    大约在同一时期,心理学家弗兰克·罗森布拉特构建了最早的神经网络原型之一——感知器。这项工作激励了其后数十年的计算机科学家,特别是早期的先驱者,如福岛邦彦、杰夫·辛顿(Geoffery Hinton)、杨立昆(Yann LeCun)、约书亚·本吉奥(Yoshua Bengio)等人,去设计日益复杂的模型,最终发展成我们今天熟知的深度学习神经网络算法,赋予了机器不可思议的能力。

    与此同时,第二个研究方向也逐渐兴起。认知科学家们深入研究人类自身的思维,揭示了我们感知环境能力的惊人深度和复杂性。他们的研究明确指出,我们的大脑与进化所处的环境密不可分。大脑并非仅仅是锁在颅骨中的机器,而是自生命之初,就渴望从每一缕光线、一丝触感、一声细语中学习的求知者。

    对我个人而言,作为一名在 21 世纪初崭露头角的科学家,感知算法几乎是我研究领域的唯一焦点。认知科学给我的启示是“规模”(Scale)的重要性。进化和发展受益于海量数据驱动学习,我们推测机器亦是如此。但这一次,机器不再使用生物传感器采集数据,而是来自现代数字设备和互联网。这启发了我的实验室开展 ImageNet 项目,这是首个互联网规模的人工智能训练和评估数据集。我们关于“数据是神经网络等高容量算法关键”的假设,以前所未有的方式焕发活力,并掀起全球范围内使用大数据进行人工智能研究的浪潮,这便是如今被称为人工智能缩放定律(Scaling Law)的开端。

    然而,最终,如果没有强大的算力来运行这些算法,所有这些成就都难以实现,甚至无法起步。这要从冯·诺依曼架构等里程碑式的发展说起。这种计算机架构范式最早在 20 世纪 40 年代提出,至今仍被沿用,并催生了20世纪70年代早期首批微处理器的诞生。

    但有趣的是,是视频游戏推动了硅芯片原始速度的极限。一个始于 20 世纪 90 年代初、旨在提升游戏画面的产业,在短短几十年内发展成全球性的强大产业,英伟达等巨头制造出日益强大的图形处理器(GPU)。这最终成为神经网络算法能够从互联网规模的大数据中学习的最后一块拼图。因此,如果有游戏玩家在场,我们必须感谢你们。

    当然,这不仅仅是历史回顾,更是构建未来的蓝图。2012 年,在 ImageNet 挑战赛上,我的实验室率先将算法、数据和算力这三个要素首次以足够大的规模结合,几乎在一夜之间改变了整个领域。机器首次能够理解并可靠地描述图像内容,数百万张图像。这在今天看来理所当然,但在当时,这是一个尚未解决的难题,一种近乎科幻的能力。这是里程碑式进展中倒下的第一块多米诺骨牌,而且随着时间推移,这些进展愈发迅猛。

    如今,十多年过去,我们仍在探索这一切的意义。最初只是学术上的好奇,如今却年复一年地受到商业领袖、企业家、行业分析师乃至政治家的高度关注,且这种关注似乎有增无减。我们正处于人工智能的第一个真正时代,一个历史学家未来必将如此称呼的时代,大约持续十年左右。无论以何种指标衡量——计算机科学学位、人工智能项目、投资金额、初创企业等等——人工智能都是一场规模和范围不断扩大的革命。

    无需赘言,在过去几年中,随着大语言模型的问世,人工智能迎来又一个惊人的转折点。这些模型将现代人工智能的三个要素扩展到更大规模:一种名为 Transformer 的新架构,在近乎整个互联网的数据上训练,并由惊人数量的顶尖芯片提供算力支持。正如大家所见,其结果是机器能力以前所未有的速度爆发。我们现在已习以为常地认为,人工智能能够用流利的自然语言与我们对话,回答几乎任何领域的问题,甚至生成复杂的图像、声音、音乐和视频。ChatGPT 的巨大成功,创下用户采纳率记录,充分证明了这项创新对日常生活的影响。

    这些能力并非仅停留在表面。如图所示,近年来,人工智能模型在从手写识别到博士级科学问题等一系列基准测试中,表现突飞猛进。在某些极具挑战性的任务中,其性能提升曲线几乎呈垂直上升。

    从流畅的语言能力出发,大语言模型现在在问题解决中扮演着更积极的角色,能够分解任务并规划实现现实世界目标的步骤。许多人将这种被称为“Agentic AI”的人工智能智能体,视为这项重大技术在 2025 年的最新篇章,它将为众多用户和企业带来变革。

    然而,未来还有更多值得期待。智能不仅限于语言智能。以人类为例,我们是作为一个整体而智能的生物。一个崭新的篇章正在开启,空间感知能力正扩展为更加积极主动的能力。在我所从事的相机和机器人领域,人工智能开始在有形或无形的 3D 空间中进行创造、理解、推理和互动。它可以用于与人或物交互,我们称之为空间智能和具身智能。

    如今,我们的视觉智能使我们能够轻松识别出图中的所有物体:猫、盆栽、桌子,当然还有那杯牛奶。但这真的是我们感知能力的全部吗?我敢肯定,仔细观察这张照片,肯定有不少人不仅理解了画面内容,还非常想伸出手去扶住那杯牛奶,以免它掉在地上摔碎。这只是一个微小的例子,却突显了从“观察”到“行动”之间存在着深刻的差异。它预示着我认为我们即将到达的转折点:人工智能将从观察者转变为与我们并肩行动的行动者。

    事实上,就我所敬佩的艾伦·图灵而言,我现在认为他对未来的愿景过于狭隘,略显内向。进化本身明确地告诉我们,智能的真正力量不仅在于思考,更在于运用思考驱动行动。想想人类的空间智能如何赋予我们力量,去建设我们的文明,从古代金字塔到工业革命,从科学发现到艺术表达。当人工智能扩展我们的空间智能和具身智能时,我们与周围世界的关系将发生怎样的进一步变化?它将帮助我们创造和发现什么?我们又将构建怎样的未来?

    同样令人兴奋的是,机器人技术,作为具身人工智能的一种形式,也在迅速发展。我在实验室的研究,是将机器人学习与大语言模型和视觉模型相结合的最新例证。与以往那些高度编程和精心设计的机器人相比,这些研究使机器人能够在更加开放、真实的场景中执行日常的人类任务。

    这些都是令人振奋的可能性。但是,如果人工智能真的不仅成为会思考的机器,更成为会行动的机器,那么我们引导这项技术的集体责任就变得更加迫切和重要。我认为,称这一切已将我们带到一个具有文明影响的时刻,绝不为过。那么,我们该如何应对?

    多年来,这个问题一直指引着我的工作。虽然我确信没有简单的答案,但有一个主题始终贯穿于我的所有研究:以人为中心的人工智能。它由三个简单的价值观构成:尊严、自主性和社群

    首先是尊严。面对日益强大的技术,我们人类常常面临一个问题:是什么定义了我们?抛开我们能够完成的所有任务,作为人类的自豪感,自主做出决定和采取行动的能力,仍然是我们存在的基石。如果这项技术能够帮助守护,甚至将这种尊严感带回给我们所有人,特别是最脆弱的群体,那将令我无比振奋。这是一个关于机器人技术和人工智能技术如何帮助赋予甚至瘫痪病人自主能力的例子。

    在斯坦福大学,我的合作者和学生们通过非侵入式脑电图(EEG)收集脑电波,纯粹通过人的意念来控制机械臂。我们的人工智能算法能够解码人的意念和指令,并引导机械臂制作出一份完整的日式寿喜烧。

    第二是自主性。我实验室研究工作的一个核心原则是探索人工智能的应用,以增强人类能力,而非取代人类。正如历史上每一次重大技术变革都重塑劳动力市场一样,人工智能的进步也必然会对就业岗位产生影响。但我认为,人工智能不应取代我们,而应助力我们提升能力,从创造力到医疗健康,从科学发现到工业制造。人工智能的诸多技能与人类技能互补,我们拥有大量机会,利用这种数字或物理的协作方式来增强自身能力。我实验室过去十年在人工智能医疗健康领域的探索,让我看到了诸多机遇,人工智能可以帮助提升护理质量,减轻医护人员负担。这里有三个例子,展示了如何利用人工智能算法驱动的智能摄像头,来帮助医院提高临床医生的手部卫生习惯,帮助记录患者的行动锻炼,以及辅助手术器械跟踪。

    最后但同样重要的是社群。过去十年,很多时候技术的故事都在将我们彼此分离:信息茧房、煽动性内容等等。人工智能正处在又一个岔路口。一条路通向人工智能使真实的社交体验黯然失色,个性化定制内容强化我们偏见的世界;另一条路则通向人工智能帮助我们建立更美好、更强大社群的世界。例如,教育辅助工具可以将学习机会带给更多人,包括孩子和成年人。

    这里有两个简单的例子:左边是使用人工智能和虚拟现实技术作为个性化学习工具,帮助患有阅读障碍的大学生取得更好学习效果;右边是由美国布法罗大学创建的人工智能专家系统,旨在弥补语言病理学家短缺问题,以便对 3 至 10 岁有言语和语言障碍的儿童进行早期干预。

    所有这些都引出了我想分享的最后一个想法。在这个具有文明意义的关键时刻,我们如何才能共同努力,以理性、务实和负责任的态度治理人工智能,从而守护其惊人的潜力?

    首先,至关重要的是,我们的治理要以科学为基础,而非科幻想象。从街头巷尾到华尔街,今天关于人工智能的大部分讨论,都被耸人听闻和夸大的言论所渲染,导致了具有误导性的人工智能治理政策。相反,我们需要运用更科学的方法来评估和衡量人工智能的能力与局限性,从而制定更精准、更可操作、更符合实际的政策。

    进而引出我的第二点,即在人工智能治理方面,要采取务实的态度,而非意识形态化的立场。人工智能有望成为一项强大技术,若能合理运用,它可以帮助我们生活得更美好,工作得更高效。因此,我们不应阻碍这项仍处于发展初期技术的探索与研究,而应更加关注其具体应用,确保其有益用途,并防范潜在的负面影响。

    最后,我们需要投入资源,构建更健康、更具活力的人工智能生态系统。在这个生态系统中,学术界、创业者、开源社区和公共部门都应积极参与,与大型企业共同发挥关键作用,推动技术进步。如果人工智能要改变世界,我们需要各行各业的人都参与塑造这一变革。

    在本文的前半部分,我提到了现代人工智能的三个关键要素:算法、数据和算力。如果这些资源过度集中在少数公司手中,人工智能生态系统将因缺乏好奇心驱动的研究、顶尖人才培养、开源协作和多学科探索而受到损害。

    75 年前,艾伦·图灵就已洞见未来,并深受启发,大胆挑战人类去创造会思考的机器。今天,我们已将图灵的挑战推进到他可能无法想象的程度。人工智能时代的科技进步令人叹为观止。我认为,现在是时候提出新的挑战了。与其仅仅自问“我们能否创造人工智能”,不如反思“我们能否将人工智能塑造成一种向善的力量”。

    简而言之,今天我想向所有人发出挑战:共同构建以人为中心的人工智能。

  • 马斯克的Grok3背后还藏着哪些华人AI大牛?

    马斯克的Grok3背后还藏着哪些华人AI大牛?

    北京时间2月18日中午,马斯克为xAI亲自现身站台的Grok-3发布会上,两位坐在“C位”的华人研究员引人注目。对“老马”来说,这场直播有些“复仇”OpenAI的意味——马斯克在直播中花式强调,“Grok-3研究18个月就追上甚至超越了OpenAI做了五六年的成果”。

    “Jimmy Ba,Leading research(首席研究员)”“Tony,working on the reason team”——两幅华人面孔的自我介绍堪称轻描淡写。

    《职场Bonus》据公开资料检索到,马斯克一旁的“Tony”(下图右2),是xAI的联合创始人之一 Yuhuai Wu (吴宇怀)。2021年多伦多大学博士毕业后,吴宇怀在斯坦福大学进行博士后研究。他曾是Google AI的研究员,个人的研究兴趣是“building machines that can reason”(制造会推理的机器) [1] 。

    ● Grok-3发布会

     

    ● xAI团队里的已知华人大牛

    值得一提的是,吴宇怀博士期间曾先后在OpenAI实习过4个月,谷歌DeepMind实习过11个月。而他现在没有留在任何一家公司,自己选择了创业,追寻自己向往的AGI。

    ● 吴宇怀的X主页,xAI联合创始人,关注推理

    而图左边第二座那位更是领域的带头人。 Jimmy Ba 是“深度学习三巨头之一”。他硕博都就读于多伦多大学,是AI“教父”、诺贝尔物理学奖获得者Geoffrey Hinton的学生。不仅如此,他也是多伦多大学计算机科学系助理教授,相当于也是吴宇怀的老师。更有趣的是,Jimmy Ba也曾在谷歌DeepMind实习。

    同时,他们两位也都是xAI团队的创始成员。

    ● Jimmy Ba的X主页,xAI研究负责人,从事软件与研究

    据麦克罗波洛智库的报告 [2] ,在美国顶尖人工智能人才中,来自中国的研究人员占38%,美国占37%。中国在人工智能领域的人才培养上已超过美国,成为全球最大的AI研究者输出国。

    在xAI团队中更是体现了这一点:

    · 创始团队12人中有5位华人,占比超40%;

    · 图像团队4人中有2位华人;

    · 核心研究团队持续有优秀华人加入。

    2023年7月,马斯克高调官宣xAI创始团队12人,其中有五位都是华人,占比超40%。除了吴宇怀和Jimmy Ba之外,还有Greg Yang(xAI数学家)、Guodong Zhang、Zihang Dai。另外还有一位负责AI硬件和半导体研究的华人高管,Xiao Sun。

    ● xAI创始团队

    从他们的教育背景来看,既有清华、北大、浙大国内顶尖高校的毕业生,也有哈佛、耶鲁、多伦多等世界名校的深造经历。几位科学家也都在各自的领域颇有建树。

    Greg Yang (杨格)是一位对数学有着超高热情的数学家。他是湖南人,初中就开始去美国学习,本硕毕业于哈佛大学数学系,2018年还曾获得本科生数学领域最高荣誉Morgan Prize。毕业后经推荐进入微软雷蒙德研究院,担任研究员。此前也参与过微软与OpenAI在大模型上的合作。现在正专注开发一个用于了解大型神经网络的框架,“Tensor Programs”(张量编程)。

    ● Greg Yang

    Guodong Zhang (张国栋)本科毕业于浙江大学信息工程专业,博士毕业于多伦多大学,师从Roger Grosse,专注于培训、调整和对齐大语言模型。曾获得2022年苹果博士奖学金、2015年全国大学生数学建模竞赛一等奖(1.5%)等。

    ● 张国栋,xAI创始成员

    Zihang Dai (戴子航)本科毕业于清华大学,硕博毕业于卡耐基梅隆大学。曾在网易实习一年,而后在2013年入职百度,担任百度深度学习研究所的工程师。读研期间,也曾在美国的百度实习。读博期间在谷歌实习,专注语言处理。博士毕业后在Google Brain就职研究员4年,来到xAI。

    ● 戴子航,xAI创始成员

    Xiao Sun,前IBM T.J. Watson Research Center(托马斯·J·沃森研究中心)研究员、Meta研究科学家。Xiao Sun是耶鲁大学博士,师从T. P. MA Group教授,本科就读于北京大学。毕业后他在IBM度过了六年多的职业时光,专注于机器学习硬件与算法的研究。2023年9月加入xAI。

    ● Xiao Sun,xAI高管,关注AI硬件和半导体研究

    不仅创始团队中华人占多数,据《新智元》消息, Grok 发布的文生图模型 Aurora,采用当下最为前沿的 MoE 架构。其团队在短短 6 个月的时间里,便实现了从0到1的搭建。而团队仅有4人,其中就有两位华人:Haotian Liu和Lianmin Zheng(郑怜悯)。

    其中, Haotian Liu 本科毕业于浙江大学,2024年5月博士毕业于威斯康星大学麦迪逊分校,师从Yong Jae Lee。Haotian Liu对计算机视觉和机器学习感兴趣,参与开发Llava,Grok-1.5V和Grok-2,最近的重点是构建可进行的大型模型。

    ● Haotian Liu,文生图团队成员

    郑怜悯 本科毕业于上海交通大学ACM班,2024年博士毕业于加州大学伯克利分校,导师是Ion Stoica和Joseph E. Gonzalez。郑怜悯的研究兴趣包括机器学习系统,大型语言模型,编译器和分布式系统。

    ● 郑怜悯,文生图团队成员

    除此之外,xAI中还有很多华人研究员,如:

    曾在微软、推特、脸书、字节等任职过,硕士毕业于上海交通大学的 Xiaobin Wu ,有着多年 Backend Engineering/Engineering Manager/Engineering Director(后端工程/工程经理/工程总监)开发和管理经验。

    ● Xiaobin Wu,xAI技术人员

    毕业于清华大学,曾在谷歌任职近8年的 Yunlong Liu 。 2017年于约翰霍普斯金大学博士毕业,攻读计算机生物物理学。在谷歌时主要负责Core ML complier(核心机器学习编译)/Runtine (OpenXLA/PjRt) Large-scale ML systerm(运行大规模机器学习系统)。现在在xAI负责大规模AI Infra和LLM Pretraining。

    ● Yunlong Liu

    毕业于台湾大学,曾在Linkedin任职近3年的 Pin-Lun (Byron) Hsu 。Byron目前在xAI负责full stack of ML system(ML系统全栈)工作。曾经领导过领英增长最快的开源项目“Liger-Kernel”项目的Kernel optimization(核心优化),并负责过领英SGLang项目的Inference Optimization(推理优化)。

    ● Pin-Lun (Byron) Hsu

    马斯克的xAI团队晚成快赶,18个月追逐OpenAI。在AI这个快速发展的领域,人才的流动与聚集将持续改变着行业格局。

    这种”后发制人”的赶超,很大程度上得益于团队的人才结构。一方面,经验丰富的决策者必不可少。正如xAI从谷歌、微软等头部公司吸纳了很多经验丰富的顶尖科学家,来带头领路。

    另一方面,xAI也吸引了像郑怜悯、Haotian Liu这样充满创造力的毕业生。正如最近爆火的DeepSeek创始人梁文峰在采访中所说,他们的团队中有相当一部分是刚毕业的学生。这些”新生力量”虽然工作经验有限,但往往能带来意想不到的创新突破。

    在这场人才迁徙中,顶尖科学家们追求的已不仅是优厚的薪酬待遇,更看重”共同的愿景”。能在热爱的领域充分施展才华,往往是企业对人才最具吸引力的因素。

    也折射出人才迁徙的一个深层规律:年轻的人重在找到热爱,而有经验沉淀的人重在忠于热爱。