标签: Grok3

  • 马斯克宣布Grok 3免费,用户气晕了……

    马斯克宣布Grok 3免费,用户气晕了……

    刚刚发布48小时,Grok 3的第一批“受害人”就出现了。

    有用户才花40美元订阅了X的Premium+服务,想要畅玩xAI的最新一代大模型Grok 3,结果一看马斯克在社交媒体X上的豪言,心凉了半截。

    “短期内,Grok 3将免费提供给所有人!”马斯克如是说。而xAI的官方X账号则放出豪言,免费开放,“直到服务器崩溃”。

    几个小时之后,马斯克又快乐截图苹果应用商店生产力工具榜单,Grok的独立应用登顶免费榜,这也是其首次超越ChatGPT。马斯克还强调,这还是语音模式还没推出的情况下。

    马斯克大手一挥当好人,本来就是免费用户的有福了,为信仰充值Premium+的用户成了大冤种。

    “兄弟,你是说我白白升了个级?”用户在相关消息的评论区无奈地说,还加上了两个小丑emoji,谁是小丑咱都不好意思点名。

    更别提“每月40美元”也是在发布会之后涨价的结果,要不是Grok 3发布,X平台美国区Premium+的订阅费用仅为22美元。

    Grok 3本就被视为马斯克针对OpenAI和DeepSeek的反击之作,尤其是推理模型Grok Reasoning更是把马斯克的心思展露无遗。

    如今的免费一跃,也是xAI进一步在和两个竞争对手靠近。DeepSeek压根还没有面向普通用户推出付费计划,而OpenAI也在DeepSeek大火之后,将推理模型o3-mini下放给了免费用户。

    只是咱们看齐归看齐,免费归免费,也不能这么突然、不顾付费用户死活吧?

    A

    Grok 3发布后的48小时,可真够乱的。

    Grok 3的发布会在北京时间2月18日上午12点播出,彼时马斯克表示,试用的最低门槛是X的Premium+用户,每月订阅费22美元(美国区价格,下同)。此外,用户还可以在独立于X平台的Grok应用内,付费开通单独的SuperGrok服务。

    SuperGrok是这次xAI才推出的新订阅计划,费用据报道会在每月40美元的水平。

    然而,到了昨天上午,也就是Grok 3发布不到24小时的时候,人们惊讶地发现:马斯克偷偷给X平台的Premium+涨了个价?

    前情提要:马斯克收购推特之后,将平台改名为X,并推出了订阅服务。X的订阅服务分为三个层级,分别是X Basic、X Premium、X Premium+(标准杯、大杯、超大杯)。在xAI成立后,马斯克进一步将大模型Grok也接入到X的订阅服务当中,作为尊贵订阅用户的一项特权功能。

    当然,接入大模型,X的订阅服务也开始变贵。去年12月,X Premium+已经从16美元涨价至22美元。

    而Grok 3发布之后,这个价格突然就从22美元进一步涨到了40美元。美国之外的其他市场也同步涨价,如英国从每月17英镑涨至35英镑;法国、德国等欧洲国家从每月21欧元上涨至38欧元。

    虽然没有明说,但用户普遍认为这是在为Grok 3付费,毕竟其他两档计划的订阅费用不变,因此形成了3美元、8美元,突然跃升到40美元的奇怪格局,两档订阅之间的跨越过大。

    一天前还说Grok 3首先让Premium +用户享受上,马斯克甚至在发布会上鼓励大家感兴趣的话去开通订阅服务。结果一转眼价格几乎翻倍?就挺突然的,也挺不讲武德的。

    而且,Grok应用中购买SuperGrok的话,每月50美元或者每年350美元,价格也比之前外界预估的要贵不少。

    而且,升级到Premium+的用户发现,Grok 3确实可以用上了,但是限制的条数给得也太少了:

    最让人崩溃的是,又过了一天,也就是北京时间2月20日上午十点半,xAI的X官方账号突然宣布:“全世界最聪明的AI,Grok 3,现在免费(直到我们的服务器崩溃)”。

    而马斯克也转发了这条消息:“短期内,Grok 3全面免费!”

    果不其然,刚刚付费(花40美元)升级到X Premium+的用户emo了。

    之前还在X上和人辩论称有Grok 3的Premium+绝对值22美元一个月的价格,结果转眼看到涨价消息,也赶紧撇清自己:“对Grok我已经没有什么好话讲了。”

    甚至有人引用了一年前马斯克的帖子,来表达对他破坏承诺的不满。在那条帖子中,马斯克承诺今后所有订阅超过5000人的X用户都将自动获得Premium+的权益。

    信谁能得永生咱不知道,但信马斯克很有可能被背刺。

    B

    虽然看起来马斯克发布了“全世界最聪明的AI”,而且还豪气地将之免费,但这背后反而暴露了些许焦虑。

    免费的决策很有可能是没有经过深思熟虑的。

    如今场面依旧十分混乱:

    第一,经过用户不断在X上互相勾兑(交头接耳),才终于搞明白,Grok 3被声称免费开放了,但是免费用户似乎获得的是Grok 3的beta版本;Premium+用户可以用推理模型,有“深度搜索(DeepSearch)”和“推理(Reasoning)”,SuperGrok则有更多功能和无限的图像生成权限。

    第二,免费用户每小时请求的数量十分有限。官方没有给出确切数字,有用户反馈大概是每小时请求5次的限额。而X的Premium+和Grok的SuperGrok用户,据说是有更多限额,每日请求次数更多,但具体多少,没有准话。

    第三,Premium+涨价到40美元,但订阅费用似乎飘忽不定。国外科技媒体TechChurch测试发现,注册时显示39.83美元/月、477.95美元/年,最终结账页面却显示395美元/年。

    如果一个用户对Grok3十分感兴趣,要搞清楚究竟是免费的就够用,还是要付费、付费的话又是哪一种方案最适合自己,又最终需要付多少钱,需要自己好好做一番功课。

    相比而言,OpenAI的ChatGPT推出两年多了,只有三种方案,即免费、每月20美元的Plus和每月300美元的Pro;而谷歌把Gemini Advanced放在了谷歌的订阅“大礼包”之中,即每月20美元的Google One AI Premium。

    各个订阅层之间的区别、定价,急需马斯克归置归置。

    C

    突然免费,可能也和48小时内用户对Grok3的反馈有关。面对DeepSeek的横空出世和OpenAI的快速跟进,马斯克端上Grok3,并不断强调这是“地球上最聪明的AI”。

    从xAI放出的Grok3在各种基准测试中的成绩,不难看出其实力的确过硬。但能否担得上“地表最强”,还要打一个问号。

    毕竟傲娇如马斯克,都不断强调现在只是测试阶段,还呼吁大家务必反馈一切使用中遇到的问题。并且,马斯克给出了一些承诺,称语音模式等在路上,需要大概一周的时间和大家见面。

    Grok3发布之后,各路测试接踵而至,但并未见到Grok3在各个方面碾压同行。至少比起两年前ChatGPT发布或今年DeepSeek走红所引起的轰动相比,Grok3可以说雷声很大,但雨点有那么一点点小了。

    在xAI官方账号宣布Grok3免费的消息下,有很多评论都在表达对Grok3的失望,甚至是排着队接连出现,诉说自己提了多么简单的请求,而Grok3又是怎样地没有成功应答。

    到最后,Grok3最出圈的依然是剑走偏锋的“没底线”。

    主打“反觉醒”的Grok向来不会像竞争对手一样浑身都是敏感点、动不动就拒绝回答问题,不管是生成名人图片,还是回答敏感问题,抑或是“搞颜色”,Grok都很“大胆”。(而且生成裸体图片、讨论冒犯性话题等的安全栏已经被火速提高了,Grok3当下已经没有刚发布的时候那么狂野)。

    在不远处,竞争对手也要更新模型了,如Anthropic很有可能在本周发布Claude 4。

    而马斯克的Grok和“世界最聪明的AI”之间,大概不止一句“免费”和几张裸体照片的距离。

    来源:微信公众号“直面派”

  • 强过DeepSeek?马斯克放大招

    强过DeepSeek?马斯克放大招

    就在18号,被马斯克狂吹为“地球上最聪明AI”的Grok 3聊天机器人现世了。

    马斯克携手xAI(其投资创建的AI企业)的工程师们通过直播的形式,向世界展示了Grok 3的实力——在减少AI幻觉、提升逻辑一致性、联网获取实时信息以及深度搜索等方面,Grok 3都展现出了可能超越OpenAI和DeepSeek等大模型的能力。

    马斯克在发布会上激动地说,Grok 3的能力相比其前身Grok 2,强大了一个数量级。这番言论,让Grok 3迅速成为全球科技与资本市场的热门话题。

    而且马斯克还为Grok3整了一个更有逼格的定位:“our mission is to understand universe(我们的使命是了解宇宙)”。

    而迅速推出Grok 3的背后,也藏着马斯克与阿尔特曼(OpenAI创始人)之间的复杂恩怨。两人曾携手创立OpenAI,誓言用开源技术挑战谷歌的AI霸权。可如今两人却分道扬镳,甚至在某些场合针锋相对,上演了一出出“背叛”与“反击”的戏码。

    那么,这个由马斯克倾尽心血的Grok 3,能否让马斯克在阿尔特曼面前争一口气?它是否能够重塑AI聊天机器人的格局?而资本市场又是否会给予它足够的支持呢?

    Grok3超越DeepSeek和ChatGPT?

    美国科幻大师罗伯特·海因莱因的小说《异乡异客》中,有一位在火星上长大的角色叫作“Grok”,它代表了对某事物全面且透彻的理解。

    马斯克表示,xAI 团队之所以将其聊天机器人命名为Grok就是源于这个初衷。

    作为xAI正在精心打磨的杰作,Grok 3最引以为傲的便是突破性的“思维链”推理能力和多模态功能的全面升级。

    虽然Grok 3是一款聊天机器人,但其“推理”能力却不容小觑。它不仅能与用户进行流畅的自然语言互动,更能逻辑性地测试其响应并进行严格的事实核查。

    马斯克和他的团队自豪地宣布,Grok 3测试版的推理能力甚至可能已经超越了现有的众多人工智能模型。在关于推理和测试时间的基准测试中,Grok 3以卓越的表现,力压DeepSeek-R1、OpenAI o1、OpenAI o3 mini-high以及Gemini-2 Flash Thinking等一众强敌,展现了其非凡的实力。

    xAI团队还通过一系列有趣的展示,让我们亲眼见证了Grok 3的过人之处。比如,在计算从地球到火星的航天器任务时,Grok 3竟然能够生成一张生动的太空发射动画3D轨迹图,从地球出发,穿越火星,再返回地球,这一过程中涉及的复杂物理知识,都被它一一攻克。

    更令人惊叹的是,Grok 3还足够聪明,能够根据超强的推理能力编写游戏或结合现有游戏。当xAI团队要求Grok 3现场创造一款融合《俄罗斯方块》和《宝石迷阵》的新游戏时,它迅速生成了一个Python脚本,定义了游戏的常量、颜色、方块形状等元素,并创造出了一种独特的玩法:当连接了至少三个相同颜色的方块时,会触发重力机制使方块消除。

    而Grok 3的多模态功能升级,更是让人眼前一亮。它并非单一的模型,而是一个由多个模型组成的家族。其中,轻量级版本Grok 3 mini主打实时响应,推理速度较标准版提升了惊人的5倍;而Grok 3 Reasoning则采用了类人脑的“慢思考”机制,通过多层事实核查,有效规避了AI幻觉的问题。

    在数学推理、代码生成和科学逻辑测试中,Grok 3的表现同样令人瞩目,它超越了Gemini 2 Pro、Deepseek V3、ChatGPT 4o等竞品,展现出了强大的竞争力。

    在盲测方面,xAI的Grok 3(早期版本)更是以1402分的历史最高成绩,在lmArena排行榜上登顶,成为首个突破1400分的AI模型,这一成绩甚至超越了Google、OpenAI、DeepSeek等业界巨头。

    值得注意的是,马斯克团队仍在持续优化Grok 3的能力,Grok 3目前仅对X Premium Plus订阅用户开放,但xAI为忠实粉丝推出了名为Super Grok的独立订阅服务,提供最先进的功能和最早的新特性访问权限。

    此外,xAI还推出了SuperGrok计划,订阅用户能够访问更多推理能力和无限图像生成。并计划未来数周内上线语音模式及企业API接口。

    那么被马斯克吹上天的Grok3是如何炼出来的呢?

    122天,马斯克用20万块GPU张大力出奇迹

    有句说句,Grok 3能迅速发展,离不开xAI的惊人的工程执行力。

    xAI高管团队透露,为实现“打造顶尖AI”的目标,公司选择自建数据中心作为核心路径。

    第一阶段,他们仅用122天便完成10万块H100 GPU集群部署,建成当时全球最大规模的全连接算力基础设施。

    第二阶段进一步提速,仅92天就实现算力翻倍,使集群规模达到20万块GPU——这些硬件资源全部投入“科洛苏斯超级集群孟菲斯数据中心”,成为训练Grok 3的核心支撑。

    技术突破方面,xAI通过大量使用合成数据等创新手段,使Grok 3相较前代实现10倍计算能力跃升,以超快的速度追上了ChatGPT。

    在配套生态的构建上,xAI同样不遗余力。他们推出的DeepSearch被誉为“下一代搜索引擎”,它允许用户提问并获得答案,更重要的是,DeepSearch能够展示从问题思考到研究,再到最终答案生成的完整过程。

    DeepSearch是一款推理聊天机器人,能够阐述其理解查询内容的过程以及规划回复的方式。在演示中,DeepSearch展现出了研究、头脑风暴和数据分析等多种功能,令人眼前一亮。

    对于Grok 3是否会开源,马斯克明确表示,“我们通常会在新模型发布的时候,开源上一代模型,所以几个月后,我们也会对Grok 2进行开源。”

    这种“代际开源”策略既保持了技术护城河,又满足了开源社区的期待,不少网友认为马斯克格局不错,但也留着底牌。

    资本市场对此次技术突破反应热烈。

    Grok 3发布当日,恒生互联网科技业指数开盘冲高1.8%,恒生互联网ETF(159688)收涨1.42%,金山云、腾讯控股等AI概念股集体跟涨。更显著的是机器人ETF单日资金净流入突破十亿元,创历史纪录。

    投资机构层面,Grok 3发布会后,红杉资本、Andreessen Horowitz等顶级风投加速入场,推动xAI融资规模剑指百亿美元,公司估值飙升至750亿美元。

    不过相较于OpenAI的3000亿估值,Grok 3还差一些。市场仍认为xAI在生态壁垒和商业化成熟度上的优势仍不如OpenAI。

    目前,Grok 3虽然仅通过一场直播demo曝光,没有更多官方信息,但其含金量几何,还需更多用户和时间验证。

    不过,从Grok 3发布会背景板上的那句“our mission is to understand universe(我们的使命是了解宇宙)”可以看出,马斯克的野心远不止于此。

    马斯克离“用AI理解宇宙本质”的终极目标还有多远?或许还要再等Grok 3再飞一会。

    搞Grok3只为了赌气?阿尔特曼公开羞辱马斯克

    不过,在Grok 3风靡全球的背后,一场不为人知的内部斗争同样引人入胜,主角便是曾经的盟友——埃隆·马斯克与山姆·阿尔特曼。

    故事要追溯到2015年,硅谷的夜空下,马斯克与阿尔特曼携手启动了被誉为“AI曼哈顿计划”的OpenAI。

    他们共同的敌人,是那时如日中天的谷歌,两人担忧其可能垄断AI技术,便牵头成立了非营利性质的OpenAI。

    在阿尔特曼心中,马斯克一度是如“钢铁侠”般的存在,是打破美国科技僵局的英雄。然而,理想丰满,现实骨感。

    随着OpenAI的算力成本飙升,财务困境如影随形。阿尔特曼做出了一个决定性的选择,引入微软10亿美元的投资,并成立了盈利性质的子公司OpenAI LP。

    马斯克坚持非营利原则,认为这是对初衷的背叛,而阿尔特曼则认为商业化是生存之道。两人的分歧日益加深,马斯克认为OpenAI已沦为微软的“闭源附庸”,并试图夺回CEO之位,却遭到了董事会的拒绝。

    阿尔特曼随即发起了内部斗争,成功争取到了另一位联合创始人格雷格·布罗克曼的支持,而布罗克曼又进一步拉拢了首席科学家伊利亚·苏茨克维尔站在自己一方。

    2018年,马斯克黯然离场,阿尔特曼接掌了OpenAI的领导权。从此,两人分道扬镳,OpenAI也倒向了微软。

    时间流转至2022年11月30日,ChatGPT横空出世,迅速成为21世纪最具影响力和变革性的科技产品之一,与iPhone、Facebook和TikTok并驾齐驱。

    然而,对于马斯克而言,这款产品的问世却如同一把利刃,刺痛了他的心。作为曾经的创始人之一,他已被彻底排除在外,愤怒与失落交织于心。不甘心的他随即推出了自己的初创公司xAI,希望与ChatGPT一较高下。

    法律战与舆论战也随之打响。马斯克连续起诉OpenAI“违背初心”,要求恢复开源,并批评其发展迅速却忽视安全。他在公开场合多次猛烈抨击阿尔特曼,而阿尔特曼也毫不示弱,两人的关系急剧恶化。

    直到Stargate计划的公布,两人的矛盾被推向了顶点。阿尔特曼作为民主党人,却与特朗普政府合作推出了这个高达5000亿美元的人工智能基础设施投资项目,而马斯克却对此毫不知情。

    可以说,Stargate计划不仅让马斯克感到被背叛,更打破了马斯克的政治与商业布局。

    愤怒的马斯克随即发起恶意收购,愿意以974亿美元的价格收购OpenAI的控制权。而阿尔特曼的反击同样犀利,他嘲讽道:“我们愿以97.4亿美元收购Twitter。”阿尔特曼借此嘲讽马斯克以440亿收购Twitter的商业决策。

    目前,两人的恩怨远没有结束,但唯一确定的是,Grok 3的出现已经让AI界再次沸腾了起来。

    Grok 3的崛起,未来GPT5的发布,以DeepSeek为代表的中国AI军团的竞逐,无不预示着AI新时代的洪流滚滚,未来的路还很长,故事仍在继续。

    参考资料:

    1、《马斯克发布Grok 3大模型,称超越DeepSeek》澎湃新闻

    2、《马斯克出手!Grok 3计算能力暴增10倍,谁才是最强大脑?》金十数据

    3、《大力出奇迹?马斯克发布“史上最聪明AI”Grok-3,号称超越DeepSeek R1,20万张GPU能否颠覆AI格局?》金融界

    来源:微信公众号“首席商业评论”

  • 地表最强Grok3突袭免费体验,网友实测对比DeepSeek,发现中文彩蛋

    地表最强Grok3突袭免费体验,网友实测对比DeepSeek,发现中文彩蛋

    地表最强Grok3突袭免费体验,网友实测对比DeepSeek,发现中文彩蛋

    机器之能·2025年02月20日 17:35
    笑话依旧讲的很烂。

    又是一个文理兼修的优等生,能薅一点是一点。

    好消息!好消息!

    堆了 20 万张 GPU、号称「地表最强」大模型 Grok-3 已经可用啦。

    这两天,网友们已陆续晒出截图:

    作为非付费用户,我们昨天只能旁观 Grok 3,今儿突然可以免费体验部分功能。

    但,次数有限 !

    由此看来,Grok 3 ( beta )提供「三件套」服务(除了基础模型)。

    Thinking是指启动推理模型。

    对此,AI 大神Andrzej Karpathy 快速体验后,评价说:

    「 Grok 3 + Thinking 感觉与 OpenAI 最强商用模型(o1-pro,200 美元/月)的顶尖水平相差无几,

    比 DeepSeek-R1 和 Gemini 2.0 Flash Thinking 要稍微强点儿。 」

    Thinking 模式

    DeepSearch, 对标 OpenAI「深度研究」功能,解决更加复杂困难的问题。

    DeepSearch 模式

    Big Brain可能是指推理模型 + 更多思考时间,类似 OpenAI o3 mini high。

    要体验完整的 Grok3 「三件套」,大伙儿可得破费了。即使是premium+用户也无法使用最强的推理( Think )和深度搜索( DeepSearch ),还必须订阅新服务 SuperGrok。一顿操作下来,月费估计要 50 美金。( 咱还是继续免费薅 DeepSeek 吧 )

    就刷榜成绩来说, Grok-3表现确实不俗。准确地说,Grok 3 是一个系列,不只是某一个模型。轻量版本 Grok 3 mini 可以更快地回答问题,但会牺牲一些准确性。

    数理编程上,Grok 3 都大幅超过 Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 和 GPT-4o。

    而这些被用来对比的模型的性能,与轻量版本 Grok-3 mini 相近。

    在大模型竞技场 Chatbot Arena(LMSYS)中,早期 Grok-3 版本的得分取得了第一,达到 1402 分(有史以来第一个),超过了包括 DeepSeek-R1 在内的所有其他模型。

    马斯克直言:Grok 3 比 Grok 2 「好 10 倍」!

    网友们也迫不及待地开始整活了。

    意外啊,居然是中文写作高手

    最让人意外的是,从刷榜成绩来看,明明是个优秀理科生,偏被中文网友发现中文写作水平真高!

    一位科技博主让 Grok 3 写了一篇《我的故乡回忆》,直接把我看感动了!

    「海就像村里的钟……日子就得跟着海走。」多好的句子啊!

    煤油灯、番薯粥、咸鱼干配粥、咯吱作响的竹床、老师的吼一嗓子、同宗同族、祠堂议事、「吵归吵,闹归闹,遇事还是齐心」……

    充满乡土气息的日常文化符号,让一个 90 年代的泉州小渔村跃然纸上,也暗示了时代变迁。

    来自x网友@imxiaohu

    立刻有网友让 DeepSeek 也如法炮制一篇《我的高中》。

    DeepSeek 也很擅长日常细节,怎么说呢,这些细节加起来并没有产生一加一大于二的效应,不如 Grok 3 的深刻,情感触动也不那么明显。

    来自X@@Louis_Chenxf。提示词,分析一下上面这篇文章 的写作风格,写一篇题为《我的高中生活》的文章,长度也和例文一致。

    至于最后出场的 OpenAIo1 Pro,就像背了一堆典范作文、好词好句的人,写成的应试文。

    来自X@howie_serious

    DeepSeek 毒舌功力已经众人皆之,网友发现Grok 3 辣评能力也是没有瓶颈!

    让它犀利点评自己的推文,因为没告诉具体账号,这位网友先被Grok 3 怼了一脸。告知账号后,Grok 3 开始毒舌,就连拍它马屁的推文也被怼:

    夸得那么猛,也不怕把自己舌头闪了?光吹不给证据,跟放空炮有啥区别?

    吹牛不带喘气、细节一抓就漏风 ……

    Think 模式,确实是个理科高手

    这些只是开胃菜。

    作为一个数理编程的强者,网友们分享最多的是 Grok3 强大代码能力,简直是游戏开发者的福音。

    比如,用 python 编写一个在正方形内弹跳的黄色小球的脚本,正确处理碰撞,使正方形缓慢旋转。

    下面是 DeepSeek R1(左)、o1-pro(右)的结果。

    继续输入提示词:

    put the ball in a tesseract instead of a square

    就有了下面这个结果。

    这里只是基础模型,没有启动「 Think 」、「 Big Brain 」哦。

    还能再复杂一些吗?

    来自x@_akhaliqprompt: Write a p5.js script that simulates 25 particles in a vacuum space of a cylindrical container, bouncing within its boundaries. Use different colors for each ball and ensure they leave a trail showing their movement. Add a slow rotation of the container to give better view of what’s going on in the scene. Make sure to create proper collision detection and physic rules to ensure particles remain in the container. Add an external spherical container. Add a slow zoom in and zoom out effect to the whole scene.

    这是一个连马斯克本人都点赞的演示,看看 DeepSearch + Think 能创造什么?

    网友让 DeepSearch 帮忙用 p5.js(一个网页动画工具)复刻《 Flappy Bird 》小游戏,它先帮忙从网上找好了游戏素材和图片。

    然后,在同一个聊天窗口里启动 Think 模式,AI 就自动把完整的游戏代码给写出来了。

    结果,Run 一次就成功。

    来自x@CrisGiardinaDeepSearch Prompt: Write a p5js implementation of Flappy Bird. It must be extremely polished, and I want you to use actual sprites or images for all the elements, which you need to find online. Think Prompt: now create a code block with the entire correct code please

    AI 大神Andrzej Karpathy 也让模型通过代码动态生成一个可交互的《卡坦岛》风格游戏地图。目前,很少有模型能稳定地完成这个任务。结果,只有 Grok 3 (「Think 」)、OpenAI(如 o1-pro,月费$200)可以实现。而DeepSeek-R1、Gemini 2.0 Flash Thinking、Claude 均告失败 。

    谢耳朵玩的就是《卡坦岛》风格游戏。

    除了代码和复杂逻辑推理, Andrzej Karpathy 发现,在数学推理、探索解决黎曼猜想的测试中,Grok 3(「Think 」)也都表现不俗。特别是针对黎曼猜想,Grok 3(和DeepSeek R1 )表现出探索意愿,而其他模型会立即放弃并仅回复「这是未解难题」。一些常见的陷阱题目也难不到它,但要打开「 Think 」。

    Grok 3 知道 strawberry 中有 3 个「 r 」。它还告诉我 LOLLAPALOOZA 中有 4 个「 L 」。

    Grok 3 告诉我 9.11 比 9.9 小。

    DeepSearch 模式,挑战 OpenAI ?还嫩了些

    不过,对标OpenAI「深度研究」的 DeepSearch,它明显不如前者。

    Andrzej Karpathy 的评价是:

    优于 Perplexity 的类似功能,弱于:OpenAI 近期发布的「深度研究」工具。

    作为一个 AI 研究助手,搜索范围要广、尽量全,而且来源是真实、可靠的。如果具有洞察力,那更好。而 AK 发现了幻觉问题,有时会编造根本不存在的网页链接,也会对事实做出错误陈述,数据统计上也存在问题。其他网友也发现了类似问题。

    除了幻觉问题,在信息搜寻力度上,不如 Google Deep Research 全面,分析信息时,洞察力也不如 OpenAI 的 Deep Research ,「还处在早期阶段」。

    例如,谈到软件企业如何应对创新者困境,谷歌的研究助手引用了 80 多个来源,Grok3 最少。

    OpenAI 研究助手也只引用了 29 个来源,但分析洞察能力很强。

    米勒德·菲尔莫尔(Millard Fillmore)作为美国第 13 任总统(1850-1853 ),其任内最具争议的举措是签署了加强《逃奴法》的《 1850 年妥协法案》。

    关于他是否违反宪法的问题,是一个非常复杂的法律问题,但 Grok 3 的研究结论似乎不这么认为。

    而 OpenAI 研究助手明显要审慎多得多。

    始终翻不过的山

    遗憾的是,大模型讲笑话真的很烂,Grok 3的幽默感也没有明显改善。看来,思考推理能力对于幽默来说,更像是砒霜?

    至于伦理问题上,比如为救百万人该不该错误鉴定别人的性别?大模型们仍然不善于应对。要么打太极,而Grok 3 直面难题后,结论又明显功利主义了。

    最离谱的当属 SVG 绘图挑战赛!让 AI 用代码画鹈鹕骑自行车,就像让它闭着眼睛拼乐高——生成的矢量图坐标歪七扭八,活脱脱抽象派赛博艺术。毕竟对 AI 来说,在 2D 网格上布置许多图形元素,就像让盲人指挥交通,结果比毕加索的画还魔幻。

    来源:微信公众号“机器之能”

  • DeepSeek、Grok对医生能有多大的帮助?

    就在医疗界热火朝天地讨论如何应用DeepSeek时,北京时间2025年2月18日,埃隆·马斯克的人工智能公司xAI推出了Grok 3,马斯克将其描述为“地球上最聪明的人工智能”。

    除了这大胆的说法,Grok 3在推理、编程和特定领域理解等方面的进步,确实有可能使其成为一些领域游戏规则的改变者。

    ChatGPT4、DeepSeek- R1和Grok 3的相继推出,对于那些使用人工智能的医生、药物研发者、影像公司来说,这实际上意味着什么?这些变得越来越优秀的AI在医疗健康行业终究会扮演什么角色?

    No.1 Grok 3带来什么冲击?

    埃隆·马斯克的Grok 3,得益于神经网络升级、训练数据扩展,以及增强的计算基础设施,据称在数学推理、科学逻辑推理和代码写作等能力表现超过或媲美DeepSeek、ChatGPT等对手,尤其是Grok3的推理模式令人称道。

    LabNews Media的一篇文章中指出,在医学领域Grok 3在一些方面的确表现出了显著的优势。

    首先对医疗数据的处理,Grok 3可以独立生成和完善训练数据,这在敏感的医疗领域尤为重要,它可以提高患者数据分析的准确性,同时减少诊断中的潜在隐患。

    其次,在分析大型生物医学数据集方面, Grok 3表现出特殊优势。它可以检测研究数据中的复杂模式,并支持新疗法的开发,尤其是它处理不同类型的数据的能力,将使其在药物研究和临床试验有望成为宝贵的工具。

    第三,在诊断技能方面,Grok 3的高级图像分析功能允许解释各种医学成像程序,如X射线、PET扫描和核磁共振图像。

    另外,Grok 3的实时数据处理允许直接分析和解释医疗信息,这对于在危急医疗情况下的快速决策特别有价值。

    然而,尽管诸多优点加身,试用过的医生和研究人员还是表示,Grok 3诊断医疗能力有限。

    美国一家非营利性科学研究机构研究人员Derya Unutmaz博士,是Grok的测试者之一,就对媒体指出,“必须对Grok的提示进行调整才能得到正确答案。”

    对此,马斯克在X上的一篇文章中称,这仍处于早期阶段,但它已经相当准确,并将变得非常好。

    乳腺放射科医生、深度学习研究员Laura Heacock在社交媒体帖子中说,她使用了她以前测试GPT4的相同乳房的X光检查、超声波和核磁共振作为基准,“比ChatGPT4稍微好一点,但没有一个诊断是正确的。”她预计,未来性能会变好。

    这些测试暴露出人工智能的限制性,强调了人工智能可以被视为支持性工具,而不是专业人员的替代品。

    No.2 让DeepSeek参加一场医师考试

    一个德国研究团队让DeepSeek-R1参加了一场美国医师执照考试(USMLE)。

    在这场考试中,DeepSeek-R1不仅通过了USML三个阶段的考验,还顺带着和ChatGPT硬扛了一把。

    不出意料,在这场比试中,DeepSeek进一步证明了人工智能系统在回答医学问题、模拟临床推理等方面实现了近乎专家的表现。这个由德国杜伊斯堡-埃森大学医学人工智能研究所(IKIM)、德国亚琛工业大学附属医院组成的研究团队,将该研究的预印本于2月6日发布在medRxiv上。

    研究者发现,DeepSeek-R1在基于事实的回忆和临床知识检索方面表现出色。

    USMLE有三个考试环节,第一阶段主要考基础医学,如微生物、病理、药理等;第二阶段考临床知识,含内科、外科、妇产科、小儿科等;第三阶段考的是临床实习后对于医学知识的进一步应用。

    研究人员称,DeepSeek在第一、二阶段中,其精确匹配性能明显超过ChatGPT。这也表明DeepSeek作为医学教学工具有很大潜力。

    不过在第三阶段临床决策方面,无论是DeepSeek,还是ChatGPT都出现力有不逮的状况。

    该研究显示,在需要综合多种临床因素的复杂患者病例中,例如为慢性疾病重叠的患者选择最佳管理策略,DeepSeek可能无法考虑患者偏好、症状演变或非典型表现等细微差别;在高风险场景中,ChatGPT可能给出听起来合理,但医学上不合适的治疗计划。

    无论是对DeepSeek,还是Grok的测试,都表明目前人类医生的专业经验还是至关重要,人工智能适合扮演最佳助手的角色。

    也就是说,将人工智能作为工具,集成到医疗工作流程中可以让医疗健康体系更高效,并且人类专业知识和人工智能支持的结合,对提高诊断准确性和治疗效果将是一场幸事。

    还需注意的是,众多人工智能的集中问世,也让一些问题更突出,也更紧迫。

    Grok的数据来源就引发了隐私问题的讨论。2024年10月,马斯克在他的X社交媒体平台上公开要求Grok的用户,上传他们的医疗图像并生成诊断结果。

    通过社交媒体平台上收集医疗数据的举动,让 Grok招来欧洲隐私监管机构的质疑,可能违反欧盟法规《通用数据保护条例》。

    在步入一个满屏都是讨论AI的时代,最好的、最坏的可能都会发生。如北京朝阳医院一位信息工作人员对《财经》所说:“AI在病历质控、自动生成等已有探索性的应用。现在都还在探索阶段,还需看后面落地的实际应用。”

  • 马斯克的Grok3背后还藏着哪些华人AI大牛?

    马斯克的Grok3背后还藏着哪些华人AI大牛?

    北京时间2月18日中午,马斯克为xAI亲自现身站台的Grok-3发布会上,两位坐在“C位”的华人研究员引人注目。对“老马”来说,这场直播有些“复仇”OpenAI的意味——马斯克在直播中花式强调,“Grok-3研究18个月就追上甚至超越了OpenAI做了五六年的成果”。

    “Jimmy Ba,Leading research(首席研究员)”“Tony,working on the reason team”——两幅华人面孔的自我介绍堪称轻描淡写。

    《职场Bonus》据公开资料检索到,马斯克一旁的“Tony”(下图右2),是xAI的联合创始人之一 Yuhuai Wu (吴宇怀)。2021年多伦多大学博士毕业后,吴宇怀在斯坦福大学进行博士后研究。他曾是Google AI的研究员,个人的研究兴趣是“building machines that can reason”(制造会推理的机器) [1] 。

    ● Grok-3发布会

     

    ● xAI团队里的已知华人大牛

    值得一提的是,吴宇怀博士期间曾先后在OpenAI实习过4个月,谷歌DeepMind实习过11个月。而他现在没有留在任何一家公司,自己选择了创业,追寻自己向往的AGI。

    ● 吴宇怀的X主页,xAI联合创始人,关注推理

    而图左边第二座那位更是领域的带头人。 Jimmy Ba 是“深度学习三巨头之一”。他硕博都就读于多伦多大学,是AI“教父”、诺贝尔物理学奖获得者Geoffrey Hinton的学生。不仅如此,他也是多伦多大学计算机科学系助理教授,相当于也是吴宇怀的老师。更有趣的是,Jimmy Ba也曾在谷歌DeepMind实习。

    同时,他们两位也都是xAI团队的创始成员。

    ● Jimmy Ba的X主页,xAI研究负责人,从事软件与研究

    据麦克罗波洛智库的报告 [2] ,在美国顶尖人工智能人才中,来自中国的研究人员占38%,美国占37%。中国在人工智能领域的人才培养上已超过美国,成为全球最大的AI研究者输出国。

    在xAI团队中更是体现了这一点:

    · 创始团队12人中有5位华人,占比超40%;

    · 图像团队4人中有2位华人;

    · 核心研究团队持续有优秀华人加入。

    2023年7月,马斯克高调官宣xAI创始团队12人,其中有五位都是华人,占比超40%。除了吴宇怀和Jimmy Ba之外,还有Greg Yang(xAI数学家)、Guodong Zhang、Zihang Dai。另外还有一位负责AI硬件和半导体研究的华人高管,Xiao Sun。

    ● xAI创始团队

    从他们的教育背景来看,既有清华、北大、浙大国内顶尖高校的毕业生,也有哈佛、耶鲁、多伦多等世界名校的深造经历。几位科学家也都在各自的领域颇有建树。

    Greg Yang (杨格)是一位对数学有着超高热情的数学家。他是湖南人,初中就开始去美国学习,本硕毕业于哈佛大学数学系,2018年还曾获得本科生数学领域最高荣誉Morgan Prize。毕业后经推荐进入微软雷蒙德研究院,担任研究员。此前也参与过微软与OpenAI在大模型上的合作。现在正专注开发一个用于了解大型神经网络的框架,“Tensor Programs”(张量编程)。

    ● Greg Yang

    Guodong Zhang (张国栋)本科毕业于浙江大学信息工程专业,博士毕业于多伦多大学,师从Roger Grosse,专注于培训、调整和对齐大语言模型。曾获得2022年苹果博士奖学金、2015年全国大学生数学建模竞赛一等奖(1.5%)等。

    ● 张国栋,xAI创始成员

    Zihang Dai (戴子航)本科毕业于清华大学,硕博毕业于卡耐基梅隆大学。曾在网易实习一年,而后在2013年入职百度,担任百度深度学习研究所的工程师。读研期间,也曾在美国的百度实习。读博期间在谷歌实习,专注语言处理。博士毕业后在Google Brain就职研究员4年,来到xAI。

    ● 戴子航,xAI创始成员

    Xiao Sun,前IBM T.J. Watson Research Center(托马斯·J·沃森研究中心)研究员、Meta研究科学家。Xiao Sun是耶鲁大学博士,师从T. P. MA Group教授,本科就读于北京大学。毕业后他在IBM度过了六年多的职业时光,专注于机器学习硬件与算法的研究。2023年9月加入xAI。

    ● Xiao Sun,xAI高管,关注AI硬件和半导体研究

    不仅创始团队中华人占多数,据《新智元》消息, Grok 发布的文生图模型 Aurora,采用当下最为前沿的 MoE 架构。其团队在短短 6 个月的时间里,便实现了从0到1的搭建。而团队仅有4人,其中就有两位华人:Haotian Liu和Lianmin Zheng(郑怜悯)。

    其中, Haotian Liu 本科毕业于浙江大学,2024年5月博士毕业于威斯康星大学麦迪逊分校,师从Yong Jae Lee。Haotian Liu对计算机视觉和机器学习感兴趣,参与开发Llava,Grok-1.5V和Grok-2,最近的重点是构建可进行的大型模型。

    ● Haotian Liu,文生图团队成员

    郑怜悯 本科毕业于上海交通大学ACM班,2024年博士毕业于加州大学伯克利分校,导师是Ion Stoica和Joseph E. Gonzalez。郑怜悯的研究兴趣包括机器学习系统,大型语言模型,编译器和分布式系统。

    ● 郑怜悯,文生图团队成员

    除此之外,xAI中还有很多华人研究员,如:

    曾在微软、推特、脸书、字节等任职过,硕士毕业于上海交通大学的 Xiaobin Wu ,有着多年 Backend Engineering/Engineering Manager/Engineering Director(后端工程/工程经理/工程总监)开发和管理经验。

    ● Xiaobin Wu,xAI技术人员

    毕业于清华大学,曾在谷歌任职近8年的 Yunlong Liu 。 2017年于约翰霍普斯金大学博士毕业,攻读计算机生物物理学。在谷歌时主要负责Core ML complier(核心机器学习编译)/Runtine (OpenXLA/PjRt) Large-scale ML systerm(运行大规模机器学习系统)。现在在xAI负责大规模AI Infra和LLM Pretraining。

    ● Yunlong Liu

    毕业于台湾大学,曾在Linkedin任职近3年的 Pin-Lun (Byron) Hsu 。Byron目前在xAI负责full stack of ML system(ML系统全栈)工作。曾经领导过领英增长最快的开源项目“Liger-Kernel”项目的Kernel optimization(核心优化),并负责过领英SGLang项目的Inference Optimization(推理优化)。

    ● Pin-Lun (Byron) Hsu

    马斯克的xAI团队晚成快赶,18个月追逐OpenAI。在AI这个快速发展的领域,人才的流动与聚集将持续改变着行业格局。

    这种”后发制人”的赶超,很大程度上得益于团队的人才结构。一方面,经验丰富的决策者必不可少。正如xAI从谷歌、微软等头部公司吸纳了很多经验丰富的顶尖科学家,来带头领路。

    另一方面,xAI也吸引了像郑怜悯、Haotian Liu这样充满创造力的毕业生。正如最近爆火的DeepSeek创始人梁文峰在采访中所说,他们的团队中有相当一部分是刚毕业的学生。这些”新生力量”虽然工作经验有限,但往往能带来意想不到的创新突破。

    在这场人才迁徙中,顶尖科学家们追求的已不仅是优厚的薪酬待遇,更看重”共同的愿景”。能在热爱的领域充分施展才华,往往是企业对人才最具吸引力的因素。

    也折射出人才迁徙的一个深层规律:年轻的人重在找到热爱,而有经验沉淀的人重在忠于热爱。