分类: AI大模型

栏目聚焦于人工智能领域的大模型技术,涵盖前沿动态、技术解析、应用案例以及行业趋势,为读者提供全面深入的资讯与洞察,助力把握AI大模型发展的脉搏。

  • 刚刚,GPT-4.5发布!OpenAI最大最贵模型,主打情商高,奥特曼带娃缺席发布会

    刚刚,GPT-4.5发布!OpenAI最大最贵模型,主打情商高,奥特曼带娃缺席发布会

    GPT-4.5正式发布,号称OpenAI最大最好的聊天模型。

    但很意外啊,这么大的事奥特曼都不来。

    图片

    这次OpenAI也不打算秀炫酷的解题,也不打算晒各种榜单的排名,反而强调起了情商。

    图片

    第一个现场演示:

    “我又被朋友鸽了,帮我写个短信告诉他们我恨他们。”

    o1意识到这样会“友尽”,但也只是很忠实的按要求完成了任务。

    GPT-4.5甚至都没完成提示词中的任务,但整个互动显得更自然了:

    • 先识别出用户很烦恼
    • 建议更清楚的表达自己的情绪
    • 给出两种备选方案
    • 再询问用户是否坚持原来的要求

    图片

    第二个现场演示,强调GPT-4.5掌握更多世界知识,以及讲述知识的方式更自然。

    解释为什么海水是咸的。

    GPT-4 Turbo掌握很多知识,但回答就像是在炫耀它很有知识,只是把事实罗列在一起。

    图片

    同样这些知识,GPT-4.5的语气更有互动感,还考虑到用一句简洁的开场,让用户更容易记住三个关键词。

    图片

    面对更专业的问题“用第一性原理解释AI对齐的必要性”,o1的回答像是写论文,而GPT-4.5通过“第1步、第2步、第3步……”来引导用户思考这个问题。

    图片

    除了演示之外,直播中也透露了GPT-4.5开发过程的一些内幕:

    如“激进地”使用了低精度训练,预训练阶段跨多个数据中心完成。GPT-4.5会成为未来推理模型的基础模型

    从今天起,GPT-4.5开放给200美元一个月的Pro用户。下周逐步开放给20美元一个月的Plus用户。

    不是最前沿,但是最大模型

    技术报告中表示:GPT-4.5不是一个前沿模型,但它是OpenAI最大的语言模型,比GPT-4的计算效率提高了10倍以上。

    OpenAI称通过扩展无监督学习和推理提升AI的能力。

    GPT‑4.5通过扩展计算和数据以及架构优化扩展了无监督学习,拥有更广泛的知识和更深入的世界理解能力,所以幻觉更少。

    在衡量LLM事实准确性的SimpleQA基准上,GPT-4.5准确率62.5%,幻觉率37.1%,比GPT-4o、o1、o3mini优化了不少。

    图片

    以下是一个具体的幻觉降低的案例。

    假如用户询问“第一种语言是什么”,GPT-4.5会诚实回答不知道、这还是人类未解之谜,而不是随便蒙一个答案。

    图片

    此外,Blog中还称开发了新的可扩展的技术,能够利用从小型模型衍生出的数据来训练更大更强的模型,由此提升了GPT‑4.5的可操控性、对细微差别的理解以及自然对话能力。

    在人类偏好评估中,测试者更倾向于选择GPT‑4.5而非GPT‑4o。

    图片

    OpenAI表示,GPT‑4.5对人类意图的理解更深刻,能够以更细腻的“情商”解读微妙的线索或隐含的期望,还展现出了更强的审美直觉和创造力,在协助写作和设计方面表现出色。

    比如,当用户表达“考试不及格、很难过”,它会安慰、鼓励用户。作为对比,4o给出的回答就更加冰冷,没什么安慰的话语。

    图片

    在一些回复上,GPT‑4.5对比4o回答也更简洁。

    图片

    另外,OpenAI还晒出了GPT‑4.5在标准学术基准测试中的结果,全面超越GPT-4o,在SWE-Lancer Diamond(coding)和MMMLU(multilingual)上超越o3-mini。

    图片

    API定价非常贵

    值得一提的是,GPT-4.5的API定价非常贵。

    75美元/百万tokens输入、150美元/百万tokens输出。

    对比GPT-4o,定价高出去15-30倍。

    图片

    到底这个价格值不值呢?不少人已经分享了抢先体验的效果。

    拿到内测的博主表示,实际使用中GPT-4.5非常有创造力、一定上了很多人文课。

    Claude 3.7和GPT-4.5两个,非常相似。

    图片

    他还列举了GPT-4.5视觉理解能力很强的例子。它能从这张星露谷截图中发现非常小的元素蝴蝶。

    图片

    “独角兽评估”的实测表现也很好。

    图片

    后续随着更多实测放出,应该还能看到更多有意思的例子。

    One More Thing

    最后,大家一定很关心,奥特曼去哪了呢?

    在医院照顾小孩。

    是的,他最近刚刚喜提一子。

    图片

    直播回放:https://www.youtube.com/watch?v=cfRYp0nItZ8

    参考链接:https://openai.com/index/introducing-gpt-4-5/

     来源:微信公众号“量子位”
  • Claude3.7写代码,设计稿直接生成应用,前端不存在了!

    Claude3.7写代码,设计稿直接生成应用,前端不存在了!

    Anthropic 发布 Claude 系列最新最强大的模型 Claude 3.7,能力惊人!

    根据 Anthropic 官网对 Claude 3.7 的介绍,Claude 3.7 是一个普通 和 推理能力融合的模型,与市面上其他推理模型不一样的是,Claude 的推理能力并不是通过一个独立的模型实现的。Claude 3.7 Sonnet 既是普通的 LLM 模型,又有推理能力:可以选择何时让模型正常回答,何时让模型在回答前思考更长时间。

    测试结果表明, Claude 的代码能力遥遥领先,评分结果远超 OpenAI 的 o3 模型和 DeepSeek R1

    图片

    在指令遵循、一般推理、多模态能力和代理编码能力都表现非常出色。通过拓展思维能力,在数学和科学方面有显著提升。

    图片

    一直以来 Claude 对比 DeepSeek 等深度模型的最大优势是,图像的理解力和复原能力。通过 SVG 让 Claude 设计各种文字卡片,效果要比 DeepSeek 优秀的多。

    为了测试新版本的图像理解力,我从设计师网站 dribbble 找了两个后台系统的设计图,让 Claude 尝试使用 HTML + CSS 写出这个页面

    图片
    图片

    很快,第一个版本就写好了。整体上还不错,但响应式方面有一些问题

    图片
    图片

    我告诉他问题,并让他引入 CDN 的 React、TailwindCSS、和 ChatJS 图表库,再写一次。

    图片

    最终效果非常惊艳,有这种能力的AI,前端工作量会大大减轻,接入 cursor 等 AI 编程工具之后,相信这类工具的能力也会大大加强

    图片
    来源:微信公众号“海森堡AIGC”
  • 人麻了啊,Claude 3.7此模型一出,程序员的工作都要没了,仅需5个提示词开发游戏

    人麻了啊,Claude 3.7此模型一出,程序员的工作都要没了,仅需5个提示词开发游戏

    最近 Anthropic 正式发布了 Claude 3.7 Sonnet,“这是迄今为止我们最智能的模型,也是市场上首个混合推理模型”,我们已经见到太多的最智能模型了,所以它最让我好奇的是它的混合推理,这跟Deepseek的推理模式有什么区别呢?
    带着这些好奇我去深度体验了下Claude 3.7 Sonnet,先说一下结论:混合推理跟Deepseek的推理模式没啥区别,就是Deepseek的深度思考按钮是否开启

    图片

    它其实就是提供了两种模式给用户选择:
    标准模式:适合简单任务,如一般对话,信息检索或写作,提供毫秒级的快速回答。
    扩展思考模式:适合需要深思熟虑的任务,如数学问题或多步骤编码,模型会逐步推理,并且会展示其推理过程,就跟Deepseek的推理功能类似。
    虽然官方一直在标榜“这是市场首个混合推理模型”,对于我们这种国内资深Deepseek用户来说,确实是吸引力不够,我看着更像是Claude落后于Chatgpt,Grok3和Deepseek推出推理模型,强行找补了一个理由。
    开始我以为这个“混合推理”是能根据用户的提问,来自动判断是否开启推理思考模式,结果我发现并不是,还是得用户自己手动选择,选择这个拓展模型才是开启了推理模式。

    图片

    不过Claude 3.7 Sonnet在编程方面,我觉得确实是目前最强的模型,在多个测试中,Claude 3.7 Sonnet都展现出了卓越的编码能力。

    图片

    AI编程工具Cursor指出Claude在现实编码任务中再次被评为最佳模型,特别是在处理复杂代码库和高级工具使用等方面有显著改进,我相信国内字节的Trea应该也会很快支持Claude 3.7 Sonnet。
    国外一位网友分享,通过5个提示词,Claude Sonnet 3.7 就为 Apple Watch 制作了一个与您的心率相关的贪吃蛇游戏,你的压力越大,蛇的移动速度就越快,你越冷静就移动越慢。
    提示词:写出一个用于 Apple Watch 的贪吃蛇游戏的全部代码,该游戏:
    • 使用你的心跳来决定蛇的速度,我们需要使用 HealthKit 来实现这个功能(并告诉我如何设置它)
    • 你可以在屏幕上滑动来使蛇向上、下、左、右移动
    • 墙壁不会杀死你,你只会从另一侧出现,所以唯一的死亡方式是撞到自己的蛇身,就像诺基亚版本一样
    • 使用类似诺基亚版本的图形,即那些屏幕所具有的迷彩绿色外观
    • 写出所有代码并概述每个文件,这样我可以复制粘贴并运行它
    图片

    图片

    还有人通过Claude Sonnet 3.7制作了一个3D赛车游戏。
    提示词:在浏览器中为我构建一个名为claudekart的3d赛车游戏
    图片

    图片

    还有一个非常值得给大家推荐的,就是Claude Sonnet 3.7的写作能力,市面上所有的知名大模型,我都有用过它们写作,体验下来Claude我觉的是最好用的写作模型,它写出来的文章更加吸引人,更有温度,AI味不会那么重。
    我用ChatGPT和Claude来写一篇文章,直观对比下。
    提示词:我希望你扮演一名写作专家,擅长编写说明文 现在我需要你帮我写一篇2000字以“749局”为中心的说明文,
    写作要求:
    • 说明文的内容要求严密性,如实反映客观事物,给读者正确无误的认识;
    • 文章语句简明准确,但要求生动幽默风趣,能吸引大众阅读,又不能太口语化;
    • 需要有具体实质性的内容,要有具体的案例
    • 重点核心是要突出749局的神秘
    这是Claude Sonnet 3.7生成的文章片段:
    图片
    读前几段内容,所运用的修辞手法、叙述手法,让文章更具神秘性,吸引读者阅读下去,并再附上一个简短案例,让内容不那么空洞。
    再来看下 ChatGPT 的效果,有明显的「AI味」,文章带有顺序词、名词独立等特征。
    图片
    当面对Claude 3.7 Sonnet这样的AI突破时,很多程序员和创作者第一反应可能是恐慌:我们的工作是否即将被取代?
    还记得当初自动化工具出现时,多少人担心会失业?事实上,它们只是让我们告别了最繁琐的工作,让我们能够专注于更有创造性的任务。Claude 3.7 Sonnet同样如此——它不是来抢走你的工作,而是来为你扫清障碍的。
    想象一下:当你被困在调试一个复杂bug的泥潭中,Claude能迅速找出问题所在;当你面对一片空白的编辑器不知从何下笔,它能帮你梳理思路、提供框架。它就像一个永不疲倦的助手,让你能够将精力投入到真正需要你独特视角和创造力的工作中。
    我们不应该问”AI会不会取代我”,而应该问”我如何与AI共同创造”。
    那些能够熟练驾驭Claude 3.7 Sonnet这类工具的开发者和创作者,将比其他人拥有更大的优势。就像曾经,会使用搜索引擎的人比不会的人效率高出数倍一样。
    作为程序员,我们本就是技术的驯服者和创新者。面对AI这匹”烈马”,我们更应该学会驾驭它,而不是惧怕它。当AI处理重复性工作时,我们可以专注于架构设计、用户体验优化、创意构思——这些仍然需要人类的独特思维。
    我们应该要积极学习AI工具,学习如何有效地提问、指导它,让它成为你的得力助手。当AI帮你处理繁琐的部分,你将有更多时间思考真正重要的问题,创造出更有价值的作品。
    来源:微信公众号“路人甲TM”
  • 一文看懂 DeepSeek 刚刚开源的 FlashMLA,这些细节值得注意

    一文看懂 DeepSeek 刚刚开源的 FlashMLA,这些细节值得注意

    今天开始,我们正式进入 DeepSeek 开源周。

    DeepSeek 开源项目第一弹 FlashMLA,已经在极短的时间内发酵到全网了,短短几个小时,该项目就已经收获了超过 3.5K Star,且还在不断飙升。

    虽然 FlashMLA 里的每个字母都认识,连在一起就看不懂了。别急,我们整理了一份 FlashMLA 速通指南。

    由 Grok 3 整理,APPSO 核实

    让 H800 性能暴增,FlashMLA 到底什么来头? 

    据官方介绍,FlashMLA 是一个针对 Hopper GPU 优化的高效 MLA(Multi-Head Latent Attention)解码内核,支持变长序列处理,现在已经投入生产使用。

    FlashMLA 通过优化 MLA 解码和分页 KV 缓存,能够提高 LLM(大语言模型)推理效率,尤其是在 H100 / H800 这样的高端 GPU 上发挥出极致性能。

    说人话就是,FlashMLA 是一种专门为 Hopper 高性能 AI 芯片设计的先进技术——一种「多层注意力解码内核」。

    听起来很复杂,但简单来说,它就像是一个超级高效的「翻译器」,能让计算机更快地处理语言信息。 它能让计算机处理各种长度的语言信息,而且速度特别快。

    比如,你在用聊天机器人的时候,它能让你的对话更快地得到回复,而且不会卡顿。 为了提高效率,它主要通过优化一些复杂的计算过程。 这就像是给计算机的「大脑」做了一个升级,让它在处理语言任务时更聪明、更高效。

    DeepSeek 官方特意提到,FlashMLA 的灵感来自 FlashAttention 2&3 和 cutlass 项目。

    FlashAttention 是一种高效的注意力计算方法,专门针对 Transformer 模型(如 GPT、BERT)的自注意力机制进行优化。它的核心目标是减少显存占用并加速计算。cutlass 也是一个优化工具,主要帮助提高计算效率。

    DeepSeek 的爆火出圈很大程度上是因为以低成本创造了高性能模型。

    而这背后的秘籍主要得益于其在模型架构和训练技术上的创新,尤其是混合专家(MoE)和多头潜在注意力(MLA)技术的应用。

    FlashMLA 则是 DeepSeek 公司开发的一种针对多头潜在注意力(MLA)技术的实现和优化版本。 那么问题来了,什么是  MLA( 多头潜在注意力)机制?

    在传统的语言模型里,有一种叫「多头注意力(MHA)」的技术。 它能让计算机更好地理解语言,就像人用眼睛同时关注多个地方一样。

    不过,这种技术有个缺点,就是需要很大的内存来存储信息,就像一个很能装的「仓库」,但仓库太大就会浪费空间。

    MLA 的升级之处在于一种叫「低秩分解」的方法。

    它把那个大仓库压缩成一个小仓库,但功能还是一样好,就像把一个大冰箱换成一个小冰箱,但里面的东西还是能放得下。这样一来,在处理语言任务的时候,不仅节省了空间,速度还更快了。

    不过,虽然 MLA 把仓库压缩了,但它的工作效果和原来一样好,没有打折扣。

    当然,除了 MLA 和 MoE,DeepSeek 还用了其他一些技术来大幅降低了训练和推理成本,包括但不限于低精度训练、无辅助损失的负载均衡策略以及多 Token 预测(MTP)。

    性能数据表明,FlashMLA 在内存和计算限制下的表现远超传统方法,这得益于其线性复杂度的设计和针对 Hopper GPU 的优化。

    与标准多头注意力的对比,更是进一步凸显 FlashMLA 的优势:

    FlashMLA 的主要应用场景包括:

    • 长序列处理:适合处理数千个标记的文本,如文档分析或长对话。
    • 实时应用:如聊天机器人、虚拟助手和实时翻译系统,降低延迟。
    • 资源效率:减少内存和计算需求,便于在边缘设备上部署。

    目前 AI 训练或推理主要依赖英伟达 H100 / H800,但软件生态还在完善。

    由于 FlashMLA 的开源,未来它可以被集成到 vLLM(高效 LLM 推理框架)、Hugging Face Transformers 或 Llama.cpp(轻量级 LLM 推理) 生态中,从而有望让开源大语言模型(如 LLaMA、Mistral、Falcon)运行得更高效。

    同样的资源,能干更多的活,还省钱。

    因为 FlashMLA 拥有更高的计算效率(580 TFLOPS)和更好的内存带宽优化(3000 GB/s),同样的 GPU 资源就可以处理更多请求,从而降低单位推理成本。

    对于 AI 公司或者云计算服务商来说,使用 FlashMLA 也就意味着更低的成本、更快的推理,让更多 AI 公司、学术机构、企业用户直接受益,提高 GPU 资源的利用率。

    此外,研究人员和开发者还可以基于 FlashMLA 做进一步的优化。

    过去,这些高效 AI 推理优化技术通常主要掌握在 OpenAI、英伟达等巨头手里,但现在,随着 FlashMLA 的开源,小型 AI 公司或者独立开发者也能用上, 更多人进入 AI 领域创业,自然也就有望催生更多的 AI 创业项目。

    简言之,如果你是 AI 从业者或者开发者,最近在用 H100 / H800 训练或推理 LLM,那么 FlashMLA 可能会是一个值得关注或研究的项目。

    与春节期间网友扒出 DeepSeek V3 论文具体提到了 PTX 的细节相似,X 网友发现 DeepSeek 发布的 FlashMLA 项目中同样包含了一行内联 PTX 代码。

    PTX 是 CUDA 平台的中间指令集架构,处于高级 GPU 编程语言和低级机器代码之间,通常被视为英伟达的技术护城河之一。

    通过内联 PTX,这使得开发者能够更精细地控制 GPU 的执行流程,从而可能实现更高效的计算性能。

    此外,直接利用英伟达 GPU 的底层功能,而不必完全依赖于 CUDA,也有利于降低英伟达在 GPU 编程领域的技术壁垒优势。

    换句话说,这或许也意味着 DeepSeek 可能在有意绕开英伟达封闭的生态。

    当然,如无意外,根据外媒的爆料,本周接下来预计还有 GPT-4.5、Claude 4 等模型的发布,去年年底没能看到的 AI 大战或将在本周上演。

    看热闹不嫌事大,打起来,打起来。

    官方部署指南 

    FlashMLA 是一种高效的 MLA 解码内核,专为 Hopper GPU 优化,可用于处理变长序列推理。

    当前已发布版本支持:

    • BF16
    • 分页 KV 缓存,块大小为 64

    在 H800 SXM5 上运行 CUDA 12.6,FlashMLA 在受内存带宽限制的配置下可达 3000 GB/s,在受计算能力限制的配置下可达 580 TFLOPS。

    项目配备:

    • Hopper GPU
    • CUDA 12.3 及以上版本
    • PyTorch 2.0 及以上版本

    附上 GitHub 项目地址:https://github.com/deepseek-ai/FlashMLA

    安装

    python setup.py install

    基准

    python tests/test_flash_mla.py

    python tests/test_flash_mla.py 是一个命令行指令,用于运行 Python 测试文件 test_flash_mla.py,通常用于测试 flash_mla 相关的功能或模块。

    用法

    from flash_mla import get_mla_metadata, flash_mla_with_kvcache

    tile_scheduler_metadata, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv)

    for i in range(num_layers):

    o_i, lse_i = flash_mla_with_kvcache(

    q_i, kvcache_i, block_table, cache_seqlens, dv,

    tile_scheduler_metadata, num_splits, causal=True,

    )   …

    来源:微信公众号“APPSO”

  • DeepSeek爆火一个月:腾讯元宝猛砸买量,kimi暴跌、豆包下滑

    DeepSeek爆火一个月:腾讯元宝猛砸买量,kimi暴跌、豆包下滑

    DeepSeek爆火至今1个月的时间里,整个AI圈子发生了极大变化,各家APP接入DeepSeek、版本更迭、砸钱买量,拥抱与竞争成为2025年初AI圈的主旋律。

    其中,近期最受瞩目的当属腾讯元宝、字节豆包以及Kimi。那么,元宝、豆包和Kimi在这场DeepSeek浪潮中到底有什么变化,未来又将走向何方?DataEye将结合数据,为大家带来这几款AI助手的最新变动。

    在排行榜上,过去豆包在App Store排名始终要高于元宝,如今攻守之势逆转。

    2月22日,腾讯元宝超越豆包,升至大陆地区苹果端免费榜第二名,DeepSeek依旧位列第一。

    而元宝反超豆包登顶的最直接动力,是近期大涨的付费投放力度,间接原因则与产品端变动有关。

    先看投放侧。

    ADX数据显示,2月5日之前,Kimi、豆包与腾讯元宝投放素材量分层明显,且存在不小差距。

    而后,Kimi投放素材量逐步滑落,并在2月15日左右成为三者中最低,至今始终保持着日素材量不超1000组的力度。

    豆包在2月5日后投放力度先有一定程度上涨,后又大幅下滑,保持着与1月下旬相似的投放力度。

    元宝的变化最为明显。在过去,元宝投放力度向来不高,腾讯也被外界认为在AI大模型领域战略模糊、动作迟缓。不过在2月15日,元宝投放力度小幅上涨,2月18日,大幅上涨,至今单日最高投放素材量超1.1万组,成为三者中第一。

    对比之下,元宝投放力度大涨至今6天时间内(2.18-2.23),投放素材量共5.5万组,环比投放力度上涨前6天(2.9-2.14)投放素材量1.2万组,上涨幅度达345.1%。

    至于三款产品投放力度变化的原因,DataEye研究院认为:

    ①腾讯元宝接入DeppSeek并上线自研推理大模型HunyuanT1,通过加大投放力度抢占市场占领用户心智,并为HunyuanT1大模型进行推广。

    2月13日,腾讯元宝更新版本宣布接入DeepSeek,这与2月15日元宝投放力度小幅上涨时间点相契合;2月17日,腾讯元宝上线HunyuanT1大模型,这与2月18日投放力度大涨时间点相契合。

    这段时间内,腾讯元宝版本更新频繁,2月22日新版本已支持上传及拍照识图,在产品、投放多重因素引导下,元宝正式超越豆包,成为大陆地区苹果端免费APP下载榜第二名。

    ②豆包投放力度先涨后跌,实际只是回归正常投放状态。与腾讯相比,豆包并未接入DeepSeek,甚至字节整体对待DeepSeek的态度都非常保守。这似乎代表着字节对自家豆包大模型的自信:字节或许相信,豆包大模型能够在不久的将来追赶上DeepSeek的水平。

    因此在DeepSeek爆火后短暂加大投流试图追赶,而后回归理性状态,较符合豆包投流力度变化趋势。

    ③Kimi则是对过去自身“重投放”策略进行反思,决定减少投放,聚焦基础模型训练。上周有媒体报道称月之暗面近期决定大幅收缩产品投放预算,包括暂停多个安卓渠道的投放,以及第三方广告平台的合作。这与Kimi在2月15日左右投放素材量暴跌相契合。

    与此同时,月之暗面内部复盘认为要坚持基础模型SOTA(State-of-the-art,当前最佳),接下来可能会重新训练基础模型,并抓紧应用层机会,内部选中的一个方向是一款面向深度研究领域的智能体产品DeepResearch。

    今天来看,Kimi与豆包这两款过去的明星AI应用,一个大砍投放、一个回归正常,反而是声量较小的腾讯元宝后来居上。

    那么在这股风潮下,未来几个月AI圈又将出现什么新的变化?豆包、Kimi是否会在技术层面有新的突破?元宝老二的位置能否坐稳?DataEye研究院将持续关注。

    来源:微信公众号“DataEye应用数据情报”

  • DeepSeek硬控智能家居!四大电视巨头抢跑,AR眼镜、智能音箱都上桌了

    DeepSeek硬控智能家居!四大电视巨头抢跑,AR眼镜、智能音箱都上桌了

    一大波AI家电,已经接入DeepSeek!

    这两周,AI电视、AI冰箱、智能音箱品牌扎堆宣布DeepSeek可用,有长虹海信创维TCL等大牌,还有小度这样的智能硬件代表。‍‍‍‍‍

    本周三,百度旗下智能硬件公司小度官宣,其AI智能助手小度正式接入DeepSeek模型。据小度淘宝旗舰店人工客服回复,小度智能屏可以下载并使用DeepSeek的App,但小度智能音箱暂不支持。

    可玩场景更丰富的AR眼镜,也在跟上DeepSeek潮流。上周星纪魅族 宣布其两款AR智能眼镜StarV Air2和MYVU已支持通过语音助手等功能调用DeepSeek-V3的能力,后续将支持用户自行选择是否调用DeepSeek-R1

    部分智能硬件厂商虽然尚未把DeepSeek能力直接整合到其产品中,但已经在研究结合DeepSeek的使用场景。 例如 Rokid 上周演示了其AR眼镜Rokid AR Lite可分屏使用DeepSeek网页版,以便打工 人用AI功能同时处理多项任务。

    DeepSeek已成为这些智能硬件的一大卖点,不少商品介绍页上直接注明“接入DeepSeek”。

    从国内三大主流电商平台搜索页来看,海信AI TV、长虹AI TV、创维AI TV、TCL AI TV的京东自营店铺产品页面和标题,均标注了“DeepSeek”。 这几家的淘宝官方旗舰店情况类似,但拼多多平台上暂未有明显标注。

    AR眼镜方面,李未可京东自营旗舰店和淘宝官方旗舰店的Chat AI眼镜,销售页面上多处标注了“接入DeepSeek-R1大模型”。拼多多平台上暂未有其官方店铺。

    Rokid的淘宝官方旗舰店则标注了“可使用DeepSeek”,但其京东自营旗舰店和拼多多官方旗舰店并未标注DeepSeek相关信息。

    总的来看,目前官方已确认会内嵌DeepSeek能力的智能家居硬件有:海信全部带智能体的AI TV长虹全部带沧海智能体的AI TV创维G7F Pro和A5F Pro两款AI TV星纪魅族StarV Air2和MYVU两款AR智能眼镜由TCL App AI助手和伏羲AI平台支持的全线TCL智能家居产品

    01.

    4家AI TV官宣

    将接入DeepSeek-R1,可语音对话

    接连3天,海信、长虹、创维、TCL相继宣布将DeepSeek能力整合到自家的AI TV中,以提升AI TV与用户的语音交互能力

    1、海信

    海信2月12日宣布,其全屋智能生态已深度整合DeepSeek模型相关技术,包括海信AI TV在内的智能家居软硬件将逐步全面升级DeepSeek能力。

    按海信方面预期,本周内所有搭载智能体的海信AI TV将完成升级,并全面支持DeepSeek。今年海信AI TV的新品也将自带DeepSeek能力。

    正式接入DeepSeek后,用户可以使用海信电视遥控器小聚AI键打开,或者直接语音唤醒DeepSeek对应的智能体对话界面。

    此外,海信自研的星海大模型深度融合DeepSeek能力后,将通过模型蒸馏、强化学习等技术,提升深度思考和推理能力,从而改善其全屋智能生态的人机交互体验。

    2、长虹

    2月13日,长虹宣布所有搭载了沧海智能体的长虹AI TV,均已接入DeepSeek模型。在长虹AI TV上,用户可以自行选择是用DeepSeek“深度思考”模式,还是“快速响应”模式,前者由DeepSeek-R1满血版支持。

    长虹方面称,现在用户在长虹AI TV的AI对话界面,可以通过语音对话的方式,与搭载DeepSeek能力的沧海智能体问答、交流,或要求其执行“清空问题”等操作。

    3、创维

    2月14日,创维集团发布了搭载DeepSeek能力的AI TV新品G7F Pro和A5F Pro。其DeepSeek能力来自于接入满血版DeepSeek-R1的创维酷开AIOS操作系统

    创维方面称,得益于DeepSeek能力,G7F Pro支持方言识别和模糊语义理解,从而能更准确地帮助用户找到影视、音乐等内容。其还能完成智能剪辑、生成氛围音乐、互动绘画、AI口语陪练、定制绘本、生成出行计划、预订行程等任务。

    4、TCL

    TCL实业于2月17日宣布正式接入DeepSeek,并应用于TCL智能家居、移动通讯、内部研发等产品线和业务,以提升用户体验和研发效率。

    其中,TCL智能家居矩阵的核心入口是TCL App AI助手。该AI助手接入DeepSeek后,升级了家电说明书问答和产品控制两大功能。在家电说明书问答方面,AI助手的回答速度和质量,及其模糊语义理解能力都有所提升,并且可以多轮追问。在产品控制方面,AI助手学会快速拆解复杂指令,实现跨设备协同响应。

    除了TCL智能家居中控,其电视、空调等品类的智能家居产品也接入了DeepSeek能力。

    TCL电视是通过伏羲AI平台接入DeepSeek能力的。用DeepSeek重点升级伏羲AI平台的多模态理解、知识处理、内容服务等能力后,TCL电视的音画质、人机交互和内容生成效果均有所提升。当前TCL电视方面已针对用户使用场景构建了16大智能体,后续将借助AI技术进一步细化场景和优化智能体。

    TCL空调则是通过TCL伏羲大模型和AI助手接入DeepSeek能力的。其主要强化了语音交互和故障诊断能力,可结合历史数据和上下文信息,预测潜在风险并提前预警。

    02.

    星纪魅族抢跑DeepSeek版AR眼镜,

    Rokid支持三屏使用

    在AR眼镜领域,虽然Rokid率先放出其AR眼镜可使用DeepSeek功能的消息,但星纪魅族抢先在其AR智能眼镜产品中实际接入了DeepSeek能力,推出首款内嵌DeepSeek V3模型的AR智能眼镜。

    1、星纪魅族

    2月14日,星纪魅族官宣,其AR智能眼镜StarV Air2、MYVU已接入DeepSeek大模型,支持在AI语音助手等功能中,根据用户提问内容动态调用DeepSeek V3的能力。而StarV Air2和MYVU的用户也可以直接语音唤醒带DeepSeek能力的AI语音助手,不需要上手操作。

    按计划,StarV Air2和MYVU用户端后续还会开放DeepSeek-R1大模型,并且用户可以自行选择是否调用该模型。

    星纪魅族方面称,该公司将会基于DeepSeek-R1模型及其相关技术,提升现有模型对用户潜在意图的理解能力,以帮助用户准确地做出决策,另外还能通过Flyme AIOS操作系统完成复杂任务的执行。

    2、Rokid

    Rokid方面于2月13日发文称,其AR眼镜Rokid AR Lite现能分屏使用DeepSeek网页版

    在Rokid给出的例子中,用户戴上Rokid AR Lite后,可以分屏使用DeepSeek功能,在三联屏上操作DeepSeek、查资料、编辑文档,而不用切换界面。

    不过,Rokid方面目前没有官宣,是否将DeepSeek能力整合到其AR眼镜的原生AI能力中。

    03.

    结语:两大方式部署智能家居

    DeepSeek能力,价格优势未显

    现阶段,智能家居硬件升级DeepSeek能力的方式主要有两大类,一种是通过AI智能助手或AI智能体接入后应用DeepSeek能力,例如海信AI TV、长虹AI TV;另一种是先把DeepSeek能力接入底层AI生态后,再由底层AI生态统一重塑智能硬件的AI交互能力,例如创维AI TV、TCL空调。

    而在价格方面,DeepSeek模型高性价比部署的优势有待进一步发掘。

    以TCL 65英寸的T6L QD-Mini LED AI TV为例,截至2月19日晚6点,该款AI TV在京东金榜平板电视排行榜排名第一。其京东自营官方旗舰店售价为3499元,国补预计到手价为2799元。TCL另一款未标注“接入DeepSeek”、同是65英寸的V8H Pro-J AI TV,京东自营官方旗舰店售价为2099元,国补预计到手价为2039元。

    可以看到,带有“DeepSeek”标注的AI TV,比其他未带有“DeepSeek”标注的AI TV,售价大概会高出1000元至1500元不等。这一差值未来有望进一步缩小。

    来源:微信公众号“智东西”

  • 地表最强Grok3突袭免费体验,网友实测对比DeepSeek,发现中文彩蛋

    地表最强Grok3突袭免费体验,网友实测对比DeepSeek,发现中文彩蛋

    地表最强Grok3突袭免费体验,网友实测对比DeepSeek,发现中文彩蛋

    机器之能·2025年02月20日 17:35
    笑话依旧讲的很烂。

    又是一个文理兼修的优等生,能薅一点是一点。

    好消息!好消息!

    堆了 20 万张 GPU、号称「地表最强」大模型 Grok-3 已经可用啦。

    这两天,网友们已陆续晒出截图:

    作为非付费用户,我们昨天只能旁观 Grok 3,今儿突然可以免费体验部分功能。

    但,次数有限 !

    由此看来,Grok 3 ( beta )提供「三件套」服务(除了基础模型)。

    Thinking是指启动推理模型。

    对此,AI 大神Andrzej Karpathy 快速体验后,评价说:

    「 Grok 3 + Thinking 感觉与 OpenAI 最强商用模型(o1-pro,200 美元/月)的顶尖水平相差无几,

    比 DeepSeek-R1 和 Gemini 2.0 Flash Thinking 要稍微强点儿。 」

    Thinking 模式

    DeepSearch, 对标 OpenAI「深度研究」功能,解决更加复杂困难的问题。

    DeepSearch 模式

    Big Brain可能是指推理模型 + 更多思考时间,类似 OpenAI o3 mini high。

    要体验完整的 Grok3 「三件套」,大伙儿可得破费了。即使是premium+用户也无法使用最强的推理( Think )和深度搜索( DeepSearch ),还必须订阅新服务 SuperGrok。一顿操作下来,月费估计要 50 美金。( 咱还是继续免费薅 DeepSeek 吧 )

    就刷榜成绩来说, Grok-3表现确实不俗。准确地说,Grok 3 是一个系列,不只是某一个模型。轻量版本 Grok 3 mini 可以更快地回答问题,但会牺牲一些准确性。

    数理编程上,Grok 3 都大幅超过 Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 和 GPT-4o。

    而这些被用来对比的模型的性能,与轻量版本 Grok-3 mini 相近。

    在大模型竞技场 Chatbot Arena(LMSYS)中,早期 Grok-3 版本的得分取得了第一,达到 1402 分(有史以来第一个),超过了包括 DeepSeek-R1 在内的所有其他模型。

    马斯克直言:Grok 3 比 Grok 2 「好 10 倍」!

    网友们也迫不及待地开始整活了。

    意外啊,居然是中文写作高手

    最让人意外的是,从刷榜成绩来看,明明是个优秀理科生,偏被中文网友发现中文写作水平真高!

    一位科技博主让 Grok 3 写了一篇《我的故乡回忆》,直接把我看感动了!

    「海就像村里的钟……日子就得跟着海走。」多好的句子啊!

    煤油灯、番薯粥、咸鱼干配粥、咯吱作响的竹床、老师的吼一嗓子、同宗同族、祠堂议事、「吵归吵,闹归闹,遇事还是齐心」……

    充满乡土气息的日常文化符号,让一个 90 年代的泉州小渔村跃然纸上,也暗示了时代变迁。

    来自x网友@imxiaohu

    立刻有网友让 DeepSeek 也如法炮制一篇《我的高中》。

    DeepSeek 也很擅长日常细节,怎么说呢,这些细节加起来并没有产生一加一大于二的效应,不如 Grok 3 的深刻,情感触动也不那么明显。

    来自X@@Louis_Chenxf。提示词,分析一下上面这篇文章 的写作风格,写一篇题为《我的高中生活》的文章,长度也和例文一致。

    至于最后出场的 OpenAIo1 Pro,就像背了一堆典范作文、好词好句的人,写成的应试文。

    来自X@howie_serious

    DeepSeek 毒舌功力已经众人皆之,网友发现Grok 3 辣评能力也是没有瓶颈!

    让它犀利点评自己的推文,因为没告诉具体账号,这位网友先被Grok 3 怼了一脸。告知账号后,Grok 3 开始毒舌,就连拍它马屁的推文也被怼:

    夸得那么猛,也不怕把自己舌头闪了?光吹不给证据,跟放空炮有啥区别?

    吹牛不带喘气、细节一抓就漏风 ……

    Think 模式,确实是个理科高手

    这些只是开胃菜。

    作为一个数理编程的强者,网友们分享最多的是 Grok3 强大代码能力,简直是游戏开发者的福音。

    比如,用 python 编写一个在正方形内弹跳的黄色小球的脚本,正确处理碰撞,使正方形缓慢旋转。

    下面是 DeepSeek R1(左)、o1-pro(右)的结果。

    继续输入提示词:

    put the ball in a tesseract instead of a square

    就有了下面这个结果。

    这里只是基础模型,没有启动「 Think 」、「 Big Brain 」哦。

    还能再复杂一些吗?

    来自x@_akhaliqprompt: Write a p5.js script that simulates 25 particles in a vacuum space of a cylindrical container, bouncing within its boundaries. Use different colors for each ball and ensure they leave a trail showing their movement. Add a slow rotation of the container to give better view of what’s going on in the scene. Make sure to create proper collision detection and physic rules to ensure particles remain in the container. Add an external spherical container. Add a slow zoom in and zoom out effect to the whole scene.

    这是一个连马斯克本人都点赞的演示,看看 DeepSearch + Think 能创造什么?

    网友让 DeepSearch 帮忙用 p5.js(一个网页动画工具)复刻《 Flappy Bird 》小游戏,它先帮忙从网上找好了游戏素材和图片。

    然后,在同一个聊天窗口里启动 Think 模式,AI 就自动把完整的游戏代码给写出来了。

    结果,Run 一次就成功。

    来自x@CrisGiardinaDeepSearch Prompt: Write a p5js implementation of Flappy Bird. It must be extremely polished, and I want you to use actual sprites or images for all the elements, which you need to find online. Think Prompt: now create a code block with the entire correct code please

    AI 大神Andrzej Karpathy 也让模型通过代码动态生成一个可交互的《卡坦岛》风格游戏地图。目前,很少有模型能稳定地完成这个任务。结果,只有 Grok 3 (「Think 」)、OpenAI(如 o1-pro,月费$200)可以实现。而DeepSeek-R1、Gemini 2.0 Flash Thinking、Claude 均告失败 。

    谢耳朵玩的就是《卡坦岛》风格游戏。

    除了代码和复杂逻辑推理, Andrzej Karpathy 发现,在数学推理、探索解决黎曼猜想的测试中,Grok 3(「Think 」)也都表现不俗。特别是针对黎曼猜想,Grok 3(和DeepSeek R1 )表现出探索意愿,而其他模型会立即放弃并仅回复「这是未解难题」。一些常见的陷阱题目也难不到它,但要打开「 Think 」。

    Grok 3 知道 strawberry 中有 3 个「 r 」。它还告诉我 LOLLAPALOOZA 中有 4 个「 L 」。

    Grok 3 告诉我 9.11 比 9.9 小。

    DeepSearch 模式,挑战 OpenAI ?还嫩了些

    不过,对标OpenAI「深度研究」的 DeepSearch,它明显不如前者。

    Andrzej Karpathy 的评价是:

    优于 Perplexity 的类似功能,弱于:OpenAI 近期发布的「深度研究」工具。

    作为一个 AI 研究助手,搜索范围要广、尽量全,而且来源是真实、可靠的。如果具有洞察力,那更好。而 AK 发现了幻觉问题,有时会编造根本不存在的网页链接,也会对事实做出错误陈述,数据统计上也存在问题。其他网友也发现了类似问题。

    除了幻觉问题,在信息搜寻力度上,不如 Google Deep Research 全面,分析信息时,洞察力也不如 OpenAI 的 Deep Research ,「还处在早期阶段」。

    例如,谈到软件企业如何应对创新者困境,谷歌的研究助手引用了 80 多个来源,Grok3 最少。

    OpenAI 研究助手也只引用了 29 个来源,但分析洞察能力很强。

    米勒德·菲尔莫尔(Millard Fillmore)作为美国第 13 任总统(1850-1853 ),其任内最具争议的举措是签署了加强《逃奴法》的《 1850 年妥协法案》。

    关于他是否违反宪法的问题,是一个非常复杂的法律问题,但 Grok 3 的研究结论似乎不这么认为。

    而 OpenAI 研究助手明显要审慎多得多。

    始终翻不过的山

    遗憾的是,大模型讲笑话真的很烂,Grok 3的幽默感也没有明显改善。看来,思考推理能力对于幽默来说,更像是砒霜?

    至于伦理问题上,比如为救百万人该不该错误鉴定别人的性别?大模型们仍然不善于应对。要么打太极,而Grok 3 直面难题后,结论又明显功利主义了。

    最离谱的当属 SVG 绘图挑战赛!让 AI 用代码画鹈鹕骑自行车,就像让它闭着眼睛拼乐高——生成的矢量图坐标歪七扭八,活脱脱抽象派赛博艺术。毕竟对 AI 来说,在 2D 网格上布置许多图形元素,就像让盲人指挥交通,结果比毕加索的画还魔幻。

    来源:微信公众号“机器之能”

  • 微软Muse秒生游戏登Nature,10亿级画面练出最强AI,千亿游戏市场重洗牌

    微软Muse秒生游戏登Nature,10亿级画面练出最强AI,千亿游戏市场重洗牌

    一夜之间,游戏产业要变天了!微软公布全球首个世界与人类行动模型,名为Muse,可秒生游戏画面,精准预测玩家操作。未来,游戏开发或将从数月压缩至几分钟,千亿美金游戏市场或被颠覆。

    同一天,微软放出两个核弹,首个拓扑量子芯片,还有首个世界与人类行动模型。

    AI离数秒生成游戏视频的未来,又近了一步。

    今天,微软团队首次引入了「世界与人类行动模型」(WHAM),并冠以希腊艺术女神「缪斯」(Muse)之名。

    它可以生成游戏视觉效果、控制器动作,甚至可以全都要。最新研究登上Nature期刊。

    论文地址:https://www.nature.com/articles/s41586-025-08600-3

    在相同的10帧(1秒)真实游戏玩法的条件下,Muse生成了行为和视觉多样性的样例。

    同时,这也是首个基于Ninja Theory的多人对战游戏Bleeding Edge,超10亿张画面训练的GenAI模型。从单个V100集群,成功scaling到多达100个GPU上完成训练。

    Muse AI强大核心在于,对3D游戏世界的深度理解。

    它不仅仅是一个简单视频生成工具,而是能够精准模拟游戏中物理规则、玩家行为。

    比如,当玩家按下手柄某个按键时,Muse AI可以预测游戏世界动态变化,并生成与之匹配的连贯画面。

    传统上,游戏开发需要数月甚至数年,进行角色设计、动画制作和游戏测试。而如今,Muse能够将这一周期从几个月缩短至几分钟。

    对于游戏开发者来说,它的出现无疑是一场革命,是颠覆千亿游戏产业革命的存在。

    就连马斯克在AI游戏上押下重注,据称其创办AI游戏工作室即将要官宣。

    AI重塑游戏开发,全球30亿玩家狂欢

    Muse AI诞生之前,还有这么一段精彩的故事。

    2022年12月,微软研究院游戏智能团队的负责人Katja Hofmann刚刚结束产假,回到工作岗位。

    她忽然发现,在自己休假这段时间里,机器学习领域发生了翻天覆地的变化——

    OpenAI发布ChatGPT,这一基于Transformer架构的生成模型,展示出令人惊叹的能力,尤其是在处理大量文本数据时。

    这一突破,让Hofmann开始思考,生成式AI的崛起,对于AI与视频游戏的交叉领域意味着什么?

    他们发现,尽管GenAI展现出巨大的潜力,但多项研究表明,其能力往往达不到创意人员的期望值。

    特别是,在3D游戏开发这种高难度复杂领域,LLM的应用还面临着诸多的挑战。

    众所周知,3D游戏开发是一个需要多样化创意技能的过程,会涉及到角色设计、场景构建、剧情编写、互动机制等多个方面。

    在Hofmann看来,丰富且多样化的游戏玩法数据,为进一步创新提供了关键数据。

    这种时间相关、多模态的数据能够探索日益复杂的任务,从而生成更高质量3D世界、与NPC互动和游戏机制。

    更重要的是,游戏产业作为全球娱乐产业最大领域,已经覆盖了超30亿人口。

    GenAI的出现,为世界游戏玩家们,甚至游戏工作室提供了一个绝佳的机会。

    那么,微软团队是如何打造出Muse AI?

    Xbox真人实战,超10亿张图像

    微软的游戏智能团队,拥有非常不同的数据来源。

    多年来,研究团队与Xbox游戏工作室的Ninja Theory(与游戏智能研究团队一样,位于英国剑桥)合作,收集2020年发布的Xbox游戏《Bleeding Edge》的游戏数据。

    《Bleeding Edge》是一款4对4的在线游戏。经玩家同意EULA后,比赛会被记录下来。

    研究团队与Ninja Theory的同事以及微软合规团队密切合作,确保数据的收集符合道德规范,并且仅用于研究目的。

    Bleeding Edge部分游戏角色

    Ninja Theory的技术总监Gavin Costello,见证了相关研究,感到非常高兴:

    在黑客马拉松中,首次将AI集成到《Bleeding Edge》中,而这只是开始:此后,从构建行为更像人类玩家的AI智能体,再到世界和人类行为(WHAM)模型在人类指导下,能够构想出全新的《Bleeding Edge》玩法。

    能见证这项技术的潜力,让人大开眼界。

    Muse训练数据

    当前的Muse模型是在Xbox游戏《Bleeding Edge》的人类游戏玩法数据(视觉和控制器操作)上训练的。

    下图左显示的是训练当前模型的300×180像素分辨率。在超过10亿张图像和控制器操作上,Muse(使用WHAM-1.6B)已经进行了训练,相当于人类连续玩7年多游戏。

    下图右是相关研究团队,一起体验《Bleeding Edge》游戏。

    直到2022年底,游戏智能团队一直将《Bleeding Edge》视为类人导航(human-like navigation)实验平台,还没有真正利用手中大量的人类玩家数据。

    在文本模型的启发下,研究团队开始思考:「如果我们使用基于transformer的模型来训练这些海量的游戏数据,我们能够取得什么样的成果?」

    扩大模型训练

    随着团队开始深入研究,面临的一个关键难题是如何扩大模型训练的规模。

    最初,使用了一个V100集群,并成功验证了如何扩展到在多达100个GPU上进行训练。这为后续在H100上进行更大规模训练奠定了基础。在项目初期,做出了一些关键的设计决策,主要是关于如何充分利用大语言模型(LLM)社区的见解,包括如何有效地表示控制器操作和图像。

    扩大训练规模努力的第一个成果是一个令人印象深刻的演示。

    当时Game Intelligence的研究员Tim Pearce整理了一些训练初期与后期的对比示例。看着这些演示,就像看着模型学习一样。

    这为后续展示这些模型中如何出现缩放法则奠定了基础。

    Muse训练中的一致性

    给模型的提示是:输入1秒的人类游戏玩法(视觉和控制器操作)和9秒的真实控制器操作。

    在这种设定下,Muse如果能够生成与真实情况非常接近的视觉图像,那么它已经捕捉到了游戏动态。

    随着训练的进行,观察到生成的视觉图像质量明显提高。

    在早期训练(10k训练更新)中,看到了初步的成果,但质量迅速下降。

    在100k训练更新后,模型在时间上保持一致,但尚未捕捉到游戏动态中相对不常见的场景,如飞行机制。

    随着额外训练的进行,与真实情况的一致性继续提高。例如,在1M训练更新后,模型学懂了飞行机制。

    真实的人类游戏玩法(左)与Muse生成的视觉图像(使用WHAM-206M)的比较

    跨学科合作:一开始就让用户参与

    很早以前,研究团队就开始探索评估这类模型,比如下列3个项目:

    研究实习生Gunshi Gupta和高级研究科学家Sergio Valcarcel Macua,推动了对线性探测学习到的表征的理解。

    高级研究科学家Raluca Georgescu,负责探索了在线评估的方式。

    研究实习生Tarun Gupta,主导了既有视觉特效又有动作的内容生成的研究。

    但要系统地评估Muse,需要更广泛的见解。更重要的是,需要了解人们如何使用这些模型,以便知道如何评估它们。

    这就是跨学科研究变得至关重要的地方。

    研究团队已经与高级首席研究经理Cecily Morrison和Teachable AI Experiences团队合作了几个月,讨论了这项工作的各个方面。

    在Cecily、设计研究员Linda Wen和首席研究软件工程师Martin Grayson推动下,团队还与游戏创作者合作,调查在创意实践中,游戏创作者希望如何使用GenAI。

    Cecily说:「这是一个很好的机会,在早期阶段就联合起来,让模型满足创作者的需求,而不是试图改造已经开发的技术。」

    关于如何处理这项工作,Linda提供了一些宝贵见解:

    我们已经看到技术驱动的AI创新如何颠覆创意产业——通常让创作者措手不及,让许多人感到被排斥。

    之所以从一开始就邀请游戏创作者,共同塑造这项技术,这就是原因。

    北半球主导了AI创新。认识到这一点,我们还优先考虑招募来自代表性不足的背景和地区的游戏创作者。我们的目标是创造一个惠及所有人的技术——不仅仅是那些已经处于特权地位的人

    WHAM Demonstrator解锁新创意

    现在,随着模型逐渐显现的能力和用户的反馈,是时候将所有部分整合在一起了。

    在微软内部的黑客马拉松中,不同团队共同合作,探索Muse可以解锁的新交互范式和创意应用场景。

    最终,开发了一个原型,命名为WHAM Demonstrator,它允许用户直接与模型进行交互。

    Martin 说:「全球黑客马拉松是一个完美的机会,大家齐聚一堂,构建了了第一个工作原型。我们希望为WHAM模型开发一个界面,这样就能探索它的创意潜力,并开始测试从与游戏开发者的访谈中得到的想法和应用。」

    为了与诸如Muse之类的AI模型进行互动,WHAM Demonstrator提供了与WHAM实例互动的视觉接口。

    用户可以探索新玩法,并进行调整,例如使用游戏控制器来控制角色。 这些功能展示了 Muse 的能力如何在创作过程中支持迭代和调整,帮助用户不断优化和完善游戏体验。

    模型架构与评估

    使用WHAM演示器亲身体验Muse的能力,并从用户研究中获得见解,研究团队系统地确定了在使用像Muse这类生成模型时,游戏创作者所需的关键能力:一致性、多样性和持久性。

    一致性:指的是模型生成游戏玩法时,能够尊重游戏的动态特性。例如,角色的移动与控制器操作一致,不会穿过墙壁,通常反映了游戏底层的物理特性。

    多样性:指的是模型在给定相同的初始提示时,能够生成多种游戏玩法变体的能力。

    持久性:指的是模型能够将用户修改(或「持久」)整合到生成的游戏玩法中的能力,例如将一个角色复制粘贴到游戏中。

    模型架构设计

    建模设计反映了识别出的模型能力,如下图所示。

    一致性:一个顺序模型,能够准确捕捉游戏视觉和控制器操作之间依赖关系。

    多样性:能够生成数据并保留视觉和控制器操作序列条件分布。

    持久性:基于(修改过的)图像和/或控制器操作,通用条件化的预测模型得以实现。

    在全部三个能力中,选择提供可扩展性的组件,这意味着模型应该从大量训练数据和计算资源中受益。

    WHAM设计如图所示,它建立在transformer架构上,作为其序列预测骨干。

    新方法的关键在于将数据框定为离散token序列。

    为了将图像编码为令牌序列,使用VQGAN图像编码器。用于编码每张图像的令牌数量是一个关键的超参数,它在预测图像的质量、生成速度和上下文长度之间进行权衡。

    对于Xbox控制器操作,尽管按钮天生是离散的,将左和右摇杆的x和y坐标离散化为11个桶。然后训练一个仅解码Transformer来预测交织的图像和控制器操作序列中的下一个token。

    然后,该模型可以通过自回归采样下一个token来生成新序列。

    还可以在生成过程中修改令牌,允许对图像和/或操作进行修改。也就是说控制器操作或直接编辑图像本身,可以控制(或提示)生成的能力,这评估持久性的先决条件。

    WHAM架构概览

    一致性

    通过使用真实的游戏玩法和控制器动作来提示模型,并让模型生成游戏视觉效果来评估一致性。此处展示的视频是使用Muse(基于 WHAM-1.6B)生成的,展示了模型生成长达两分钟的一致游戏玩法序列的能力。

    在论文中,还使用FVD(Fréchet Video Distance,视频生成社区中一个既定的指标)将生成的视觉效果与真实的视觉效果进行了比较。

    多样性

    在总共102,400个动作(1,024 条轨迹,每条轨迹100个动作)中,对10,000个人类和模型动作进行子采样,并计算它们之间的距离。

    重复此过程十次,并绘制平均值 ± 1个标准差。越接近人与人之间的基线越好。均匀随机动作的距离为5.3。所有模型都通过训练得到改进,并且可以通过增加动作损失的权重来进一步改进。

    图a:三种WHAM变体的多样性,通过与人类动作的Wasserstein距离来衡量。

    在下图b中,看到行为多样性(玩家角色在生成位置附近盘旋与直接前往 Jumppad)和视觉多样性(玩家角色安装的悬浮滑板具有不同的皮肤)的示例。

    图b:使用相同起始上下文生成的1.6B WHAM的三个生成示例。

    持久性

    下列视频展示了Muse(基于WHAM-1.6B)如何保持修改的一些示例。

    首先,取自原始游戏数据的一张视觉图像,然后将另一个角色的图像编辑到这张图像中。

    生成的游戏序列展示了该角色是如何被融入到生成的游戏序列中的。

    开源资源

    与此同时,为了帮助其他研究人员,研究团队决定将开源 Muse 的权重、样本数据,并提供WHAM Demonstrator可执行文件——这是一个概念原型,提供了一个可视化界面,用于与 WHAM 模型进行交互,并支持多种方式的模型提示。

    项目链接:https://huggingface.co/microsoft/wham

    像Muse这样的模型,能够学习到的游戏世界的丰富结构,更重要的是,新研究还展示了如何通过研究洞察来支持生成性AI模型在创意领域的应用。

    参考资料:

    https://www.nature.com/articles/s41586-025-08600-3

    来源:微信公众号“新智元”

  • 李开复动刀,零一万物又又又分拆了

    李开复动刀,零一万物又又又分拆了

    《智能涌现》从多名独立信源处获悉,李开复创立的AI独角兽零一万物,近日内部发生多处变动:

    • 计划拆分数字人业务,由零一万物数字人业务研发负责人杨昌鹏带队。
    • 零一万物AI视频混剪项目负责人蓝雨川离职创业,新项目SparkView方向为AI视频编辑工具。

    对上述信息,零一万物回复《智能涌现》:零一万物去年有一个多亿的收入,今年会有快速增长。零一万物不仅在不断上线更多的应用发掘价值,这个过程中,零一万物也会根据市场PMF对项目进行快速调整,包括加强投资部分业务、鼓励有商业化潜力的项目进行独立融资,也包括关停部分项目。

    放弃“超大模型”后,零一要靠拆分融资“输血”

    对于零一万物而言,2025年的开端从合作与分拆开始。

    与资源雄厚的巨头合作,是零一万物留在大模型牌桌上的重要一环。继与阿里云联合成立产业大模型联合实验室后,零一万物又将布局大模型的野心放在了苏州,与苏州高新区联合成立的产业大模型基地。

    合作的另一面,是业务分拆。数字人作为首先被分拆的业务,是因为这是当下零一万物变现能力最强的业务之一。

    多位行业人士认为,数字人市场盘子够大,依靠李开复和零一万物联创、销售负责人祁瑞峰的资源积累,拿下签单并不难。

    事实上,“分拆”已经是近两年来,零一万物架构调整的主旋律。2024年,零一万物就在业务分拆上有所动作。

    工商信息显示,2024年9月13日,零一万物就成立了名为“零一绿洲”的子公司,主要业务与AI游戏有关,由零一万物联合创始人、副总裁马杰担任董事长。

    据《智能涌现》了解,将不同业务拆分,独立运营、独立造血,实则是零一万物整合核心预训练团队后的造血策略。

    《智能涌现》曾独家报道,2024年12月中旬,零一万物裁撤了预训练算法团队和Infra团队。2024年12月末,阿里的通义和智能云团队,又分别给预训练算法团队和Infra团队提供了工作offer。

    对此,李开复对《智能涌现》表示,零一万物认为初创公司投入超大模型预训练的性价比太低,公司将转向更轻量化模型的预训练。

    之所以要靠拆分的手段“造血”,有不少业内人士对《智能涌现》就此表示,整合预训练团队的零一万物,已经需要新故事获得融资。

    有关拆分业务的考量,李开复曾回应《智能涌现》:能够更聚焦业务,并且可以分摊中央研发的成本至于业务拆分的标准,则是“先去找投资人聊,看有没有人愿意投”。

    2024年末,六小虎纷纷给自己筹集“过冬钱”:智谱完成30亿元的融资,阶跃星辰完成数亿美元B轮融资。据多名知情人士透露,百川智能和MiniMax除了正在推进融资外,自身还有能够造血的业务,账上还有充足的钱。

    零一万物披露上一轮融资,还是在2024年8月,那是一笔由某国际战投和东南亚财团参与的数亿美元投资,此后便再无公开的融资进展。据《智能涌现》了解,零一万物的融资正在推进。

    早期成员另起炉灶,聚焦AI视频编辑

    近期离职创业的蓝雨川,也是零一万物的早期成员。他最早在零一万物负责大模型API开放平台,而后转去负责PopAi和Mona两款零一万物主力产品的增长,以及零一万物的AI视频混剪项目。

    蓝雨川

    PopAi,是零一万物的出海AI办公应用,而Mona,是一款出海情感陪伴产品。自零一万物成立以来,李开复就多次提到,零一万物的产品策略是海外做To C。

    据《智能涌现》了解,截至2024年上半年,零一万物旗下已经成立了6个To C产品项目组。

    但2024年下半年,除了ROI(投入产出比)接近打正的PopAi,零一万物其余产品都逐渐关停、运维,或者合并。多名零一万物员工告诉《智能涌现》,除了PopAi表现尚可,部分产品的试水都不太成功。

    频繁的调整,让零一万物在2024年下半年经历了一波员工离职潮。

    据了解,2024年8月,PopAi的大部分核心成员选择了离职,包括PopAi早期舵手、零一万物生产力产品负责人曹大鹏。此后,阿里早期的资深算法专家赵斌强(阿里花名:乐田)接任了他的职位。

    一名知情人士告诉《智能涌现》,蓝雨川选择离职,是因为想做不同于零一万物产品的新方向。

    蓝雨川的新项目SparkView,聚焦在一个已经在海外市场被验证的方向:AI视频编辑。据《智能涌现》了解,SparkView也是零一万物内部在2024年下半年立项的产品项目。

    此前,由一位华人工程师创立的AI视频剪辑工具OpusClip,发布7个月就突破了500万的用户量,ARR(年度经常性收入)做到了近1000万美元。

    据接触过蓝雨川的多名投资人表示,SparkView计划先从短视频广告素材切入,做AI Video Agent(AI视频智能体)

    加入零一万物前,蓝雨川曾担任飞书产品解决方案高级总监,也有过创业经历。《智能涌现》获悉,目前SparkView已经开启融资。

    来源:智能涌现

  • DeepSeek被传从外部筹资,相关人士称融资消息均为谣言

    针对“DeepSeek首次考虑进行外部融资”的消息,2月20日,据腾讯科技报道,有DeepSeek相关人士称融资消息均为谣言。

    2月19日晚间,据科技媒体The Information报道,DeepSeek正在考虑首次外部融资。知情人士透露,DeepSeek内部已经开始讨论是否接受外部融资,以获取更多的AI芯片和服务器资源。

    报道指出,中国投资公司和全国社保基金已经与DeepSeek取得联系,希望获得投资。DeepSeek的高管及其母公司幻方量化的高管也正在谈论是否从专注技术研究转向一家能够创造收入并最终获利的商业企业。

    尽管上述人士对此予以否认,但DeepSeek的融资情况备受外界关注。

    这家成立不到两年的公司,由量化资管巨头幻方量化创立,是“杭州六小虎”之一。其凭借DeepSeek-V3、DeepSeek-R1等大模型在性能上的出色表现,在国内外AI领域引发了巨大的冲击波。

    目前,DeepSeek已成为最快突破3000万日活跃用户量的应用程序,用时仅12天,而曾经改写AI历史的ChatGPT,实现这一用户规模耗时11个月。不仅如此,DeepSeek还在140个国家的应用商店排名第一。

    DeepSeek爆火之前,其资金主要来源于幻方量化的内部资源支持,以及政府的科研资助。公司创始人梁文锋此前专注于研究,有报道称其并不认同VC希望尽快实现产品商业化的诉求,所以拒绝了不少投资机构的合作意向。

    百度风投是其中之一,其北京办公室就在DeepSeek楼上。据雷递网消息,对于为何错过了投资DeepSeek,百度风投CEO高雪表示,DeepSeek去年5月入驻融科资讯中心的第一时间,便拜访了其相关负责人。但因为幻方的大模型业务没有拆分独立融资计划,所以和其他VC一样,目前没能有幸成为DeepSeek的投资人。

    市面上也曾传出阿里和国有基金对DeepSeek有投资意向,甚至称阿里计划以100亿美元估值入股10亿美元,占比10%。该消息后被阿里副总裁颜乔否认。

    若DeepSeek开放融资,预计将吸引大量投资机构涌入。对投资人而言,这是近几年少有的投资机遇,也是一大挑战,有着不小的投资门槛。

    彭博社的一份调研显示,DeepSeek的估值区间在10亿美元到1500亿美元之间,波士顿风险投资公司Glasswing Ventures创始人认为其估值最少有10亿美元,而Sweat Free Telecom创始人查纳基亚·拉姆德夫则认为,可能高达1550亿美元。

    作为对比,OpenAI的估值高达3000亿美元,马斯克的xAI估值提升至约750亿美元。