分类: 技术前沿

追踪AI领域的最新技术研究成果、创新算法和应用探索,为技术爱好者和研究人员提供前沿知识和技术参考。

  • Claude 3.7 Sonnet 上线,代码能力碾压全场,顺便安利个新的客户端:Cherry Studio

    Claude 3.7 Sonnet 上线,代码能力碾压全场,顺便安利个新的客户端:Cherry Studio

    Anthropic 昨天深夜发布Claude-3.7-Sonnet,算是Claude-3.5-Sonnet的一个小版本更新,除了模型本身能力增强之外,还支持了深度思考,尤其是代码能力,一骑绝尘。
    图片
    公益车站的小伙伴可以直接体验这个全新模型,拼车用户也可以无缝使用啦!
    AgAABTMfXOmQZqpFiPxHhZtdBXmZU5Ky.png

    🔄 One API 同步支持 Claude-3.7-Sonnet

    我们的 One API 服务也第一时间完成了更新,现已支持 Claude-3.7-Sonnet-20250219 的 API 调用。接入点格式跟之前一样,可以直接在你的代码中调用:

    https://one-api.aiporters.com/v1/chat/completions

    模型参数设置为 claude-3-7-sonnet-20250219 即可,其他参数与 OpenAI 接口保持一致。

    🎭 DeepSeek-R1 免费接力:从腾讯云薅到阿里云

    我们从腾讯云白嫖的 deepseek-r1 于 2 月 25 日到期,但别担心!我已经切换到阿里云提供的 DeepSeek 服务,有 100 万 token 的免费额度供大家继续体验。
    AgAABTMfXOmu6Row-I5NmaDT_7out63E.png
    这次刚好有阿里云接力奏乐,大家可以再舞几天。不过各大厂商都在提供 DeepSeek API 的体验额度,少年前期让大家免费体验 DeepSeek 的使命也算达成了。后续除非有长期稳定的免费渠道我会接进来,否则大家就自行去各大渠道充值就完事了。

    对了,国内用的话比较推荐 硅基流动 和 火山方舟,算力充沛,服务稳定,价格合理。(@硅基流动,火山方舟,打钱)

    🍒 Cherry Studio 客户端推荐

    最近两周我一直在试用一个叫 Cherry Studio 的客户端,体验相当不错,今天特意安利给大家:

    为什么推荐 Cherry Studio?

    ● 小白友好:客户端安装即用,无需复杂配置

    ● 全模型支持:支持所有主流模型供应商,Claude、GPT、Gemini、国内模型一应俱全

    ● 本地知识库:支持本地知识库管理,直接上传文件即可

    ● 联网能力:最新的 1.0 版本支持所有模型的联网能力

    ● 多端同步:配置 WebDAV 后支持多端同步,这里推荐坚果云(@坚果云 打钱)

    ● 自定义 API:支持自定义 API 供应商,比如将我们one api里提供的逆向 api 接上,就可以免费无限使用 o3-mini 了。

    AgAABTMfXOnLco4c25NJurN7eC0IsVws.png

    🎓 从 0 到 1 构建个人 AI 助理

    之所以会推荐 Cherry Studio 客户端,是因为最近受邀在一家头部券商做了一次分享,主题为:如何 0 代码或低代码构建个人 AI 助理 。

    在收集方案的时候接触到了 Cherry Studio 这个很适合小白用户的方案。除此之外,我还系统整理了:

    ● AI 助理基本概念:从模型、API 到 RAG、Agent,一网打尽

    ● 主流产品方案对比:各类工具的优劣分析

    ● 实际案例演示

    ○ 用 Dify 快速发布基于本地知识的聊天机器人

    ○ 用飞书多维表格批量解析候选人简历

    ○ 用 Dify 演示工作流案例:用公众号文章内容生成高质量封面图片

    如果对这些内容感兴趣,可以在公众号后台回复:ai助理

    就能获取此次分享用到的 PPT 和 讲稿内容(竟然有5000字)。

    就这些。

    顺便,为了测试最新的Claue-3.7-Sonnet,本文参考上一篇推文,让它模仿我的风格自动生成,当然为了避免失去灵魂,我做一些微调,取之于AI用之于AI:

    AgAABTMfXOn7AUSU09NHQqYY46kCnDjP.png
    来源:微信公众号“AI 自强少年”
  • 一个浏览器超级助手,自动化搞定所有网页重复活儿,Star 14K!

    一个浏览器超级助手,自动化搞定所有网页重复活儿,Star 14K!

    在我们每天的工作中,不可避免的都要浏览器中处理一些重复又无聊的活,比如在网站上填写相同的信息,或者从网页上复制粘贴数据到表格里,这些活枯燥又费时。再比如,你每天都需要从特定的网页上抓取一些数据,但是手动复制粘贴不仅慢,还容易出错。

    亦或者,每天都需要查看一些固定的网站价格信息,了解竞争对手的报价测试等等。

    这时候,如果有个简单又易用的浏览器自动化工具,能自动识操作浏览,让我们从繁琐的重复工作中解放出来,是不是超级方便?而今天介绍的就是一个这样的浏览器插件-Automa

    01 
    — 
     Automa 介绍 

    一个神奇的浏览器扩展,通过拖拽和连接各种功能块来自动化网页任务,无论是自动填写表单、执行重复性操作、抓取网站数据还是定时执行任务,都能轻松搞定,高效、有趣!

    图片

    🏠  项目信息

    #github地址https://github.com/AutomaApp/automa#项目地址https://www.automa.site/

    图片

    🚀功能特性

    • 零基础操作:用户无需编程知识,通过可视化界面即可轻松上手,适合初学者和非专业人士使用。
    • 低代码设计:提供丰富的预设功能,减少了代码编写的工作量,使得自动化任务的创建变得更加高效。
    • 模块化功能:用户可以像搭积木一样,将不同的功能模块连接起来,构建复杂的自动化流程。这些模块包括点击、表单填写、数据抓取等多种操作。
    • 条件判断与循环操作:增强了任务的灵活性和智能化程度,允许用户根据不同条件做出选择,并重复执行相同的操作。
    • 定时执行:用户可以设置自动化任务的执行时间,实现定时自动化,方便管理日常任务。
    • 跨浏览器支持:不仅支持Chrome浏览器,还兼容Firefox,为用户提供更多选择。
    • 数据抓取与文件处理:能够自动抓取网站数据并保存到本地文件,简化信息收集的过程。

    图片

    02

     Automa 介绍 
    Automa主要为浏览器插件,在Github主页面点击图标即可快速安装。

    图片

    或者直接访问对应的插件地址安装:

    #Firefox浏览器https://addons.mozilla.org/en-US/firefox/addon/automa/

    图片

    #Chrom浏览器https://chromewebstore.google.com/detail/automa/infppggnoaenmfagbfknfkancpbljcca

    图片

    03
     Automa 使用 
    • 创建新的工作流:

    安装完成后,打开Automa,创建一个新的工作流。你可以为工作流命名,例如“自动填写表单”。

    图片

    • 录制或手动创建工作流:

    可以选择录制你的操作来自动创建工作流,或者手动创建。录制操作是创建工作流的最简单方法之一,Automa会记录操作,如点击、输入等。

    图片

    • 编辑设计工作流:

    新建标签页,打开 https://github.com/trending 网页,截图保存本地PC,关闭浏览器。

    图片

     
    • 保存运行工作流:
    右上角保存运行工作流,可以看到详细的运行过程和结果。

    图片

    • Marketplace(应用市场):

    如果觉得编辑麻烦,Automa提供了应用市场,可以选择已有的应用直接导入使用。

    图片

     
    04
     最后 

    综上所述,如果你也厌倦了重复性的网页操作,比如频繁填写表单、监控网站更新、管理社交媒体账号或是进行数据抓取,不放赶紧试试 Automa吧,能够帮你轻松构建工作流,无论是定时发送邮件、比较电商价格、还是自动化网页测试,都能通过简单的拖拽和连接块来实现!

    来源:微信公众号“有趣的开源集市”

  • 一个基于 AI 的浏览器自动化工具,支持 DeepSeek,Star 28K+!

    一个基于 AI 的浏览器自动化工具,支持 DeepSeek,Star 28K+!

    今天介绍的项目核心功能是让AI能够控制浏览器,从而实现自动化操作和任务执行-browser-use
    01 
    — 
     browser-use 介绍 

    一款强大的开源浏览器自动化工具,旨在通过AI代理实现浏览器的自动化操作。它允许用户通过简单的代码或图形界面,让AI控制浏览器完成各种任务,例如浏览网页、交互操作、自动化流程等。支持多种AI模型,特别值得一提的是,Browser-Use还支持DeepSeek模型,用户可以通过简单的自然语言指令,轻松实现浏览器的自动化操作。

    图片

    🏠  项目信息

    #github地址https://github.com/browser-use/browser-use#项目地址https://browser-use.com/

    🚀功能特性

    • 多标签页管理:支持同时管理多个浏览器标签页,这使得在处理复杂任务时(如多任务操作或需要同时打开多个网页的场景)更加高效。

    • 视觉识别与内容提取:能够自动解析网页内容,提取文本、图片等视觉元素以及 HTML 结构,为 AI 代理提供丰富的输入信息。

    • 操作记录与重复执行:可以记录 AI 在浏览器中执行的操作,并能够重复这些操作。

    • 自定义动作支持:除了内置的自动化操作外,开发者还可以注册自定义动作,例如保存文件、推送到数据库、发送通知等。

    • 主流 LLM 模型支持:兼容多种大型语言模型(LLM),包括但不限于 GPT-4、Claude、Llama 以及 DeepSeek。

    • 自我纠正:在处理网页任务时,AI 代理可能会遇到各种预料之外的情况。Browser-Use 提供自我纠正机制,允许 AI 代理在发现错误时重新尝试或调整策略,从而提高任务执行的成功率

    • 并行化多个代理:允许并行运行多个 AI 代理,这些代理可以共享同一个浏览器实例,但每个代理都有自己独立的上下文环境,确保任务之间的独立性,有助于提高任务执行的效率。

    • Web UI 支持: 提供了基于 Web 的用户界面,使得没有编程经验的用户也能通过图形界面与 AI 模型进行交互,完成复杂的网页操作。

    02

     browser-use 安装 

    克隆项目

    git clone https://github.com/browser-use/browser-use.gitcd browser-use

    创建虚拟环境(推荐使用 Python 3.11 或更高版本)

    conda create -n browser-use python=3.12conda activate browser-use

    安装依赖

    pip install browser-use playwrightplaywright install

    测试 UI:如果你想通过图形界面测试 Browser-Use 的功能,可以运行以下代码:

    pip install gradiopython examples/ui/gradio_demo.py

    这将启动一个基于 Gradio 的 Web UI,可以通过浏览器访问并测试不同的任务

    03
     browser-use 使用 

    接入DeepSeek-V3,作为AI引擎,任务是让 AI 代理访问 Reddit,搜索“DeepSeek,点击第一个帖子并返回第一条评论:

    #编辑example.pyfrom langchain_openai import ChatOpenAIfrom browser_use import Agentfrom pydantic import SecretStr
    
    # Initialize the model,兼容OpenAI格式llm=ChatOpenAI(base_url='https://api.deepseek.com/v1', model='deepseek-chat', api_key=SecretStr(api_key))# Create agent with the modelagent = Agent(    task="访问 Reddit,搜索“DeepSeek,点击第一个帖子并返回第一条评论",    llm=llm,    use_vision=False)#编辑.env文件DEEPSEEK_API_KEY="你的DeepSeek APIkey"
    #运行文件python example.py

    DEMO:将杂货添加到购物车中,并结账。

    图片

    DEMO:将我的最新LinkedIn关注者添加到Salesforce中的潜在客户名单里。

    图片

    DEMO: 阅读我的简历,找到机器学习相关的工作岗位,将它们保存到一个文件中,然后在新的标签页中开始申请这些工作。如果你需要帮助,就问我。

    图片

    DEMO:在Google文档中给我的爸爸写一封信,感谢他为我做的一切,并将文档保存为PDF格式。

    图片
     
    04
     最后 

    由此可见,browser-use是一款极具创新性的开源工具,通过AI技术为浏览器操作带来了前所未有的自动化能力,不仅支持多标签页管理、视觉识别与内容提取,还能记录并重复操作,极大地提升了任务执行的效率和灵活性。如果你正在寻找一种高效、灵活且易于上手的浏览器AI自动化解决方案,Browser-Use 值得一试!

    来源:微信公众号“有趣的开源集市”

  • Flutter 使用 Cursor 和 Figma 快速生成界面代码

    Flutter 使用 Cursor 和 Figma 快速生成界面代码

    Flutter 使用 Cursor 和 Figma 快速生成界面代码

    图片

    视频

    https://youtu.be/ODhxdC2KnUg

    https://www.bilibili.com/video/BV1WimRY9E81/

    前言

    原文 如何在Flutter中利用Cursor和Figma高效生成UI代码

    本文介绍如何通过Cursor和Figma工具快速生成Flutter界面代码,提升开发效率,适合Flutter开发者和UI设计师阅读。

    参考

    • cursor 文档
    • Figma to Code (HTML, Tailwind, Flutter, SwiftUI)
    • 猫哥 flutter 核心库 ducafe_ui_core

    步骤

    安装 figma to code 插件

    图片
    Figma to Code (HTML, Tailwind, Flutter, SwiftUI)

    https://www.figma.com/community/plugin/842128343887142055/figma-to-code-html-tailwind-flutter-swiftui

    我的 figma 账号是 free 免费类型,能正常使用这个插件。

    配置 curosr

    • 打开你的业务代码

    我这里是 woo2025 ,当然你的业务代码需要规范整洁,这样才适合 ai 帮你生成靠谱的代码。

    • codebase 建立索引

    之后可以用指令 @cosebase 来询问 ai , 检索整个项目。

    图片
    cursor codebase index
    • compose 面板放在右侧栏

    整理你的打码空间

    图片
    compose ai
    • 加文档库

    之后可以用指令 @doc 来询问 ai ,关于组件的使用帮助,加快执行速度。

    图片
    cursor add doc

    注意这个 prefix ,具体到某个组件页网址,否则 cursor 去 packages 目录搜索了,那就太多了。

    图片
    指定搜索位置
    • 开启长文 AI 聊天
    图片
    长文 AI 聊天

    编写 cursor 规则文档

    doc/widget.md

    请根据以下要求生成一个 Flutter 组件:
    
    - 参考组件文档: 请参考 ducafe_ui_core 的官方文档。
    - 遵循编码习惯: 参考 lib/pages 目录下其他业务界面的编码风格。
    - 数据可复用: 使用成员数组或变量替换字符串、图片和资源,以实现代码复用。
    - 数据管理: 将成员变量和数组放入同级目录的 controller.dart 文件中。
    - 生成测试数据: 创建 20 条测试用数据。
    - 组件宽度: 组件宽度应自适应,避免设置固定宽度。
    - 修改内容: 将生成的内容整合到当前代码文档中。
    - 代码注释: 在代码中添加详细注释,以便后续维护和理解。
    
    

    使用 figma to code 导出代码

    • 启动插件
    图片
    run plugins figma to code
    • 导出 widget 类型代码
    图片
    export flutter code
    • 导出代码清单
    class Group2 extends StatelessWidget {
      @override
      Widget build(BuildContext context) {
        return Column(
          children: [
            Container(
              width: 382,
              height: 680,
              child: Stack(
                children: [
                  Positioned(
                    left: 0,
                    top: 0,
                    child: Container(
                      width: 382,
                      height: 80,
                      child: Row(
                        mainAxisSize: MainAxisSize.min,
                        mainAxisAlignment: MainAxisAlignment.center,
                        crossAxisAlignment: CrossAxisAlignment.center,
                        children: [
                          Container(
                            width: 383,
                            height: 80,
                            child: Stack(
                              children: [
                                Positioned(
                                  left: 95,
                                  top: 19,
                                  child: SizedBox(
                                    width: 225,
                                    height: 44,
                                    child: Text(
                                      'Your order #500158052 is now on the way for delivery. ',
                                      style: TextStyle(
                                        color: Color(0xFF111111),
                                        fontSize: 12,
                                        fontFamily: 'Montserrat',
                                        fontWeight: FontWeight.w400,
                                        height: 0.15,
                                      ),
                                    ),
                                  ),
                                ),
                                Positioned(
                                  left: 329,
                                  top: 22,
                                  child: Text(
                                    '10.44 AM',
                                    style: TextStyle(
                                      color: Color(0xFF727C8E),
                                      fontSize: 12,
                                      fontFamily: 'Montserrat',
                                      fontWeight: FontWeight.w400,
                                      height: 0,
                                    ),
                                  ),
                                ),
                              ],
                            ),
                          ),
                        ],
                      ),
                    ),
                  ),
                  
                  ...... 省去重复代码
              ),
            ),
          ],
        );
      }
    }
    

    导出代码不能直接使用有几个问题:

    • 基于 Stack + Positioned 布局
    • 嵌套层次多
    • 宽高写死,不是响应式
    • 和业务代码差距很大
    • 只能说是对界面 dart 语言描述(原材料)

    使用 cursor compose 生成代码

    我提示词中规定了从 @Codebase 和 规则文件 doc/widget.md 来生成代码,figma 代码贴在上面就行。

    图片
    cursor compose
    • compose 进行微调

    过程详见视频。

    • 输出代码

    compose 会依据我的代码习惯生成代码文件,符合生产需要。

    图片
    输出代码

    运行

    图片

    小结

    本文深入探讨了如何在Flutter中使用Cursor和Figma快速生成界面代码,帮助Flutter开发者和UI设计师提升开发效率。通过结合这两款强大的工具,您可以轻松创建高质量的Flutter界面,缩短开发周期。掌握这些技巧后,您将能够更快地响应项目需求,加快产品迭代。利用Cursor与Figma的强大功能,提升您的Flutter开发体验。

    来源:微信公众号“独立开发者猫哥”

  • 一文看懂 DeepSeek 刚刚开源的 FlashMLA,这些细节值得注意

    一文看懂 DeepSeek 刚刚开源的 FlashMLA,这些细节值得注意

    今天开始,我们正式进入 DeepSeek 开源周。

    DeepSeek 开源项目第一弹 FlashMLA,已经在极短的时间内发酵到全网了,短短几个小时,该项目就已经收获了超过 3.5K Star,且还在不断飙升。

    虽然 FlashMLA 里的每个字母都认识,连在一起就看不懂了。别急,我们整理了一份 FlashMLA 速通指南。

    由 Grok 3 整理,APPSO 核实

    让 H800 性能暴增,FlashMLA 到底什么来头? 

    据官方介绍,FlashMLA 是一个针对 Hopper GPU 优化的高效 MLA(Multi-Head Latent Attention)解码内核,支持变长序列处理,现在已经投入生产使用。

    FlashMLA 通过优化 MLA 解码和分页 KV 缓存,能够提高 LLM(大语言模型)推理效率,尤其是在 H100 / H800 这样的高端 GPU 上发挥出极致性能。

    说人话就是,FlashMLA 是一种专门为 Hopper 高性能 AI 芯片设计的先进技术——一种「多层注意力解码内核」。

    听起来很复杂,但简单来说,它就像是一个超级高效的「翻译器」,能让计算机更快地处理语言信息。 它能让计算机处理各种长度的语言信息,而且速度特别快。

    比如,你在用聊天机器人的时候,它能让你的对话更快地得到回复,而且不会卡顿。 为了提高效率,它主要通过优化一些复杂的计算过程。 这就像是给计算机的「大脑」做了一个升级,让它在处理语言任务时更聪明、更高效。

    DeepSeek 官方特意提到,FlashMLA 的灵感来自 FlashAttention 2&3 和 cutlass 项目。

    FlashAttention 是一种高效的注意力计算方法,专门针对 Transformer 模型(如 GPT、BERT)的自注意力机制进行优化。它的核心目标是减少显存占用并加速计算。cutlass 也是一个优化工具,主要帮助提高计算效率。

    DeepSeek 的爆火出圈很大程度上是因为以低成本创造了高性能模型。

    而这背后的秘籍主要得益于其在模型架构和训练技术上的创新,尤其是混合专家(MoE)和多头潜在注意力(MLA)技术的应用。

    FlashMLA 则是 DeepSeek 公司开发的一种针对多头潜在注意力(MLA)技术的实现和优化版本。 那么问题来了,什么是  MLA( 多头潜在注意力)机制?

    在传统的语言模型里,有一种叫「多头注意力(MHA)」的技术。 它能让计算机更好地理解语言,就像人用眼睛同时关注多个地方一样。

    不过,这种技术有个缺点,就是需要很大的内存来存储信息,就像一个很能装的「仓库」,但仓库太大就会浪费空间。

    MLA 的升级之处在于一种叫「低秩分解」的方法。

    它把那个大仓库压缩成一个小仓库,但功能还是一样好,就像把一个大冰箱换成一个小冰箱,但里面的东西还是能放得下。这样一来,在处理语言任务的时候,不仅节省了空间,速度还更快了。

    不过,虽然 MLA 把仓库压缩了,但它的工作效果和原来一样好,没有打折扣。

    当然,除了 MLA 和 MoE,DeepSeek 还用了其他一些技术来大幅降低了训练和推理成本,包括但不限于低精度训练、无辅助损失的负载均衡策略以及多 Token 预测(MTP)。

    性能数据表明,FlashMLA 在内存和计算限制下的表现远超传统方法,这得益于其线性复杂度的设计和针对 Hopper GPU 的优化。

    与标准多头注意力的对比,更是进一步凸显 FlashMLA 的优势:

    FlashMLA 的主要应用场景包括:

    • 长序列处理:适合处理数千个标记的文本,如文档分析或长对话。
    • 实时应用:如聊天机器人、虚拟助手和实时翻译系统,降低延迟。
    • 资源效率:减少内存和计算需求,便于在边缘设备上部署。

    目前 AI 训练或推理主要依赖英伟达 H100 / H800,但软件生态还在完善。

    由于 FlashMLA 的开源,未来它可以被集成到 vLLM(高效 LLM 推理框架)、Hugging Face Transformers 或 Llama.cpp(轻量级 LLM 推理) 生态中,从而有望让开源大语言模型(如 LLaMA、Mistral、Falcon)运行得更高效。

    同样的资源,能干更多的活,还省钱。

    因为 FlashMLA 拥有更高的计算效率(580 TFLOPS)和更好的内存带宽优化(3000 GB/s),同样的 GPU 资源就可以处理更多请求,从而降低单位推理成本。

    对于 AI 公司或者云计算服务商来说,使用 FlashMLA 也就意味着更低的成本、更快的推理,让更多 AI 公司、学术机构、企业用户直接受益,提高 GPU 资源的利用率。

    此外,研究人员和开发者还可以基于 FlashMLA 做进一步的优化。

    过去,这些高效 AI 推理优化技术通常主要掌握在 OpenAI、英伟达等巨头手里,但现在,随着 FlashMLA 的开源,小型 AI 公司或者独立开发者也能用上, 更多人进入 AI 领域创业,自然也就有望催生更多的 AI 创业项目。

    简言之,如果你是 AI 从业者或者开发者,最近在用 H100 / H800 训练或推理 LLM,那么 FlashMLA 可能会是一个值得关注或研究的项目。

    与春节期间网友扒出 DeepSeek V3 论文具体提到了 PTX 的细节相似,X 网友发现 DeepSeek 发布的 FlashMLA 项目中同样包含了一行内联 PTX 代码。

    PTX 是 CUDA 平台的中间指令集架构,处于高级 GPU 编程语言和低级机器代码之间,通常被视为英伟达的技术护城河之一。

    通过内联 PTX,这使得开发者能够更精细地控制 GPU 的执行流程,从而可能实现更高效的计算性能。

    此外,直接利用英伟达 GPU 的底层功能,而不必完全依赖于 CUDA,也有利于降低英伟达在 GPU 编程领域的技术壁垒优势。

    换句话说,这或许也意味着 DeepSeek 可能在有意绕开英伟达封闭的生态。

    当然,如无意外,根据外媒的爆料,本周接下来预计还有 GPT-4.5、Claude 4 等模型的发布,去年年底没能看到的 AI 大战或将在本周上演。

    看热闹不嫌事大,打起来,打起来。

    官方部署指南 

    FlashMLA 是一种高效的 MLA 解码内核,专为 Hopper GPU 优化,可用于处理变长序列推理。

    当前已发布版本支持:

    • BF16
    • 分页 KV 缓存,块大小为 64

    在 H800 SXM5 上运行 CUDA 12.6,FlashMLA 在受内存带宽限制的配置下可达 3000 GB/s,在受计算能力限制的配置下可达 580 TFLOPS。

    项目配备:

    • Hopper GPU
    • CUDA 12.3 及以上版本
    • PyTorch 2.0 及以上版本

    附上 GitHub 项目地址:https://github.com/deepseek-ai/FlashMLA

    安装

    python setup.py install

    基准

    python tests/test_flash_mla.py

    python tests/test_flash_mla.py 是一个命令行指令,用于运行 Python 测试文件 test_flash_mla.py,通常用于测试 flash_mla 相关的功能或模块。

    用法

    from flash_mla import get_mla_metadata, flash_mla_with_kvcache

    tile_scheduler_metadata, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv)

    for i in range(num_layers):

    o_i, lse_i = flash_mla_with_kvcache(

    q_i, kvcache_i, block_table, cache_seqlens, dv,

    tile_scheduler_metadata, num_splits, causal=True,

    )   …

    来源:微信公众号“APPSO”

  • 500万高薪引才,DeepSeek“破圈”后,量化大厂不再“等”了

    DeepSeek爆火“出圈”已经一个多月了,而这个事件的影响力还在持续发酵。

    一个典型的变化是,部分曾经和梁文锋“摩肩接踵”过的量化大佬们,纷纷开始下场招聘人工智能人才。

    虽然,这个动作远比它们的产品业绩要“低调”,但在市场上开出的筹码已经显示大佬们的决心:

    必须招到人工智能核心人才。

    而且随着金融机构们普遍投身这个领域,AI(人工智能)大模型的相关人才貌似已经成为了这个领域里“有为机构”的标配。

    随着招聘动作的展开,一个开发AI、应用AI的热潮或许正在酝酿

    01 “500万”高薪岗位涌现

    对于量化圈来说,过往的大中型量化私募机构(管理规模超过50亿元),多数把招聘重心放在量化主业身上。

    热门岗位也围绕着投资策略开发展开:量化策略研究人员、系统开发工程师、量化实现工程师、数据专家等都是热门岗位。

    尤其是量化策略研究员,更是直接站在薪酬链条顶端。

    随着DeepSeek热潮开启后,部分机构开始重点“搜罗”人工智能领域的人才。

    第三方招聘平台信息显示:近日有金融高才的猎头人士,发布了特别的量化大厂招聘需求:AI Infra工程师负责人:年薪可达500万上下!

    这是近年来该平台罕见的高薪酬!

    02 工作经验须3年以上

    据悉,该岗位的工作地为:上海,面向相关岗位工作经验3-5年的专业人士。

    岗位薪酬范围非常“吸睛”:月薪10万-20万元的,一年“24薪”。据此推算,年薪范围在240万元-480万元。

    相关猎头人士还透露,上述职位的职责包括:

    负责AI基础设施相关系统架构设计与核心模块开发,进行AI计算框架和AI平台的系统性能与扩展性优化。

    显见得,有机构要高薪招聘人工智能人才“大干一番”。

    03 目标是“挖角”同行?

    来自另一个招聘渠道的信息显示,一家位于北京的一家头部私募机构也曾发布类似的岗位,而且岗位方向注明是训练推理,亦注明需要3-5年的工作经验。

    相关岗位职责包括:

    一,负责深度学习算法框架的架构设计、关键技术研究及研发落地。

    二,结合业务场景来推动算法框架的深度优化,提升框架稳定性、易用性,提高模型训练效率。

    三,促进框架和AI平台的结合。

    该招聘有意思的地方还在于,这家量化私募对工作年限的细节规定非常细致,结合其同样细致的岗位职责要求,最可能的人才来源就是:对AI有更深研究的同行。

    换言之,类似幻方这样在AI有深度积累的机构里的人才,可能更容易受到各方关注。

    04 重在训练大模型?

    难么量化机构大局招聘AI人才的用意何在呢?

    资事堂和业内机构沟通后,提出了几个方面的可能性:

    其一、就是结合功效不断提升的通用大模型,来训练出在投资市场有针对性的专用模型,甚至推动AI参与的量化投资策略。

    其二、在整个投研流程里,深度嵌入“人工智能模型”,以提高整条投研生产链条的产出。

    包括但不限于:利用AI推理技术协助从海量金融数据中挖掘有价值的信息;通过AI推理快速完成风险指标计算,以及利用AI推理生成市场趋势报告和投资建议等。

    前三、在AI大模型领域,有其他更深入的规划。

    而从目前行业推进情况看,人工智能参与的量化策略可能是近期各方关注的焦点。虽然各家机构研发的路径相对分散,且个别策略的收益波动还是比较大。但业内对这方面的投入的态度还是相对鲜明的。

    05 效果仍存争议

    但部分业内机构也表示,在是否重拳出击“AI”大模型方面,大家的意见并不一致。

    一方面,各家机构在量化方面的准备成熟程度不一,量化策略的原理也不尽相同,在既定策略方向上“嵌入”AI的必要性有分歧。

    另一方面,嵌入AI必然涉及持续投入算力集群硬件和人力,所费不赀。在资管市场整体费率有所压缩的当下,是否下决心“All in”各家还是有分歧的。

    其三,就是目前大模型在推理时时常出现“幻觉”(编造结果),这也是非常明显的一个短板。

    当然,业内确实也有中小型机构早早的打出“All in”人工智能的旗号,也获得了一定的场内关注。

    06 实习生待遇“升级”

    不过,眼见得的事实是,随着DeepSeek的风靡,量化人才受到了更多的追捧。

    有关AI的实习生待遇,也出现了提升。

    就在上述提及的平台上,部分量化机构也推出了AI算法实习生的招聘。

    相关岗位为全职类岗位,且岗位的日薪范围为800元-1500元,再度打破了此前日薪1000元的天花板。

    不过岗位的职责要求也较高,包括:利用公司强大的平台资源及系统框架,实践机器学习算法等要求。

    显然,这也是个考较实际产出的高技术岗位。

  • 一文讲透关于DeepSeek的7个核心问题

    一文讲透关于DeepSeek的7个核心问题

    2月10日至11日,巴黎举办了人工智能(AI)行动峰会。《纽约时报》称,与过去一个月的所有AI活动一样,巴黎AI峰会上充满了关于中国人工智能企业深度求索(DeepSeek)的讨论,这家中国公司以其强大的推理模型震惊了世界。据《财经》杂志统计,百余家中国公司已经宣布“接入DeepSeek”,覆盖从芯片、算力服务商到AI用户到最终用户各级生态圈。

    开年复工后的第一次全员周会上,峰瑞科技组的同事们对DeepSeek进行了深入讨论。本文将通过七个关键问题,剖析DeepSeek爆火的原因及其带来的多维度影响:

    DeepSeek为什么这么火?

    DeepSeek真正的技术创新是什么?

    为什么是DeepSeek?

    Scaling law还成立吗?

    DeepSeek给其他模型厂商带来什么影响?

    DeepSeek对硬件生态带来什么影响?

    DeepSeek如何影响应用生态?

    此外,我们还在文末总结了部分与此相关的投资机会。

    在这个AI技术飞速发展的时代,DeepSeek的故事或许只是开始。

    01 DeepSeek为什么这么火?

    第一个问题,我们先来回答DeepSeek到底为什么这么火?

    从我们的观察来看,DeepSeek这一轮的爆火,有20%是得益于技术创新,80%是来自于它从开源生态中获得影响力和背后的中国元素。

    技术上,简单说,DeepSeek用极低的算力成本,实现了比肩全球一线预训练大模型的能力。以及,DeepSeek第一次真正公开了用强化学习(Reinforcement Learning,简称RL)做推理模型的可能路径。强化学习是一种机器学习方法,通过智能体(Agent)与环境(Environment)的交互,学习最佳策略。

    实话说,仅靠这些,DeepSeek可能还不足以引起全球范围内如此强烈的反应。

    更多的影响力其实要归功于这些创新背后的中国元素。某种程度上,由于海内外的信息差,中国团队这一次推出的大语言模型使人们惊讶——中国AI行业的发展情况可能与OpenAI所代表的最先进水平之间,没有想象中差距那么大。但同时,DeepSeek也引发了很多质疑和讨论。当然,这些都是短期影响。

    长期来看,DeepSeek的成功给中国带来了更多进行技术创新的信心,无论是投资人还是创业者,可能都从其中看到了更多的可能性。

    另外,开源这件事情功不可没。DeepSeek作为后来者,不像海外大厂,没有什么包袱,所谓“光脚的不怕穿鞋的”。DeepSeek几乎将其所有研究成果都直接开源,打破了OpenAI o1系列模型的垄断地位,这对整个圈子造成很大的冲击。

    小结

    所以,理性来看DeepSeek出圈这件事,市场情绪因素占大头。 当然,我们也不能否认DeepSeek团队确实在技术上做了很多创新。

    02 DeepSeek真正的技术创新是什么?

    DeepSeek从成立至今,一共发过9篇论文。其实在大模型技术圈子里,大家对DeepSeek的技术实力早有认知。

    DeepSeek技术创新的答案,在2024年底和2025年年初发布的两篇技术报告——《DeepSeek-V3 Technical Report》、《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》,以及它们推出的开源模型之中。

    从目前的观察而言,DeepSeek的技术贡献主要体现在工程上的创新。它没有发明新的范式,但在现有技术的基础上进行了大量优化。

    让我们着重看看让DeepSeek出圈的核心工作:

    一、DeepSeek V2

    2024年5月,DeepSeek发布了V2模型,将API(Application Programming Interface,应用程序编程接口)价格大幅降低,定价为每百万tokens输入1元人民币、输出2元人民币,直接将价格打到GPT-4的1/35。

    DeepSeek掀起了大模型市场的价格革命。据《21世纪经济报》报道,2024年5月,百度旗下文心大模型两款主力模型全面免费。阿里云紧随其后,将通义千问GPT-4级主力模型的API输入价格从0.02元/千tokens降至0.0005元/千tokens,降幅达97%。

    DeepSeek V2的性能已经接近GPT-4,成为性价比极高的选择。可以说,国内其他同行还在努力追赶GPT-4的性能时,DeepSeek已经凭借低价和高性能脱颖而出。

    二、DeepSeek V3

    DeepSeek V3在V2的版本上,进一步强化了降本增效的能力。V3相当于是对标OpenAI GPT4o的预训练大模型,它以极低的算力成本,实现了和其他模型同等甚至表现更好的结果。

    DeepSeek之所以能做到降本增效,可能要归功于团队在工程层面做了大量的工作和创新,比如,在算法软件框架以及配合硬件的实现方面。

    在软件上,核心有两点,一个是MoE(Mixture of Experts,专家混合模型)的专家模型架构,“用空间换时间”。

    2023年,法国AI公司Mistral AI最早大规模开源MoE模型,它曾经推出Mixtral 8x7B模型,采用了8个专家,每次推理时激活其中的2个专家。

    DeepSeek则增加了专家数量,缩小了每个模型的规模。虽然单个专家性能有所下降,但整体性能却因“人多力量大”而提升。

    具体来说,DeepSeek的MoE架构把前向推理网络划分成了1个共享专家以及256个独立专家。模型每次预测的时候,只会激活共享专家以及另外256个专家中的8个专家,大大降低了算力消耗。

    此外,DeepSeek还在训练过程中通过偏离函数,调整专家负载,避免出现“强者越强,弱者越弱”的马太效应。

    虽然MoE架构很有价值,但在不少应用场景里,Dense Model(单一专家模型)也有优势,比如面向B端的专用领域或者端侧小模型。所以,我们也不能完全下定论,认为MoE未来就会“一统江湖”。大家有各自不同的模型架构,选择的应用场景也不同。

    另一点,MLA(Multi-head Latent Attention,多头潜在注意力)是DeepSeek成为“价格屠夫”的核心技术之一,这种方法是“用时间换空间”。

    大模型推理离不开Attention计算,而Attention计算中,KV缓存(Key-Value 缓存)是主要的存储开销。在Transformer模型的自注意力机制中,输入元素会被转换成查询(Query)、键(Key)和值(Value)这三种类型。KV 缓存就是在推理过程中,把先前步骤计算得到的 Key 和Value矩阵缓存起来,避免在生成新token时重复计算整个序列的Key和Value。

    DeepSeek通过矩阵分解的方法,将KV缓存压缩后再投影回高维空间,从而大幅降低了存储开销。这种技术原理简单但非常有效,实现了推理价格骤降。

    MOE和MLA结合在一起,降低了模型对硬件算力和显存带宽的需求,因此,DeepSeek让整体成本下降了一个数量级。

    前面谈到的是软件架构上的创新,那么在硬件架构实现上,DeepSeek V3第一次公开了很多新的工作。比如,用低精度的FP8(即8位浮点数表示法,是一种用于提高计算效率和动态范围的数据格式)做了大量的计算工作。再比如,通过大量PTX(Parallel Thread Execution,是NVIDIA为其GPU设计的一种并行指令集架构)的底层开发能力,“压榨”硬件的性能,来降低计算和通信的开销。

    所以,从DeepSeek V3整体的工作来看,其实没有太多概念创新,大多是站在前人肩膀上,优化了MoE、MLA等已有的方法,但却有极高壁垒的工程创新。

    以及,还有一个问题值得我们思考——V3中的这些工作,是团队主动创新的结果?还是只是硬件资源受限情况下的被动选择?如果能有更多更强的算力资源,这些创新是否还会出现,以及是否还有必要?

    三、R1 Zero和R1

    接下来我们再看看R1 Zero和R1,它们是对标OpenAI o1系列的推理模型。自从o1发布之后,业界和学术界对它的实现方法有很多猜想,甚至还有人说OpenAI团队主动放出了一些不相关或错误的方向来误导大家。

    抛开这些猜测不谈,这次DeepSeek发布了R1,实实在在地通过自己的探索,用强化学习实现了比肩o1的推理大模型,并开源了相关的工作,非常厉害。从我们的观察来看,强化学习是通向AGI的一个递进路径,业界已经在尝试这个方向。

    为什么在当下,大模型们开始“卷”起了推理能力?

    这一趋势的背后,是大模型在开放性问题上难以超越人类的困境。尽管大模型在诸多任务上表现出色,但在需要深度推理和专业知识的复杂问题上,它们仍然面临巨大挑战。

    以GPQADiamond基准数据集为例,该数据集专门用于评估模型在复杂问题上的推理能力和专业知识水平。即使是经过博士学术训练的人类,回答这些问题的准确率大约在65%到70%之间。而目前,大多数大模型在这类问题上的表现,仍远低于人类水平。

    可喜的是,已经有少数领先的大模型,如DeepSeekR1、OpenAI o1,它们在GPQADiamond等难题上的表现,已经超过经过博士学术训练的人类。

    这种进步揭示了行业竞争的焦点正在从单纯的规模扩展转向更深层次的智能优化。推理能力的“内卷”,可能意味着大模型进入了新的发展阶段。

    同样是推理模型,R1 Zero和R1有所区别:

    R1 Zero是更纯粹的RL-based Model,用DeepSeek自己的预训练模型V3,没有经过任何人类知识的调教,直接用一些数学或者代码的这类有明确“ground truth”(真实值,在机器学习和计算机视觉领域,指的是数据集中每个样本的真实标签或结果)的问题,做强化学习,得到了不错的结果。

    R1相比R1 zero,用了更多工程化的方法,也加入了类似模仿学习的SFT(监督微调),进一步提升语言能力和全面性能,用户来说更好友好。

    具体的技术细节和评测结果不详细展开了,强烈建议大家去读《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》这篇论文,写得非常清楚、优美。

    某种程度上,DeepSeek R1也没有发明任何新范式。OpenAI已经给业界指明了方向,一个是用纯粹的强化学习而非人类反馈做后训练,来提升模型推理能力。

    另一个是Test-Time Compute的方法,通过延长推理时间,来提高输出质量。模型不是直接输出结果,而是先推理出中间结果,随着推理时间的增加,最终结果的质量也会提升。这一点在大家用DeepSeek过程中应该都有体会,就是看到的那个中间有点儿自言自语的思考过程。

    因此,DeepSeek核心的贡献是帮助强化学习、Test-Time Comput这两个范式快速出圈。相比其他模型厂商,它手比较快,而且直接把工作开源了。

    但无论是R1中的强化学习框架GRPO,还是上文提到的用很多数学、代码问题来做reward(奖励机制),都是一些相对常用的方法。DeepSeek R1更多还是靠V3的强大能力,能在有限的搜索空间内找到正确答案,从而帮助模型快速迭代和收敛。打个比方,如果基础模型不够好,可能需要从1万个样本中找到1个正确答案;而好的基础模型,则可以在100个样本中找到正确答案,从而大大加快迭代收敛的速度。

    小结

    总的来说,DeepSeek的技术贡献主要体现在工程上的创新。尽管它没有发明新的范式,但在现有技术的基础上进行了大量优化,特别是在强化学习应用于推理模型方面。我们需要以更理性的心态来看待DeepSeek爆火。

    03 为什么是DeepSeek?

    为什么是DeepSeek?

    首先,从整体上看,模型的发展速度虽然很快,但其实AI行业整体的创新速度放缓了,不同团队的认知差异也在缩小,大家能想到的方法正在逐渐收敛。这种现象跟国别无关,是全球学术界和产业界共通的情况。当技术创新变慢的时候,中国团队的工程能力优势就体现出来了。

    第二,我们也不能忽视DeepSeek背后的这家公司——幻方量化,以及其“工程基因”的影响。要做好量化交易,一方面需要有强大的策略,但另一方面,能否以最快的速度执行这些策略可能更为关键。哪怕只是纳秒级别的速度优势,也可能决定你在某次交易中能否赚钱。

    幻方量化的基因使得DeepSeek在底层硬件优化和开发方面拥有丰富经验,从而能够加速算法的执行效率。例如,幻方量化在过去面对复杂的量化交易任务时,可能需要对FPGA(现场可编程门阵列)进行深度定制研发,并在C语言中嵌入汇编语言,以提高硬件调度的效率。

    这些工程经验已经体现在DeepSeek的V3版本中。比如,在优化GPU时,DeepSeek大量使用了在量化中交易中经常用到的底层开发思路,选择“绕过CUDA”,直接使用PTX进行编程,从而进一步提升性能。

    第三点,DeepSeek的商业模式和开源文化,支撑了他们的长期发展。这种长期性能够帮助团队建立研究导向和创新的文化。DeepSeek可能没有短期的营收和商业化压力,反而能吸引更多真正想做事的人才,“做正确而非容易的事情”。

    小结

    DeepSeek的成功源于多方面的优势:在AI行业整体创新放缓的背景下,中国团队的工程能力优势凸显;孵化公司幻方量化在硬件优化和高效执行方面的经验影响了DeepSeek;DeepSeek的商业模式和开源文化,使团队能够专注于技术创新而非短期商业化压力。

    04 Scaling law还成立吗?

    DeepSeek发展到了今天,那么大模型的未来会走向哪里?Scaling Law(缩放定律)还会成立么?

    大模型最开始出现时,其根基就是Scaling Law。Scaling Law描述了随着数据量、计算资源和模型参数的增加,语言模型性能如何显著提升。具体来说,从GPT到GPT-4,研究人员通过增加更多的数据、算力和模型参数,使得模型效果显著提高。这种规律为设计更大规模的模型提供了理论依据,并成为近年来大模型发展的核心驱动力。

    那么,Scaling Law在未来是否仍然成立?我们可以从三个方面来看。

    一、预训练阶段:Scaling Law接近极限

    在预训练阶段,目前业界共识是Scaling Law已经接近极限。主要问题在于缺乏新的高质量数据。在这种情况下,盲目增加模型参数可能导致过拟合,也就是说,模型对于见过的数据表现很好,但泛化能力反而下降,从而影响模型的整体性能。例如,OpenAI在开发GPT-5时遇到的困难,也反映了这一挑战。尽管如此,研究者们仍在努力推进。

    二、后训练阶段:Scaling Law优势显现

    在后训练阶段(post-training),Scaling Law的优势变得更加明显。无论是传统的监督微调(SFT),还是基于人类反馈的强化学习(RL),都能看到这种优势。最新的DeepSeek和其他模型系列已经开始采用基于强化学习的后训练范式,显示出良好的规模效应。

    值得注意的是,在后训练阶段,目前所需的算力还相对较少,平均仅占预训练阶段的1%不到。当然,这一比例正在逐渐增加。据业内人士推测,R1的后训练算力占比已经接近10%。如果能进一步扩大后训练的规模效应,那么模型的整体性能有望得到进一步提升。

    然而,在后训练阶段,大模型仍面临一些挑战,比如,怎么定义reward,这是做好强化学习的关键;以及获取高质量的数据,特别是专业问答和CoT(Chain of Thought,思维链)数据。目前,学术界和产业界正在探索人工标注和合成数据的方法来解决这些问题。

    三、推理阶段:延长推理时间,提升性能

    在推理阶段,Scaling Law同样有所体现,比如在上文提到的Test-Time Compute上。模型的输出过程本质上是一个计算过程。如果允许模型有更长的思考时间,它可以通过反复尝试和自我修正来优化答案。例如,模型可能一开始给出简单的答案,但在中间发现错误并进行调整,最终得出更准确的结果。这种方法能够显著提高模型输出的准确性,也是Scaling Law的一个具体表现。

    小结

    总结来看,Scaling Law仍然成立,只不过应用范式发生了变化,其在后训练和推理阶段依然具有重要意义。

    05 Deepseek给其他模型厂商

    带来什么影响?

    首先,我们需要明确一点:DeepSeek目前主要是一个大语言模型,暂时不具备多模态的能力。在与其他有多模态能力的模型进行比较时,需要考虑到这一点。

    一、对海外大厂的影响

    对于海外的大厂,如OpenAI(GPT-4系列)、Anthropic(Claude 3.5)和Google(Gemini 2.0),这些公司在多模态能力、泛化能力以及工具链开发者生态方面仍然具有显著优势。它们有很多的储备技术,因为战略考虑可能暂时不会都放出来。此外,它们在算力资源上也有明显的优势。

    尽管DeepSeek引起了广泛关注,但我们仍需正视与这些海外一线公司的差距,实现真正的超越还有很长的路要走。

    就在2月18日, 马斯克的xAI 发布了更新版 Grok 3大模型。 在直播的现场演示中,Grok 3在数学、科学和编程基准测试中,击败了包括DeepSeek的V3模型和GPT-4o在内的多个模型。

    二、对国内模型厂商的影响

    在国内市场,DeepSeek对于对面向消费者的(ToC)模型厂商影响较大,对于面向企业的(ToB)模型厂商影响相对较小。

    在ToC领域,部分厂商可能会感受到较大的冲击。这些厂商面临的挑战更多在于开源与商业化的选择:如果保持闭源,是否能达到一线模型水平?如果选择开源,是否会颠覆现有的商业模式?

    不过,我们不能低估国内其他模型厂商团队的技术创新能力。比如Kimi最新发布的K1.5模型在学术界获得了很高的评价,其工程创新也非常值得学习。

    目前来看,ToB的模型厂商也受到了一定的影响。长期来看,企业客户会做出理性决策,但在短期内,可能受市场情绪影响,尝试使用DeepSeek。这有助于教育市场,但长期效果还需观察。

    此外,DeepSeek本身其实也要考虑如何持续“接住泼天的富贵”。未来,DeepSeek是否会通过融资扩大规模,还是继续保持小规模专注于研发?我们拭目以待。

    三、对开源社区的影响

    DeepSeek对开源社区无疑是利好的。DeepSeek爆火,将促使其他开源模型(如Llama)不断创新,而不是固守已有成果。这对整个社区的发展是有益的,同时也促进了闭源厂商的进步。

    四、对小模型公司的影响

    DeepSeek曾在论文中展示了通过大模型的能力蒸馏(distillation)来提升小模型推理能力的可能性,并同步开源了基于通义千问Qwen或Llama的蒸馏模型。这表明,优秀的“老师”模型可以更高效地指导小模型学习。

    这将对自研模型的中小企业产生积极影响。尤其是在端侧部署的应用中,无论是C端还是B端应用,或许能借助这一方法提升性能。

    小结

    整体来看,DeepSeek虽然在多模态等方面有欠缺,但其无疑在推动行业的发展。我们既不能低估国内团队的技术创新能力,也需正视与这些海外一线公司的差距,想要实现真正的超越,我们还有很长的路要走。

    06 DeepSeek对硬件生态带来什么影响?

    接下来,我们讨论一下DeepSeek对硬件生态的影响。在DeepSeek最火的那几天,它对整个美股市场,尤其是英伟达的股价造成了短期冲击。那么,未来DeepSeek是否会挑战英伟达的地位?

    要回答这个问题,我们首先需要了解英伟达的核心壁垒是什么。英伟达的核心壁垒不仅仅在于其单芯片的设计能力,尽管这一点已经非常强大。更重要的是,英伟达通过其芯片互联能力(如InfiniBand、NVLink以及强大的软件生态系统CUDA)形成了一个坚固的生态壁垒。这种生态壁垒是英伟达最核心的能力之一。

    了解了英伟达的核心竞争力后,我们可以分析出DeepSeek对英伟达的影响。首先是正面影响:

    一、DeepSeek的成功教育了市场,增强了人们对AI应用的信心,并吸引了更多的初创企业尝试开发AI应用。

    据业内人士消息,自DeepSeek发布以来,市场上H100和H200等高端GPU的价格有所上涨,这表明更多公司愿意购买这些硬件来开发自己的模型和应用。

    二、推动通用GPU的需求。DeepSeek这样的厂商,持续在模型架构方面进行创新,这对英伟达这样的通用GPU制造商是有利的。因为通用GPU更适合用来尝试新的方案和架构,而一些专用芯片可能没那么适合。

    然而,DeepSeek也给英伟达带来了一些负面影响,比如英伟达的市场定价策略可能会受到冲击。

    原因在于,首先,DeepSeek采用的Mixture of Experts (MoE) 架构显著降低了对芯片间互联能力的要求,从而减少了对高端互连技术的依赖。如果越来越多的模型厂商开始采用MoE或其他类似的架构,将会带来新的硬件机会。

    其次,DeepSeek提供了潜在“绕过”CUDA的可能性。DeepSeek提出了适配其模型的硬件架构设计需求,暗示着未来“绕过”英伟达的CUDA生态系统的可能性。

    同时,国产芯片对DeepSeek模型的快速适配,也反映了中国硬件行业的潜力。但需要注意的是,DeepSeek团队并没有直接绕开英伟达。DeepSeek使用了比CUDA更底层的编程语言PTX,以便于更好地发挥出硬件性能,而PTX是英伟达的核心技术。

    DeepSeek是否推动了除英伟达以外的AI芯片行业的创新机会?这也是我们非常关注的一个热点方向。

    短期来看,DeepSeek确实带动了许多低性能卡的应用,包括一些国产卡。只要企业具备足够的工程优化能力,这些卡就能够被用起来,我们也能实现软硬件闭环式的自主创新。

    长期来看,AI芯片行业无疑存在新的机会。除了近期备受关注的新硬件架构(如3D堆叠、大规模互联技术和高显存设计)外,编译和软件生态的建设也至关重要。正如我们在讨论英伟达壁垒时所提到的,仅有单芯片能力和互联能力是不够的,整个软件生态系统才是决定其长期成功的关键因素。

    小结

    总的来说,DeepSeek一方面对英伟达带来了挑战,另一方面,也为整个AI芯片行业带来了新的机遇和发展方向。对于行业参与者来说,如何适应这种变化并找到适合自己的发展路径,将是未来需要重点考虑的问题。

    07 DeepSeek如何影响应用生态?

    我们再来讨论DeepSeek对整个应用生态的影响,可以从三个方面来看:

    一、提供了低成本方案,完成了市场教育

    首先,DeepSeek提供了一种非常低成本的方案,这显然能够为应用(无论是ToC还是ToB)带来更高的投入产出比,并助推更多的行业应用落地。

    在短短几周内,DeepSeek完成了全市场的教育,使政府、企业高层管理人员以及普通用户都开始使用相关的大模型。甚至我们的父母都开始用起了大模型。

    然而,在短期内,市场可能会存在高估的情况。尤其是在B端,实际落地效果可能会与预期有所偏差。从我们问到的几家企业的反馈来看,客户的呼声很高,但实际测试结果显示,DeepSeek在某些任务上的表现,可能并没有外界传闻的那么领先。

    二、验证了大模型蒸馏小模型的可行性

    其次,DeepSeek R1验证了大模型蒸馏小模型是可行的,这对于端侧模型部署和应用有很大推动作用。无论是在PC、手机还是其他智能硬件上,部署成本的大幅降低,将推动更多新应用落地。这对于我们投资在端侧部署的应用有重要意义。

    三、助推强化学习这种计算范式

    从更长期一些来看,DeepSeek影响了强化学习这一计算范式。R1已经验证了这种范式,真正公开了用强化学习来做推理模型的这个可能的路径。

    但目前,强化学习的应用范围主要局限在数学或代码等相对客观的领域。未来,这种计算范式是否能够扩展到物理世界,并解决更多现实世界的推理问题,以及如何应用于AI agent和具身智能,是非常令人兴奋且值得探讨的方向。

    小结

    通过对以上七个问题的探讨,我们可以看到,DeepSeek对AI芯片行业和应用生态产生了深远的影响。

    毫无疑问,DeepSeek的贡献令人敬佩。但当前市场是否明显过热?或许对于投资人、创业者以及使用大模型的朋友来说,我们不妨让子弹再飞一会儿,冷静观察一段时间。与此同时,我们期待中国市场能诞生更多像DeepSeek这样的原始创新成果。

    08 投资机会

    一、大模型竞争进入下半场

    大模型的竞争已进入下半场。

    在丰叔看来,大模型下一步会向轻量化、垂直化、端侧化这三个方向发展。轻量化意味着模型和硬件成本需要收敛,不然能用得起的人有限。垂直化则意味着模型需要在特定能力上收敛,而不是指望一个超大模型解决所有问题。端侧化是指模型必须放到手机、手表、耳机等终端设备上,才能真正实现技术的普及。

    随着下游应用逐步实现规模化落地,模型训练、微调和推理效率成为行业关注的焦点。

    以DeepSeek为代表的创新实践表明,强化学习和长文本生成能力有助于提高大模型输出质量、提升小模型性能。尽管MOE架构增加了软件系统的复杂性,但它显著优化了硬件带宽需求,降低了硬件门槛,使得成本更低的硬件也能高效运行模型。

    未来,随着模型能力的进一步提升和总成本的持续下降,AI普惠将成为下一阶段的核心目标。技术的普及将推动大模型在更广泛的应用场景中落地,创造更多商业与社会价值。

    二、人机交互发生变化,AI落地的应用临界点似乎已经到来

    当下,人与信息、人与机器的交互方式正在发生深刻变化。这种变化将催生新的信息分发渠道和流量入口,推动用户界面和服务形式的创新。另一方面,随着人工智能能力的不断增强以及成本的降低,许多行业都在积极探索AI技术的应用落地。

    在这样的背景下,我们应当关注一些在传统软件时代难以实现的“新物种”,例如:

    跨领域结合的软件或Agent:通过软件与硬件的深度融合,Agent能够实现更强的独立性和更丰富的功能,从而为用户提供更高效、更智能的服务。

    新形态的个人交互终端:随着数字化的进一步普及和多模态技术进步,AI有望接入更多数据,成为人类的“外脑”,帮助我们处理记忆、理解甚至是决策等任务。

    新型人力服务外包:将软件能力转化为服务形式进行外包,提供更具创新性和灵活性的新型外包服务,满足不同行业的需求。

    未被软件化的行业:这些领域中蕴含着丰富的AI落地机会,值得我们深入挖掘和探索。

    展望未来,随着供应链能力的不断提升,中国的AI技术有望进一步拓展海外市场,实现全球化布局。

  • 1个顶5个!机器人开始抢饮品打工人的活儿了

    1个顶5个!机器人开始抢饮品打工人的活儿了

    还记得在春晚扭秧歌的机器人吗?它们在全国甚至全世界观众面前大出风头。

    但你可能不知道,机器人早已入侵饮品业,干起茶饮店员和咖啡师的活儿,甚至“一个机器人就能开一家店”。

    AI时代,机器人要取代饮品打工人了?

    做冰淇淋、做咖啡

    机器人正在抢饮品店员的活

    今年春晚捧红了“机器人”。    迈着小碎步,灵活地转手绢,跟着音乐扭秧歌,引发全民热议。

    最近,春晚“顶流”机器人火到饮品行业,    “机器人做冰淇淋/奶茶/咖啡”等视频正在网络走红。

    在一条“机器人做冰淇淋”的热门视频中,一个机器人手臂捏着蛋筒,准确地放在冰淇淋机下,有节奏地小幅度扭动几下,一个形状完美的冰淇淋便做好了,并“贴心”地递到顾客面前。

    春晚机器人和网友分享的“机器人做冰淇淋”

    该视频收获9000多点赞,网友表示“它扭得那几下,我一辈子都学不会”,甚至连海底捞国际版账号也留言发问“可以来捞面吗?”

    事实上,机器人“入侵”饮品行业已经有一段时间了 ,与上春晚的人形机器人不同,它们大多是“自动化饮品设备+机械臂”的形态,代替店员制作饮品:

    • 库迪旗下茶饮品牌茶猫开业时,一度将“机器人做奶茶”作为宣传卖点;
    • 去年,北京地铁19号线就出现许多机器人奶茶亭;
    • 哈工大食堂、西安、南昌等地的博物馆和科技馆,都有机器人做咖啡;
    • 深圳、合肥、北京等地的独立咖啡馆,引入机器人拉花、做手冲咖啡
    • ……

    机器人的应用热潮更是催生出许多主打“智能化”的饮品品牌,比如freshcube鲜饮站、HOOLOO呼噜咖啡、茉茶理等。

    HOOLOO呼噜咖啡

    当机器人开始做饮品,会对从业者带来什么影响?

    一个机器人  ,就能开一家店?

    饮品机器人有多智能?目前行业应用到什么程度了?

    我联系睿尔曼智能科技有限公司进行了解,这是一家专注于超轻量仿人机械臂研发生产的高新技术企业,在打造智能通用机器人方面经验丰富。

    其新餐饮事业部销售总监张悫告诉我,目前国内用于服务饮品行业的机器人技术较为成熟,产品形态主要有两种:

    一种是“开放式”,将机械臂设计与饮品店吧台融为一体;另一种“封闭式”,即“机器人饮品亭/站”,实现“一个机器人就能开一家店”。

    后者相对主流。以机器人咖啡站为例,通过集成方式联结一台全自动咖啡机、1或2条机械臂、落杯器、制冰机、粉料机、水箱、奶箱等模块,    占地三四平米左右,从点单到出餐全流程智能化。

    楷这样一家店,相当于代替一家传统饮品店四到五人的配置。

    一般来说,系统会提供十几种咖啡选项。顾客在点餐屏下单后,落杯器自动脱落一个纸杯,机械臂将其拿到全自动咖啡机下,按照设定程序萃取咖啡液,加牛奶等物料。

    做好之后,盖盖将咖啡放到指定位置,通过窗口“推送”到顾客面前,机器人还会发出“饮品已做好,请取餐”的语音提示。

    一杯出品时间在1分半以内,如果是美式或操作更简单的饮品,用时更少。

    机器的电子屏动态展示品牌宣传内容、咖啡豆产地信息以及当前制作状态等。不少顾客表示,    制作过程有一定视觉吸引力    ,等待期间不无聊。

    机器人还具备    智能统筹能力    ,遇到连续出杯的情况,会一边接牛奶,一边准备下一杯的咖啡液或冰块,提高效率。

    有的机器人    还有“打标签”功能    ,可为饮品贴标签,应对多杯和线上点单场景。

    咖啡店的一些常见问题,机器人也能“从容”应对。比如某杯制作时出现瑕疵,    机器人会自动倒进垃圾桶,重做一杯。

    如果设备故障导致机器人无法正常工作,工程师可以远程操作修复,顾客也可以拨打电话联系退款。

    机器人能做得越多,人要做得越少。

    “只需营业前添加物料、开机,营业结束后清洗、关机即可。”张悫说。

    经营者可在后台实时监控,比如做了多少杯、是否有异常、物料是否充足等,不在店也能“管好生意”。

    与常规门店相比,机器人咖啡亭对选址要求不高,保持通电即可正常运行。一次装满物料,可出100~150杯。

    由于“开店”相对灵活,一定程度上可以解决淡旺季的问题。

    “平时可以放在学校,假期挪到商场、景区等客流量高的地方。”    张悫说,尤其是景区、博物馆等地的顾客对效率要求不那么高,而且机器人做咖啡自带噱头和打卡属性,往往很受欢迎。

    我还了解到,许多城市已经为包括机器人饮品站在内的全自动设备现制现售饮品企业,办理了食品经营许可证。 “北京、深圳等一线城市普及度较高。”

    机器人会取代饮品店打工人吗?

    近年来,各大连锁门店相继用上了全自动泡茶机、奶茶机,明显感觉到,饮品行业的智能化进程加速。

    从操作上来说,机器人已经替代部分人力。甚至相比开一家传统奶茶店需要五名员工,一个机器人就能开一家店,那么未来饮品店员会被取代吗?

    多位业内人士持保留意见。

    店员正在使用佳泽泡茶机制茶

    首先,成本是最关键的因素。

    我了解到,机器人机械臂每条至少两三万,为了保证饮品的多样性和稳定性,往往需配套价格不菲的进口咖啡机,整体“开店”价格在15~35万之间。

    “造价高,长期的维修成本也要考虑,整体拉高了使用门槛”,成都Auncel Coffee称咖啡的主理人蔡元凯说。

    其次,现制饮品的丰富程度和更新频率,让机器人“有心无力”。

    “机器人生产商的技术创新往往集中于硬件和软件,产品研发属食品专业人员的工作范畴。”张悫说,“未来或催生一批专门负责机器人食品研发的工程师,但目前还未形成气候。”

    哪怕是机器人最擅长的流程化操作,实际落地过程中也面临诸多挑战。

    “流水线”咖啡

    “做一杯饮品看起来简单,其实流程非常繁杂,比如奶茶仅备料这件事机器人就操作不了。如果无法完全脱离人工,就没有太大的意义。”蔡元凯说。

    “ 由于没有后厨,出品多,补料会很麻烦;出品少,投入和回报不成正比。”某设备供应商说。

    最后,消费者是否愿意持续为机器人饮品买单,目前存疑。

    消费者可能会为了噱头尝鲜,但长期看来,“一杯机器做的饮品,如果价格不占优势,相比即饮咖啡或者动辄9块9的现制咖啡,仍缺乏一定竞争力。”蔡元凯说。

    他还提到,现制饮品的顾客喜好千人千面,至少目前的机器人无法精准满足客制化需求。

    最根本的是,消费者对于一杯饮品的需求,也绝不仅仅是饮品而已,与店员的互动、手作的价值感等都是不可或缺的消费体验。

    基于这些,包括张悫在内的多位业内外人士认为,机器人的最佳角色是“人机协作”提高效率 ,比如代替店员处理水果,协助咖啡师手冲、出杯,而非取代人力。

    尽管机器人在短期内很难代替打工人,但其所代表的“智能化”趋势依然值得关注。

    蔡元凯说:“行业对于智能化设备有持续需求,供人使用的高效、简单的新型高科技设备是长期发展方向。”

    结语

    人类面对新质生产力时,总会无法抑制地对自身存在产生忧虑。

    但就像DeepSeek所说,AI不会取代人类,就像望远镜不会取代天文学家。

    AI时代到来,给饮品人带来的真正危机是,如何在效率和服务之间做好平衡,让每一杯饮品在流水线的速度中,依然流淌着手作的温度。

  • Perplexity免费推出Deep Research:性能超过R1、o3-mini等,CEO:感谢DeepSeek

    Perplexity免费推出Deep Research:性能超过R1、o3-mini等,CEO:感谢DeepSeek

    AI搜索“老大哥”Perplexity,刚刚也推出了自家的Deep Research——

    随便给个话题,就能生成有深度的研究报告。

    先来划个重点:免费向所有人开放!

    具体来说,非订阅用户每天最多可查询5次,Pro用户每天可查询500次。

    然后啊,效果是酱紫的。

    例如给出一个问题:

    What should I know before the market opens?开市前我该知道些什么?

    在Deep Research加持下的Perplexity先是会查找海量的资料

    接下来是推理过程,用Perplexity的话来说就是专家级别的分析

    对原始材料进行充分评估之后,Perplexity就会将所有研究综合成一份清晰而全面的报告

    最后,你还可以把Perplexity写好的专业报告一键导出,格式包括PDF、Markdown和Perplexity Page:

    性能方面,Perplexity官方也给出了他们的测试结果。

    他们采用的基准,是最近考验AI推理能力大火的Humanity’s Last Exam(人类的最后考试),准确率达到了20.5%

    (注:“人类的最后考试”涵盖100多个科目、包含3000多个问题,涉及数学、科学、历史和文学等领域。)

    从成绩上来看,是优于Gemini Thinking、o3-mini、o1、DeepSeek-R1和其他许多主流模型。

    在另一项SimpleQA(一个包含数千个测试事实性的问题库)的测试中,Perplexity Deep Research的表现更是明显远超领先模型,达到了93.9%的准确率。

    更重要的一点是,Perplexity的Deep Research有够快——平均在3分钟内可以完成大多数研究任务。

    对此,Perplexity的CEO(Aravind Srinivas)公开致谢DeepSeek

    这是因为DeepSeek是开源的,又便宜又快。

    其实在10天前的一条推文中,Aravind Srinivas其实已经有所剧透:

    在推文下方的评论中,我们也看到了不少关于DeepSeek的身影:

    不得不说,DeepSeek的含金量还在上升

    实测Perplexity的Deep Research

    Perplexity新功能的操作方式也是极其简单。

    只需在搜索框下方的选项中pick一下Deep Research即可:

    从官方展示的案例来看,Deep Research擅长在金融、市场营销和技术等领域的深度研究,并且在健康、产品研究和旅行计划等领域作为个人顾问同样有用。

    例如在默认搜索和Deep Research下,同时问:

    What’s the best strategy for advertising at the Super Bowl? Analyze the ROI of each major advertiser at the 2025 Super Bowl. Which brands were the biggest winners and losers? What ad techniques were most and least effective? If I wanted to advertise at the 2026 Super Bowl, what should I do to maximize success?在超级碗(Super Bowl)投放广告的最佳策略是什么?分析2025年超级碗上每个主要广告商的投资回报率(ROI)。哪些品牌是最大的赢家和输家?哪些广告技巧最有效和最无效?如果我想在2026年超级碗上投放广告,我该怎么做才能最大限度地取得成功?

    可以看到,Deep Research给出的答案更像是一个专业的报告

    先是以类似论文“摘要”的形式,把问题的核心亮点全部提炼、总结出来,然后再撰写并展开包括Introduction在内的更多内容。

    同样的,让Deep Research完成撰写“黄仁勋传记”,从输出内容和格式来看,是更加清晰且一目了然:

    现在,也有很多网友开始在网上po出自己实测的效果。

    例如让Perplexity做下面这个任务:

    compile a research report on how has retail industry changed in the last 3 years.编写一份关于过去3年零售业变化的研究报告。

    然后这位网友还总结了一下Deep Research和普通AI搜索功能的区别:

    普通搜索为简单的查询提供快速的、表面的信息。它适用于查找基本事实或获得简短的摘要。另一方面,Deep Research是为需要深入分析的复杂、多层次的查询而设计的。

    正常的搜索通常会在几秒钟内产生结果。Deep Research是一个更耗时的过程,需要5到30分钟才能完成。

    但,好多“Deep Research”啊

    除了效果之外,对于Perplexity发布的Deep Research,网友们还有另外一个热议的焦点——名字

    例如有网友就直接提出了自己的困惑:

    Deep Research是你们能想到的唯一的名字了吗?

    其实这也不怪网友们提出这样的质疑。

    因为……现在有太多叫Deep Research的产品了……

    2024年12月,谷歌发布Deep Research

    2025年2月,OpenAI发布Deep Research

    2025年2月,Perplexity发布Deep Research

    AI的问题,我们就让AI来回答。

    Perplexity在回答中总结出了一个表格:

    CEO对此也给出了自己的答案,一言蔽之,就是“快好省”,不过他顺便还阴阳了一波OpenAI:

    我们每月不用200美元。

    最后,CEO还预告了一则消息,下周Perplexity还有一个很cool的东西要发布。