分类: AI产品

介绍和评测各类AI产品,包括智能硬件、软件应用、开发平台等,展示产品的功能、性能和应用场景,帮助用户选择合适的产品。

  • Perplexity免费推出Deep Research:性能超过R1、o3-mini等,CEO:感谢DeepSeek

    Perplexity免费推出Deep Research:性能超过R1、o3-mini等,CEO:感谢DeepSeek

    AI搜索“老大哥”Perplexity,刚刚也推出了自家的Deep Research——

    随便给个话题,就能生成有深度的研究报告。

    先来划个重点:免费向所有人开放!

    具体来说,非订阅用户每天最多可查询5次,Pro用户每天可查询500次。

    然后啊,效果是酱紫的。

    例如给出一个问题:

    What should I know before the market opens?开市前我该知道些什么?

    在Deep Research加持下的Perplexity先是会查找海量的资料

    接下来是推理过程,用Perplexity的话来说就是专家级别的分析

    对原始材料进行充分评估之后,Perplexity就会将所有研究综合成一份清晰而全面的报告

    最后,你还可以把Perplexity写好的专业报告一键导出,格式包括PDF、Markdown和Perplexity Page:

    性能方面,Perplexity官方也给出了他们的测试结果。

    他们采用的基准,是最近考验AI推理能力大火的Humanity’s Last Exam(人类的最后考试),准确率达到了20.5%

    (注:“人类的最后考试”涵盖100多个科目、包含3000多个问题,涉及数学、科学、历史和文学等领域。)

    从成绩上来看,是优于Gemini Thinking、o3-mini、o1、DeepSeek-R1和其他许多主流模型。

    在另一项SimpleQA(一个包含数千个测试事实性的问题库)的测试中,Perplexity Deep Research的表现更是明显远超领先模型,达到了93.9%的准确率。

    更重要的一点是,Perplexity的Deep Research有够快——平均在3分钟内可以完成大多数研究任务。

    对此,Perplexity的CEO(Aravind Srinivas)公开致谢DeepSeek

    这是因为DeepSeek是开源的,又便宜又快。

    其实在10天前的一条推文中,Aravind Srinivas其实已经有所剧透:

    在推文下方的评论中,我们也看到了不少关于DeepSeek的身影:

    不得不说,DeepSeek的含金量还在上升

    实测Perplexity的Deep Research

    Perplexity新功能的操作方式也是极其简单。

    只需在搜索框下方的选项中pick一下Deep Research即可:

    从官方展示的案例来看,Deep Research擅长在金融、市场营销和技术等领域的深度研究,并且在健康、产品研究和旅行计划等领域作为个人顾问同样有用。

    例如在默认搜索和Deep Research下,同时问:

    What’s the best strategy for advertising at the Super Bowl? Analyze the ROI of each major advertiser at the 2025 Super Bowl. Which brands were the biggest winners and losers? What ad techniques were most and least effective? If I wanted to advertise at the 2026 Super Bowl, what should I do to maximize success?在超级碗(Super Bowl)投放广告的最佳策略是什么?分析2025年超级碗上每个主要广告商的投资回报率(ROI)。哪些品牌是最大的赢家和输家?哪些广告技巧最有效和最无效?如果我想在2026年超级碗上投放广告,我该怎么做才能最大限度地取得成功?

    可以看到,Deep Research给出的答案更像是一个专业的报告

    先是以类似论文“摘要”的形式,把问题的核心亮点全部提炼、总结出来,然后再撰写并展开包括Introduction在内的更多内容。

    同样的,让Deep Research完成撰写“黄仁勋传记”,从输出内容和格式来看,是更加清晰且一目了然:

    现在,也有很多网友开始在网上po出自己实测的效果。

    例如让Perplexity做下面这个任务:

    compile a research report on how has retail industry changed in the last 3 years.编写一份关于过去3年零售业变化的研究报告。

    然后这位网友还总结了一下Deep Research和普通AI搜索功能的区别:

    普通搜索为简单的查询提供快速的、表面的信息。它适用于查找基本事实或获得简短的摘要。另一方面,Deep Research是为需要深入分析的复杂、多层次的查询而设计的。

    正常的搜索通常会在几秒钟内产生结果。Deep Research是一个更耗时的过程,需要5到30分钟才能完成。

    但,好多“Deep Research”啊

    除了效果之外,对于Perplexity发布的Deep Research,网友们还有另外一个热议的焦点——名字

    例如有网友就直接提出了自己的困惑:

    Deep Research是你们能想到的唯一的名字了吗?

    其实这也不怪网友们提出这样的质疑。

    因为……现在有太多叫Deep Research的产品了……

    2024年12月,谷歌发布Deep Research

    2025年2月,OpenAI发布Deep Research

    2025年2月,Perplexity发布Deep Research

    AI的问题,我们就让AI来回答。

    Perplexity在回答中总结出了一个表格:

    CEO对此也给出了自己的答案,一言蔽之,就是“快好省”,不过他顺便还阴阳了一波OpenAI:

    我们每月不用200美元。

    最后,CEO还预告了一则消息,下周Perplexity还有一个很cool的东西要发布。

  • 他用AI做了一个维基百科「抖音」版,学知识比刷短视频还上瘾

    他用AI做了一个维基百科「抖音」版,学知识比刷短视频还上瘾

    如何克服狂刷短视频带来的时间黑洞?屏幕健康、数字极简都太好用。如今,出现了一个新应用,想用魔法打败魔法:不是爱刷下一条吗?让你刷个够。

    近日,某位外国网友,就用 AI 制作了一个应用,让你能用刷抖音的方式刷维基百科词条,所以这应用就叫:

    「WikiTok」

    随机出现的维基百科页面|图片来源:WikiTok

    不要以为维基百科枯燥,许多人都曾有「本来只是查个小知识点,结果一不小心深陷维基百科网,在无穷无尽的链接里跳转」的经历。甚至维基百科社群里就有个专门词,称这些用户是:

    Wikiholic(维基成瘾者)

    所以我兴致勃勃点进 WikiTok,感受了一场寓教于乐的「信息成瘾」。

    01 拒绝算法,套壳但不够 Tok

    WikiTok 就是个网页应用,页面极其简单,一个随机维基百科词条,下滑就刷出另一条词条,点击页面上的❤️收藏,点「阅读更多」会跳转到维基百科官方页面,条目之间完全随机,没有任何算法推荐机制。

    WikiTok 的目的就是让用户随机获得一些有趣的信息,增长见闻,在无聊时,用「短信息」去代替短视频打发时间。ArsTechnica 报道称这种方式「你永远无法预测下一个跳转会带你去哪里,这种未知感令人兴奋。」

    个人体验是,30 条里能刷出 1 条感兴趣的|图源:WikTok

    然而,在抱着这种期待体验后,我不仅对 WikTok 毫不成瘾,反而觉得有点浪费时间,还不如刷会儿抖音(不是)。问题就出在 0 算法,太随机。

    WikiTok 的开发者 Gemal 坚决抵制兴趣算法,他表示「很多人给我发消息,甚至在 GitHub 上评论,想让 WikiTok 加入算法。我不得不说,我们日常生活里已经被无情且不透明的算法所统治,为什么不能在世界上有一个小角落,没有任何算法?」

    开发者的想法很理想,但体验很糟糕。

    我不得不下滑数十次,才能看到一个有点点感兴趣的词条,随机推送的机制,就相当于我在总计超过 6400 万个维基百科条目里开盲盒,我原本想在知识的海洋里遨游,但实际上是在大海捞针

    刷了半个小时就刷到四条略微感兴趣的条目|图源:WikiTok

    想象一下加入了算法推荐的 WikiTok 多么有趣。

    比如我最近沉迷中世纪背景的游戏《天国拯救 2》,对中欧中世纪的历史风俗非常感兴趣,游戏里也提供了大量维基词条去科普。所以当我在 WikiTok 上刷到「锁子甲」、「城堡」、「波西米亚战争」等词条时,简单阅读后果断点了「❤️」。

    而后 WikiTok 会给我推荐越来越多的中世纪相关词条,我不需要准备三个小时读完「中世纪」这一维基百科词条。而是在各种碎片时间里打开 WikiTok,就能快速了解一个我感兴趣领域的小知识。

    然而实际上,我在 WikiTok 上刷了接近五十个词条,才刷到一条「锁子甲」,而后类似词条再也没出现过,点了 ❤️也只是把「锁子甲」收藏后待日后翻阅。

    目前 WikiTok 就只是一个浏览界面,它忽略了一个问题:TikTok 的核心就是算法,它靠算法在相关内容之间,一条条做横向推荐

    而传统的维基百科不需要算法,因为用户可以持续点击相关链接。一条完整的维基百科条目就已经集成了足够的「算法推荐」。就像我点进「中世纪」这一维基百科词条里,不仅单条目有两万多字,还有成百上千个可跳转的新词条、上百篇引用论文,光推荐继续研读的相关网站就有几十个。

    TikTok 靠单条关联,维基百科是全部摊开,WikiTok 是在全部摊开下不做关联。

    维基百科「中世纪」条目下有无数链接|图片来源:维基百科

    说白了,目前这种形式并没有体现 WikiTok 里的「Tok」,何况维基百科本身就有一个链接叫做「随机维基」,每次点进去会随机推送一条词条,也无任何算法和数据关联。

    WikiTok 的形式,并没有在随机维基上做任何突破。但也不能过于苛求 WikiTok,毕竟:

    它是一个靠 AI,一个半小时就做出来的网页应用

    02 靠 AI 能做出「抖音版维基百科」吗

    WikiTok 源于开发者 Tyler Angert 发了一条推文「一个疯狂的点子:整个维基百科都在一个单页,可滚动的页面上。」在网友评论「甚至更好的是,一个可以根据你的兴趣,无限下滑的维基百科页面。」而后 Angert 将这个想法命名为「WikiTok」。

    此后该推文被转发上百次,在几小时后,让开发者 Gemal 看到了。

    维基百科「抖音版」最初的 idea 来源|图片来源:X

    Gemal 觉得可以用 AI 编程,马上做出一个「最小化可行产品」(MVP)。在 Claude、Cursor 等 AI 模型下,从凌晨十二点半刷到 WikiTok 的想法,到凌晨两点,Gemal 靠 AI 把 WikiTok 做出来了。

    不到 24 小时,靠 AI 编程让想法成真| 图源:X

    第二天,Gemal 推出 WikiTok 的推文转发破千,产品登上 Hacker News 当日新闻榜首。

    Gemal 表示,WikiTok 只有几百行代码,绝大部分都是 Claude 写的,他已经把项目开源发到了 GitHub 上。但至今,他仍然坚持让 WikiTok 反算法。

    然而,算法并不是 WikiTok「无聊」的唯一原因,还有形式的问题。

    WikiTok 条目的呈现方式是最简单的文字摘要,配上一张条目里被放大的图片,观感十分简陋。

    这清晰度仿佛穿越回 ADSL 时代|图源:WikiTok

    既然整个 WikiTok 项目能在 AI 帮助下一个半小时就做出框架,那 AI 能否让它形式上更丰富呢?

    比如跨语言支持,虽然 WikiTok 支持 14 种语言,但当你选择了使用语言后,它是直接把范围锁定到了该语言的维基库里。但维基百科第一语言的英文,有近 700 万条目,中文仅排第 12,只有不到 150 万条目。

    如果 WikiTok 可以引入 AI 的翻译优势,就可能打通维基百科条目之间的语言壁垒,间接扩充了用户可访问到的条目数量。

    在内容呈现上,AI 也能给 WikiTok 带来更丰富的形式,比如把 WikiTok 接入 Sora、Runway、可灵这类 AI 生成视频平台,提取维基百科文字摘要,生成 15 秒短视频,或是动态图文,甚至辅以 AI 解说

    围绕知识和信息,AI 还能做到动态可视化,或许还能生成交互式 3D 模型、时间轴动画、信息图辅以理解。

    再加上推荐算法的加持,这是不是更接近想象中的「WikiTok」,一不小心就成了 Wikiholic(维基成瘾者)。何况算法推荐和 AI 条目短视频可以作为可选项,让原教旨维基者保留惊喜,给更大众的用户沉浸其中的机会。

    维基百科的信息准确度、知识密度和广度都是一座互联网宝库,同样是打发碎片时间,从「刷了三个小时 TikTok,感觉虚度了人生。」到「刷了三小时 WikiTok,浅浅了解了一个新领域!」获取的信息多了,成瘾负罪感少了,何乐而不为呢?

    别说,我还真挺想在 AI 时代,看到一个成熟的 WikiTok 出现,在搜索引擎、大语言模型、算法推送和传统百科之间,找到一个独特又能触达大众的路径。

  • 阿里AI To C再变阵:天猫精灵与夸克融合,将探索AI眼镜

    阿里AI To C再变阵:天猫精灵与夸克融合,将探索AI眼镜

    阿里的AI To C布局调整仍在持续。

    《智能涌现》从多个独立信源处获悉,近期阿里旗下的智能互联事业群,正式由智能信息事业群总裁吴嘉统管。

    “智能互联”为阿里在2022年成立的一级业务部门,其核心品牌为“天猫精灵”,这是阿里内部为数不多的To C硬件业务。未来,智能互联依旧保持独立运作状态,天猫精灵业务中心负责人宋刚将向吴嘉汇报。

    《智能涌现》了解到,目前天猫精灵的硬件团队,已经在与夸克产品团队融合工作,其工作重点包括新一代AI产品的规划定义,以及与夸克AI能力的融合。

    另外,在团队融合后,新团队也将探索包括AI眼镜在内的新硬件方向。

    《智能涌现》就上述信息向阿里巴巴确认,截至发稿,暂无回复。

    阿里正逐渐将To C的大模型相关业务进行整合。在刚刚过去的12月,《智能涌现》曾独家报道,阿里的AI应用“通义”的产品团队,就从阿里云智能,整体划入阿里智能信息事业群,由吴嘉领导。

    2024年,阿里依旧在推进组织调整与优化,阿里巴巴CEO吴泳铭也在着力推进“年轻化”战略,意在让85后、90后上任,成为核心管理者,吴嘉也是其中之一。

    阿里智能信息事业群是如今阿里To C AI业务的重要出口。《智能涌现》了解到,除了刚并入的通义、天猫精灵,如今这一事业群还拥有夸克、书旗小说、UC浏览器、超级汇川广告平台等业务。其中,夸克就已经从原来的浏览器业务,发展成为集AI搜索、AI教育于一身的品牌。

    此番调整之后,这一业务群也建立起了一个从内容、AI应用到AI硬件的完整链条。

    大模型的训练和推理需要大量的交互数据和内容,这样调整也更有利于大模型业务的创新迭代。

    另一方面,这也是天猫精灵业务重视度进一步得到提升的表现。

    天猫精灵成立于2017年,最早脱胎于阿里巴巴人工智能实验室(AI Labs),而后作为阿里IoT领域的重要布局,作为独立品牌而存在。

    这个业务成长于AI 1.0时代的“入口大战”之中。2014年,亚马逊在2014年推出了智能音箱Echo,掀起了一场全球性的“百箱大战”——代表性玩家有阿里旗下的天猫精灵、百度旗下的小度,以及初创公司中的出门问问等;国外则有亚马逊的Alexa,苹果HomePod等。

    不过,这一时期的AI终端能力相当有限,除了完成简单指令(如控制家电开关)和对话之外,可用场景并不多。伴随着AI 1.0时代走入低潮,AI终端的增长也开始放缓——据洛图数据,中国智能音箱的销量在2020年达到巅峰后,就开始一路走低。

    到了2022年,阿里在天猫精灵业务之上,成立了一级业务部门“智能互联”,这个组织将集团内消费AloT的端口整合到了一起,试图对外寻找新机会。

    这段时间里,天猫精灵也不再局限于智能音箱,而是拓展了包括产业生态联盟等To B业务,把AIoT的能力输出给更多合作伙伴。据天猫精灵披露的数据,2022年,智能交互系统AliGenie已接入4000万家庭用户、1000家物联平台和4.6亿终端。

    △图源:阿里的“智能互联”战略

    如今,大模型在对话交互、意图理解方面的能力大大提升,正在给沉寂已久的IoT(物联网)、AI硬件等领域带来新机会。

    在大模型浪潮来临后,天猫精灵就有不少创新动作。2024年5月,天猫精灵推出的新品X6,就搭载了包括夸克在内的AI大模型服务。

    在2023年,天猫精灵也发布了新品牌“未来精灵”(XGENIE),升级了大模型服务,并发布了智能眼镜、随身智能音箱、儿童智能平板三款新品。

    大模型领域,2023年的大厂和初创公司曾高呼“打造中国OpenAI”,到2024年已经转向更审慎的策略——注重AI应用、落地,放弃预训练等等。

    不过,2025年的舞台中央,毫无疑问要留给AI硬件——就在刚刚结束的全球消费电子顶级会议CES上,俨然已有“百镜大战”的势头。包括AI眼镜、AI耳机、AI玩具在内的品类,也将掀起又一场创新浪潮。

  • 豆包全新端到端语音功能上线

    豆包全新端到端语音功能上线

    大年底的,豆包又轰动了一把。

    今天,豆包 APP 宣布全新端到端实时语音通话功能正式上线,不玩「预发布」,直接全量开放、人人免费使用,迎接每一个用户的检验。

    豆包实时语音大模型网址:https://team.doubao.com/realtime_voice

    看完后,我们发现有几个很妙的点:

    首先,豆包真的很像人,遣词造句、语气和呼吸节奏都高度拟人化。你压低音量说话时,豆包也会使出「悄悄话」技能,完全消除了以往 AI 语音通话的人机感。

    其次,不管中文对话的复杂度如何,豆包都能顶得住。经过我们一系列实测体验,豆包在中文能力方面可以说是断层式领先。这个优势不只是相比于 ChatGPT 等海外选手,对比一系列国产 AI 对话类应用也是这样。

    此外,豆包是一个上知天文下知地理的「聊天搭子」。它是认真在听用户说的话以及想要表达的深层含义,会迅速给出有趣又有用的回复,而且有联网查询能力。

    要想体验这项功能,需要将豆包 APP 升级至 7.2.0 新春版本。上线后,大量用户第一时间更新、涌入,和豆包煲起了电话粥:

    还记得在 2024 年 5 月 14 日凌晨那场直播中,GPT-4o 横空出世,带给 ChatGPT 全新的实时语音通话能力,业内称之为「震撼全球的发布」。遗憾的是,这项功能在 ChatGPT 全面上线后,我们的实际感受却并不像发布会演示那样印象深刻。

    现在,轮到豆包震撼世界了。上线之前,内部团队已经围绕拟人度、有用性、情商、通话稳定性、对话流畅度等多个维度,对这项功能背后的豆包实时语音大模型和 GPT-4o 进行了考评。整体满意度(以 5 分为满分)方面,豆包实时语音大模型评分为 4.36,GPT-4o 为 3.18。其中,50% 的测试者对豆包实时语音大模型表现打出满分。

    此外,在模型优点评测中,豆包实时语音大模型在情绪理解和情感表达方面优势明显。尤其是「一听就是 AI 与否」评测中,超过 30% 的反馈表示 GPT-4o 「过于 AI 」,而豆包实时语音大模型相应比例仅为 2% 以内。

    接下来的部分是机器之心的实测,如果你看完感兴趣,建议赶快打开自己的豆包 App,将版本升级至 7.2.0 新春版即可体验。毕竟从目前的火爆程度来说,去晚了可能有挤不上车的概率。

    一手实测:有点震撼,科幻电影走进现实

    在 2024 年底,豆包大模型团队就透露了会很快上线豆包 APP 的全新端到端实时语音功能,引发了一大波用户的期待。

    真正用上之后,我们的感觉是:它的拟人程度和自然程度的确超出想象。

    非常擅长感知、承接人类用户的情绪,是豆包的一大亮点。不妨听几段我们和豆包的对话,感受一下它的拟人程度。

    比如情绪表现能力,让它在声音中表现出复杂情感,可做到「人机难辨」的程度。

    豆包仿佛是一位演技精湛的演员,面对 500 万元彩票的不同场景,时而欣喜若狂,时而悲痛欲绝。

    指令遵循能力也很强。我们怎么 PUA 豆包用各种语速去背诗都能做到,而且还会自己感受诗文中的情绪,有感情的背诵。

    共情能力也是拿捏了。我们第一句话是带着沮丧的情绪讲述坏消息,豆包就会用比较平静温暖的语气来安慰你。但当你恢复了积极心态,转换为轻松的语气夸奖它,豆包就会切换为活泼的语调。它也会有类人的副语言特征,包括语气词、迟疑、停顿等。

    与此同时,我们能感受到,豆包不只是提供情绪陪伴,比如在第一场对话测试中,它给出的抢票建议、行程推荐也是非常实用,关于天气等即时信息,也能迅速检索到准确的结果。

    是的,豆包侃侃而谈的背后是基于豆包实时语音大模型强大的语义理解能力和信息检索能力。在用户语音输入时,豆包马上开始对各维度信息进行深度理解,保证输出信息的有用性与真实性。通俗地说,就是既有「情绪价值」,也有「实用价值」。(不过我们也发现,豆包实时语音大模型目前只支持中英文,期待未来多语种能力可以强化一波。)

    既然豆包长期「混迹」互联网,玩抽象的水平一定不会差。

    当然,和豆包对话,你拥有的不只是一个搭子,而是无数个戏精朋友。

    在「百变大咖」模式下,从孙悟空到林黛玉,从灰太狼到懒羊羊,对声音的控制和对情感的演绎,让豆包的用户体验更上了一层楼。

    既然角色扮演不在话下,讲故事能力也手拿把掐。在恐怖与搞笑之间,自由切换。

    有意思的是,豆包 APP 推出了 GPT-4o 没有的唱歌功能,这是一个老少皆宜的玩法,爆火指日可待。

    年底了,我们就让它来一些拜年歌曲吧,作为这次测评的收官之作:

    遥遥领先的通话体验,背后是哪些技术?

    如此丝滑、自然的实时语音通话,豆包背后的团队是如何实现的?

    为这项功能提供核心能力支持的是近期推出的豆包实时语音大模型。

    据豆包大模型语音团队介绍,这是一个真正实现端到端语音对话的语音理解和生成一体化模型,比传统级联模式,在语音表现力、控制力、情绪承接方面的表现更惊艳,并具备低时延、对话中可随时打断等优点。

    放眼语音 AI 相关领域,面向真人级的实时语音大模型,技术难点有二。

    其一是,情商与智商之间难以平衡。

    语音领域不少从业者都知道,模型自身在对话自然度、有用性及安全性维度经常存在着此消彼长的矛盾关系。换而言之,就是如何能让模型既是逻辑推理能力在线的 「学霸」,也能表现力、共情力、理解力在线,情商水平拉满。

    据团队介绍,他们面向上述问题,在数据和后训练算法方面,确保了多模态语音对话数据兼具语义正确性与表现力的自然性。同时,依靠多轮数据合成方法,生产高质量、高表现力的语音数据,确保生成语音表达自然且一致。

    此外,团队还定期对模型进行多维度评测,依托结果及时调整训练策略和数据使用方式,确保模型在智商和表现力之间始终保持良好平衡。

    其二是落地门槛高,欲让语音功能不止步于 Toy,对团队综合能力是一大挑战。

    在以往,包括 GPT-4o 在内的一众端到端语音发布只是展示 Demo,即便后续能力公开,实际能力也未必被大众认可。原因在于:功能研发过程中需要算法、工程、产品、测试等团队参与,既要明确用户需求、又要划分好技术测评维度和指标,此后在模型训练、微调等过程中,同样需要多个团队密切配合。最后,当产品若想上线服务亿万用户,还面临极大工程落地、安全方面挑战。

    前文提及,本次豆包官宣的全新实时语音功能上线即开放,直接服务于万千用户,团队也尽可能寻找交付体验方面的最佳平衡点,在保障安全性的基础上,让模型拥有前所未有的语音高表现力、控制力和亮眼的情绪承接能力,同时,确保其既具备强大的理解和逻辑能力,又能联网回答时效性问题。

    在语音生成、理解与文本大模型联合建模的框架下,团队实现了模型多样输入输出能力,同时,保证了生成侧模型在更低系统时延情况下的生成准确性、自然度,同时在理解侧,该框架让模型实现了敏锐的语音打断与用户对话判停能力。

    当然,团队也非常重视模型能力提升带来的安全问题。据相关技术人员分享,他们在联合建模的过程中,于后训练阶段,引入多种安全机制,通过对潜在非安全内容进行有效压制和过滤,降低安全风险。

    技术团队还向我们透露,经由联合建模,模型令人惊喜地涌现出指令理解、声音扮演和声音控制等新能力。举例来说,目前模型部分方言和口音,主要源自于 Pretrain 阶段数据泛化,而非针对性训练。在这一点上,语音模型和语言模型非常相似。

    惊喜之外,豆包「颠覆」了什么?

    在目前已有的同类产品功能中,我们能感受到:豆包的拟人度、情感化体验是最好的,十八般武艺样样精通,在中文能力上更是远超 ChatGPT 等「舶来品」。

    看到最后,可能有人想问:除了惊喜的用户体验之外,为什么豆包更新的端到端实时语音收获了如此多的关注?

    关键答案是:它是第一个服务于亿万用户且真正 Work 的端到端中文语音系统 —— 好用,且免费用。

    曾几何时,与 AI 进行实时语音对话只是一种科幻电影的场景,也是我们对高级人工智能的一种具体想象。但现在,这样的神奇功能就存在于你我手机中的豆包 APP,从「遥遥相望」变得「触手可及」。

    简单总结,豆包的全新端到端实时语音开创了两个先河:

    从技术变革的层面看,豆包业内首次地给 AI 注入了「灵魂」,做到了「情商」和「智商」的双商在线。这似乎意味着传统语音助手时代的结束。我们已经不再下意识觉得自己是与一个被海量数据训练的模型说话,人和 AI 开始产生了微妙的情感连接,包括信任、依赖,科幻电影的情节正走进大众生活。

    正如《Her》等经典作品中,人类之所以爱上 AI,从来不是因为它能提供无限的知识,而是因为它能带来恰到好处的情感价值。

    从大模型技术落地的层面看,端到端实时语音通话补齐了多模态交互方式中为数不多的空白。大模型应用的玩法正在不断升级 —— 未来的产品可能是接收文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合输出。人和机器的交互方式正在被颠覆,进而变革人与人的交互方式。

    至少对于当前的中文用户来说,豆包端到端实时语音功能的上线提供了一种以人类自然语言为媒介的交互方式,真正打破了人们获取、体验高级人工智能的门槛。

    回到半年前,我们能想象到是豆包率先创造了历史吗?

    从 2023 年的大语言模型开始,到 2024 年结束,豆包大模型家族在图像、语音、音乐、视频、3D 等多模态层面均已补全,不仅在国内跻身第一梯队,也在短短几个月的时间里完成了从「初出茅庐」到「震撼世界」的蜕变。

    而在百舸争流的大模型赛道上,谁先抵达这一里程碑,或许就决定了其未来十年在领域内的排位。

    接下来一年里,关于大模型、关于豆包和国产 AI 将以怎样的速度前进,更加值得我们期待。