作者: admin

  • deepseek本地部署最简教程3-搭建个人AI知识库

    deepseek本地部署最简教程3-搭建个人AI知识库

    1 简介
    在上一篇推送中(deepseek本地部署最简教程),我们介绍了基于Ollama的本地部署。尽管本地化部署的DeepSeek模型在算力规模和功能完备性上无法媲美云端全量版本,但只要喂给它「独家秘方」——也就是你电脑里的文档、代码、笔记这些干货,它立马就能变身成你的专属知识小助手!

    2 准备
    自己从头搭建个人知识库就像手工造汽车——理论可行但太费劲。这里推荐一个「懒人神器」:AnythingLLM。它能帮你把电脑里的文档(PDF/Word/代码文件都行)变成会聊天的知识库,操作就像把文件拖进文件夹一样简单!

    用这个工具你可以:

    ✅ 随时提问:比如“上周写的Verilog代码在哪?”直接对话就能找到;写RTL代码卡壳时,它能秒查你去年写的相似案例;面对几十份会议纪要,直接问它就能提取关键结论。

    ✅ 保护隐私:所有资料都存在自己电脑里,不怕泄露

    ✅ 跨格式支持:无论是技术文档、会议记录还是代码片段都能处理

    整个过程只需要三步:

    把文件拖进软件

    等它自动分析(喝杯咖啡的时间)

    开始用自然语言提问

    相当于给你的电脑配了个24小时待命的资料管家,特别适合经常需要查旧文档的技术人员!

    3 下载AnythingLLM
    以下是下载链接:

    https://anythingllm.com/desktop

    使用管理员模式安装

    4 配置
    先确保ollama是开启状态,然后搜索ollama

    选择deepseek模型
    在 AnythingLLM 的本地部署配置中,MAX Token(最大令牌数) 是一个关键参数,主要用于控制语言模型(LLM)处理文本时的输入和输出长度限制。
    语言模型(如 GPT)单次处理的文本长度受硬件和算法限制。MAX Token 决定了模型单次请求能处理的 输入+输出 的 Token 总数上限。超过此值会导致截断或报错。
    Token 并非严格等于单词或汉字。例如,英文中 1 Token ≈ 4 字符,中文中 1 汉字 ≈ 2-3 Token
    在问答或生成场景中,该参数直接影响 AI 生成回答的最大长度。例如设置为 512,则回答内容会被限制在约 512 个 Token(约 380 个汉字或 700 英文单词)。

    点击下一步

    填写自己的邮箱

    填写工作区名称

    设置中文

    上传文档


    将文档放到工作区

    保存

    更新中

    更新成功

    5 测试结果
    可以看到deepseek可以理解文档中的内容

    6 写在最后
    当然,AnythingLLM还具备其他功能,如代码托管和官方API的接入等,受篇幅所限,本文不再展开论述,各位可自行探索。需要注意的是,本地部署的AI回答精准度仍然受到硬件性能的制约。建议开发者参考以下硬件选型策略,轻量级部署:RTX 3060(12GB)+32GB DDR4+1TB SSD(支持7B参数模型实时推理);企业级方案:A100 80GB*4+NVLink+Optane持久内存(满足千亿级Token知识库毫秒响应)。

  • deepseek本地部署最简教程2-(GUI,图形用户界面)

    deepseek本地部署最简教程2-(GUI,图形用户界面)

    1 简介
    在上一篇推送中(deepseek本地部署最简教程),我们介绍了基于Ollama的本地部署。然而,目前我们的对话仍需通过CMD进行操作,这在便捷性上有待提升。本期内容将采用GUI方式调用Ollama API,并实现完整的GUI对话功能。
    2 为什么选择ollama
    先回答之前读者的问题,为什么选择ollama而不是lm studio,对于不同需求的用户,可自行选择:

    非技术用户/快速验证:无脑选LM Studio

    开发者/需自定义模型:选Ollama,虽然初期配置复杂,但后续可扩展性强(支持API、Docker等)

    3 安装chatbox
    Chatbox AI 是一款桌面客户端应用,旨在为用户提供更便捷、高效的方式与 AI 交互。以下是下载链接:
    https://chatboxai.app/

    4 配置环境变量
    OLLAMA_HOST 和 OLLAMA_ORIGINS 是 Ollama 的配置环境变量,用于配置 Ollama 与其 API 服务器之间的通信。

    OLLAMA_HOST,用于指定 Ollama 服务监听的主机地址和端口。默认情况下,Ollama 会绑定到 127.0.0.1:11434(仅本地访问)。通过修改此变量,可以实现以下场景:
    允许其他设备通过局域网访问 Ollama。
    在 Docker 容器或云服务器中运行时,开放对外访问。
    我们可以配置为0.0.0.0, 表示开放到所有IP,允许所有网络接口访问

    OLLAMA_HOST=0.0.0.0:11434

    OLLAMA_ORIGINS,用于控制 Ollama API 的跨域请求来源(CORS)。默认情况下,Ollama 仅允许同源请求(即与 API 同域名/端口)。若需要从其他域名或端口调用 API(例如通过自定义 Web 前端),需通过此变量指定允许的来源。

    # 示例:允许特定域名或端口OLLAMA_ORIGINS=http://localhost:3000,https://example.com

    我们可以配置为*, 表示允许所有来源

    OLLAMA_ORIGINS=*

    至于windows如何配置用户环境变量,可自行百度或bing搜索


    5 配置ChatBox
    打开ChatBox,选择模型提供方OLLAMA API,选择对应的模型deepseek r1


    6 测试
    如果我们之前打开过ollama,需要先关掉(一般在右下角图标中)

    然后,打开cmd运行以下命令,启动ollama服务:

    ollama serve

    之后,我们就可以使用gui来进行对话了


    7 写在最后
    无论是DeepSeek,还是ChatGPT,作为先进的生产工具,如果能够合理有效地运用,都能对我们的工作和学习产生极大的帮助。它们不仅能够提升工作效率,减少重复性劳动,还能够帮助我们更好地解决问题、拓宽思维和提高创新能力。特别是在快速变化的时代,掌握和利用这些工具,不仅能让我们在专业领域中保持竞争力,也能为个人成长和知识积累提供强有力的支持。
    但需强调的是,真正的价值创造仍需以人类的专业判断力为前提——保持批判性思维,善用提示词工程精准表达需求,将AI输出与专业知识体系深度融合,方能实现从工具应用到认知升级的质变。

  • deepseek本地部署最简教程1

    deepseek本地部署最简教程1

    1 简介
    随着人工智能技术的飞速发展,大语言模型(Large Language Models, LLMs)逐渐从云端走向本地,为开发者、研究者和技术爱好者提供了更灵活、更私密的应用可能。国产DeepSeek 作为一款高效且功能强大的开源大模型,凭借其毫不逊色于Chatgpt的推理能力和对中文场景的深度适配,成为许多用户探索本地智能化的首选工具。
    然而,对于非专业开发者或刚接触本地部署的用户而言,复杂的配置流程、环境依赖和资源管理往往令人望而却步。本文旨在通过极简的步骤、清晰的说明和实用的技巧,帮助小白用户在最短时间内完成从零部署的流程。

    2 环境介绍
    windows:win11

    3 安装ollama
    Ollama 是一个提供开源、简便且高效的工具平台,旨在使开发者能够在本地环境中运行和部署大型语言模型(LLMs)。Ollama 可以让用户轻松地运行一些主流的、开源的 LLM 模型,而无需依赖云服务,支持在本地服务器或个人计算机上进行推理任务。因此我们deepseek的载体就是ollama。

    在官网下载ollama
    https://ollama.com/

    安装ollama

    4 安装deepseek模型
    打开ollama官网,右上角models找到deepseek模型


    选择模型版本,在人工智能领域,模型名称中的 1.5B、7B、8B 等数字代表模型的参数量(Parameters),其中 B 是英文 Billion(十亿) 的缩写。参数越多,模型通常更“聪明”(能处理更复杂的任务),但对硬件资源(显存、内存)的要求也更高。个人用户可优先 7B(通用性最佳),若设备较弱则选 1.5B,开发者可选 8B。

    以下是各版本的介绍

    找到对应的命令,复制


    然后输入到cmd中:
    ollama run deepseek-r1:1.5b

    如果是7b,以此类推:
    ollama run deepseek-r1:7b

    需要等待一段时间下载

    5 使用deepseek
    打开cmd,输入所下版本同样的命令,则可以使用deepseek:

    ollama run deepseek-r1:1.5b

    6 ollama大模型安装路径更改
    如果我们使用windows系统安装,ollama默认安装在系统盘,而往往系统盘的容量不够大,我们可以将deepseek安装到其他盘中,但目前,ollama 本身并没有提供直接的、官方的选项来修改模型存储路径。我们可以使用符号链接的方式将对应文件夹链接到D盘文件夹,这样ollama读写文件只会读写对应D盘的链接文件夹。
    首先,我们找到ollama模型的安装位置:

    Linux/macOS: ~/.ollama/

    Windows: C:\Users\<YourUser>\.ollama\

    删除models文件夹:

    在D盘创建一个新文件夹,如
    D:\OllamaModels\

    用管理员打开cmd,进行符号链接,然后再下载deepseek文件夹:
    mklink /D C:\Users\<YourUser>\.ollama D:\OllamaModels

    7 写在最后
    本文主要介绍了 DeepSeek 的最简安装方法,后续将继续更新,介绍如何将 DeepSeek 集成到图形化界面中。

  • 阿里旗下夸克品牌升级:要做2亿人的AI全能助手

    阿里旗下夸克品牌升级:要做2亿人的AI全能助手

    1月15日,阿里智能信息事业群旗下夸克升级品牌Slogan—“2亿人的AI全能助手”,亮出加速探索AI To C应用的全新业务态势。第三方数据显示,夸克用户规模持续保持高速增长,并领跑AI应用赛道,其中00后年轻用户占比超过一半。

    00后AI应用第一站

    经过两年多的快速发展,国内AI大模型已经从比拼“模型参数”到解决“实际问题”。随着市场趋于理性,用户规模成为了AI应用未来潜力的试金石。根据七麦数据最新发布的《2024年度实力AI产品榜单》,夸克App年度下载量超3.7亿,位居行业第一。基于AI能力服务越来越多的用户群体,标志着夸克迈入全新发展阶段。

    在众多AI应用中,夸克更好地满足了00后在学习和工作上的全新需求。易观分析刚刚发布的《2025年AI产业发展十大趋势》报告中,夸克位居中国AI应用活跃用户榜单第一,同时成为唯一一款00后年轻用户数量占比超过50%的AI应用。

    易观分析认为,年轻用户更愿意使用AI应用进行内容创作和提升效率。无论是备战高考的学子,还是刚入职场的新人,夸克都凭借其过硬的产品力,成为他们接触并使用AI应用的首选平台。

    AI in All的全能助手

    给用户提供无处不在的AI能力,夸克定位为“AI全能助手”。2024年以来,夸克持续迭代上新AI搜索、AI写作、AI总结、AI搜题以及 AI网盘、AI扫描等功能。随着AI大模型技术的演进,夸克服务用户的产品能力得以加速跃升,全面覆盖了信息检索、信息生成与信息处理。

    面向用户工作、学习、生活方方面面的新需求,夸克引领了AI应用新范式。2024年,夸克App推出超级搜索框,打造“一站式AI服务”;随后,夸克发布全新PC端,提供“系统级全场景AI”能力。夸克持续通过务实、专注和独特的产品逻辑与理念,让“AI生产力工具”的用户价值得以释放。

    近期,夸克上线“AI搜题”、“AI PPT”、“学术搜索”等基于AI能力打造的新功能,夸克AI正在进一步满足用户在搜索、创作和学习上的多元化需求。在夸克PC端,全新设计的首页、收藏和桌面AI助手,让每个人都能拥有AI PC。

    “夸克始终专注于AI,务实地解决大众的广泛需求。”夸克产品负责人郑嗣寿表示,未来,夸克会用最新的AI技术,去解决更多新问题、复杂问题,给用户学习、工作和生活中带来更多的惊喜体验。

    AI To C应用布局加码

    大模型时代,夸克在产品创新和用户增长上的亮眼表现,为国内AI To C赛道开拓了全新的发展路径与想象空间。在阿里集团“用户为先、AI驱动”战略下,夸克的快速成长,让阿里坚定看好AI To C应用的机会与希望。

    日前,阿里旗下AI应用“通义”正式并入阿里智能信息事业群。此前有媒体曝出,阿里“少壮派”高管吴嘉将专注探索阿里巴巴在AI To C端应用的业务。

    业内人士分析,吴嘉的调任,可以明显看出AI To C在阿里内部的战略地位相当突出。从创立以来就探索AI搜索的夸克,有巨大的机会能成为大模型时代的革新性用户产品,吴嘉或将以夸克为突破点,来进行更多层面的探索。作为阿里集团战略级创新业务,夸克有望获得更多资源支持。

  • 联想首支AI微电影《海神降临》发布

    联想首支AI微电影《海神降临》发布

    联想旗下首支 AI 微电影《海神降临》今日发布,影片时长为 4 分 57 秒,讲述了人类与硅基生命合力寻找海神之源拯救星球的故事。

    在一颗算力星球,硅基生命与人类共生共存,维持人类社会高速运转。与此同时,算力爆发的热浪也在逐渐摧毁星球生态。海神孕育了人类,只有用海神之源唤醒海神,才能彻底终结这一切。潮汐涌动,危险重重,人类与硅基生命能合力找到海神之源,平息算力之火吗?

    图片

    本片由“联想 AI 内容智创中心”通过 AI PC 制作,影片中提到的联想海神液冷(Neptune)方案在全球部署已经超过 7 万套,宣称可将数据中心的 PUE 降至 1.1 以内,能耗降低 42%。

  • 阿里AI To C再变阵:天猫精灵与夸克融合,将探索AI眼镜

    阿里AI To C再变阵:天猫精灵与夸克融合,将探索AI眼镜

    阿里的AI To C布局调整仍在持续。

    《智能涌现》从多个独立信源处获悉,近期阿里旗下的智能互联事业群,正式由智能信息事业群总裁吴嘉统管。

    “智能互联”为阿里在2022年成立的一级业务部门,其核心品牌为“天猫精灵”,这是阿里内部为数不多的To C硬件业务。未来,智能互联依旧保持独立运作状态,天猫精灵业务中心负责人宋刚将向吴嘉汇报。

    《智能涌现》了解到,目前天猫精灵的硬件团队,已经在与夸克产品团队融合工作,其工作重点包括新一代AI产品的规划定义,以及与夸克AI能力的融合。

    另外,在团队融合后,新团队也将探索包括AI眼镜在内的新硬件方向。

    《智能涌现》就上述信息向阿里巴巴确认,截至发稿,暂无回复。

    阿里正逐渐将To C的大模型相关业务进行整合。在刚刚过去的12月,《智能涌现》曾独家报道,阿里的AI应用“通义”的产品团队,就从阿里云智能,整体划入阿里智能信息事业群,由吴嘉领导。

    2024年,阿里依旧在推进组织调整与优化,阿里巴巴CEO吴泳铭也在着力推进“年轻化”战略,意在让85后、90后上任,成为核心管理者,吴嘉也是其中之一。

    阿里智能信息事业群是如今阿里To C AI业务的重要出口。《智能涌现》了解到,除了刚并入的通义、天猫精灵,如今这一事业群还拥有夸克、书旗小说、UC浏览器、超级汇川广告平台等业务。其中,夸克就已经从原来的浏览器业务,发展成为集AI搜索、AI教育于一身的品牌。

    此番调整之后,这一业务群也建立起了一个从内容、AI应用到AI硬件的完整链条。

    大模型的训练和推理需要大量的交互数据和内容,这样调整也更有利于大模型业务的创新迭代。

    另一方面,这也是天猫精灵业务重视度进一步得到提升的表现。

    天猫精灵成立于2017年,最早脱胎于阿里巴巴人工智能实验室(AI Labs),而后作为阿里IoT领域的重要布局,作为独立品牌而存在。

    这个业务成长于AI 1.0时代的“入口大战”之中。2014年,亚马逊在2014年推出了智能音箱Echo,掀起了一场全球性的“百箱大战”——代表性玩家有阿里旗下的天猫精灵、百度旗下的小度,以及初创公司中的出门问问等;国外则有亚马逊的Alexa,苹果HomePod等。

    不过,这一时期的AI终端能力相当有限,除了完成简单指令(如控制家电开关)和对话之外,可用场景并不多。伴随着AI 1.0时代走入低潮,AI终端的增长也开始放缓——据洛图数据,中国智能音箱的销量在2020年达到巅峰后,就开始一路走低。

    到了2022年,阿里在天猫精灵业务之上,成立了一级业务部门“智能互联”,这个组织将集团内消费AloT的端口整合到了一起,试图对外寻找新机会。

    这段时间里,天猫精灵也不再局限于智能音箱,而是拓展了包括产业生态联盟等To B业务,把AIoT的能力输出给更多合作伙伴。据天猫精灵披露的数据,2022年,智能交互系统AliGenie已接入4000万家庭用户、1000家物联平台和4.6亿终端。

    △图源:阿里的“智能互联”战略

    如今,大模型在对话交互、意图理解方面的能力大大提升,正在给沉寂已久的IoT(物联网)、AI硬件等领域带来新机会。

    在大模型浪潮来临后,天猫精灵就有不少创新动作。2024年5月,天猫精灵推出的新品X6,就搭载了包括夸克在内的AI大模型服务。

    在2023年,天猫精灵也发布了新品牌“未来精灵”(XGENIE),升级了大模型服务,并发布了智能眼镜、随身智能音箱、儿童智能平板三款新品。

    大模型领域,2023年的大厂和初创公司曾高呼“打造中国OpenAI”,到2024年已经转向更审慎的策略——注重AI应用、落地,放弃预训练等等。

    不过,2025年的舞台中央,毫无疑问要留给AI硬件——就在刚刚结束的全球消费电子顶级会议CES上,俨然已有“百镜大战”的势头。包括AI眼镜、AI耳机、AI玩具在内的品类,也将掀起又一场创新浪潮。

  • 豆包全新端到端语音功能上线

    豆包全新端到端语音功能上线

    大年底的,豆包又轰动了一把。

    今天,豆包 APP 宣布全新端到端实时语音通话功能正式上线,不玩「预发布」,直接全量开放、人人免费使用,迎接每一个用户的检验。

    豆包实时语音大模型网址:https://team.doubao.com/realtime_voice

    看完后,我们发现有几个很妙的点:

    首先,豆包真的很像人,遣词造句、语气和呼吸节奏都高度拟人化。你压低音量说话时,豆包也会使出「悄悄话」技能,完全消除了以往 AI 语音通话的人机感。

    其次,不管中文对话的复杂度如何,豆包都能顶得住。经过我们一系列实测体验,豆包在中文能力方面可以说是断层式领先。这个优势不只是相比于 ChatGPT 等海外选手,对比一系列国产 AI 对话类应用也是这样。

    此外,豆包是一个上知天文下知地理的「聊天搭子」。它是认真在听用户说的话以及想要表达的深层含义,会迅速给出有趣又有用的回复,而且有联网查询能力。

    要想体验这项功能,需要将豆包 APP 升级至 7.2.0 新春版本。上线后,大量用户第一时间更新、涌入,和豆包煲起了电话粥:

    还记得在 2024 年 5 月 14 日凌晨那场直播中,GPT-4o 横空出世,带给 ChatGPT 全新的实时语音通话能力,业内称之为「震撼全球的发布」。遗憾的是,这项功能在 ChatGPT 全面上线后,我们的实际感受却并不像发布会演示那样印象深刻。

    现在,轮到豆包震撼世界了。上线之前,内部团队已经围绕拟人度、有用性、情商、通话稳定性、对话流畅度等多个维度,对这项功能背后的豆包实时语音大模型和 GPT-4o 进行了考评。整体满意度(以 5 分为满分)方面,豆包实时语音大模型评分为 4.36,GPT-4o 为 3.18。其中,50% 的测试者对豆包实时语音大模型表现打出满分。

    此外,在模型优点评测中,豆包实时语音大模型在情绪理解和情感表达方面优势明显。尤其是「一听就是 AI 与否」评测中,超过 30% 的反馈表示 GPT-4o 「过于 AI 」,而豆包实时语音大模型相应比例仅为 2% 以内。

    接下来的部分是机器之心的实测,如果你看完感兴趣,建议赶快打开自己的豆包 App,将版本升级至 7.2.0 新春版即可体验。毕竟从目前的火爆程度来说,去晚了可能有挤不上车的概率。

    一手实测:有点震撼,科幻电影走进现实

    在 2024 年底,豆包大模型团队就透露了会很快上线豆包 APP 的全新端到端实时语音功能,引发了一大波用户的期待。

    真正用上之后,我们的感觉是:它的拟人程度和自然程度的确超出想象。

    非常擅长感知、承接人类用户的情绪,是豆包的一大亮点。不妨听几段我们和豆包的对话,感受一下它的拟人程度。

    比如情绪表现能力,让它在声音中表现出复杂情感,可做到「人机难辨」的程度。

    豆包仿佛是一位演技精湛的演员,面对 500 万元彩票的不同场景,时而欣喜若狂,时而悲痛欲绝。

    指令遵循能力也很强。我们怎么 PUA 豆包用各种语速去背诗都能做到,而且还会自己感受诗文中的情绪,有感情的背诵。

    共情能力也是拿捏了。我们第一句话是带着沮丧的情绪讲述坏消息,豆包就会用比较平静温暖的语气来安慰你。但当你恢复了积极心态,转换为轻松的语气夸奖它,豆包就会切换为活泼的语调。它也会有类人的副语言特征,包括语气词、迟疑、停顿等。

    与此同时,我们能感受到,豆包不只是提供情绪陪伴,比如在第一场对话测试中,它给出的抢票建议、行程推荐也是非常实用,关于天气等即时信息,也能迅速检索到准确的结果。

    是的,豆包侃侃而谈的背后是基于豆包实时语音大模型强大的语义理解能力和信息检索能力。在用户语音输入时,豆包马上开始对各维度信息进行深度理解,保证输出信息的有用性与真实性。通俗地说,就是既有「情绪价值」,也有「实用价值」。(不过我们也发现,豆包实时语音大模型目前只支持中英文,期待未来多语种能力可以强化一波。)

    既然豆包长期「混迹」互联网,玩抽象的水平一定不会差。

    当然,和豆包对话,你拥有的不只是一个搭子,而是无数个戏精朋友。

    在「百变大咖」模式下,从孙悟空到林黛玉,从灰太狼到懒羊羊,对声音的控制和对情感的演绎,让豆包的用户体验更上了一层楼。

    既然角色扮演不在话下,讲故事能力也手拿把掐。在恐怖与搞笑之间,自由切换。

    有意思的是,豆包 APP 推出了 GPT-4o 没有的唱歌功能,这是一个老少皆宜的玩法,爆火指日可待。

    年底了,我们就让它来一些拜年歌曲吧,作为这次测评的收官之作:

    遥遥领先的通话体验,背后是哪些技术?

    如此丝滑、自然的实时语音通话,豆包背后的团队是如何实现的?

    为这项功能提供核心能力支持的是近期推出的豆包实时语音大模型。

    据豆包大模型语音团队介绍,这是一个真正实现端到端语音对话的语音理解和生成一体化模型,比传统级联模式,在语音表现力、控制力、情绪承接方面的表现更惊艳,并具备低时延、对话中可随时打断等优点。

    放眼语音 AI 相关领域,面向真人级的实时语音大模型,技术难点有二。

    其一是,情商与智商之间难以平衡。

    语音领域不少从业者都知道,模型自身在对话自然度、有用性及安全性维度经常存在着此消彼长的矛盾关系。换而言之,就是如何能让模型既是逻辑推理能力在线的 「学霸」,也能表现力、共情力、理解力在线,情商水平拉满。

    据团队介绍,他们面向上述问题,在数据和后训练算法方面,确保了多模态语音对话数据兼具语义正确性与表现力的自然性。同时,依靠多轮数据合成方法,生产高质量、高表现力的语音数据,确保生成语音表达自然且一致。

    此外,团队还定期对模型进行多维度评测,依托结果及时调整训练策略和数据使用方式,确保模型在智商和表现力之间始终保持良好平衡。

    其二是落地门槛高,欲让语音功能不止步于 Toy,对团队综合能力是一大挑战。

    在以往,包括 GPT-4o 在内的一众端到端语音发布只是展示 Demo,即便后续能力公开,实际能力也未必被大众认可。原因在于:功能研发过程中需要算法、工程、产品、测试等团队参与,既要明确用户需求、又要划分好技术测评维度和指标,此后在模型训练、微调等过程中,同样需要多个团队密切配合。最后,当产品若想上线服务亿万用户,还面临极大工程落地、安全方面挑战。

    前文提及,本次豆包官宣的全新实时语音功能上线即开放,直接服务于万千用户,团队也尽可能寻找交付体验方面的最佳平衡点,在保障安全性的基础上,让模型拥有前所未有的语音高表现力、控制力和亮眼的情绪承接能力,同时,确保其既具备强大的理解和逻辑能力,又能联网回答时效性问题。

    在语音生成、理解与文本大模型联合建模的框架下,团队实现了模型多样输入输出能力,同时,保证了生成侧模型在更低系统时延情况下的生成准确性、自然度,同时在理解侧,该框架让模型实现了敏锐的语音打断与用户对话判停能力。

    当然,团队也非常重视模型能力提升带来的安全问题。据相关技术人员分享,他们在联合建模的过程中,于后训练阶段,引入多种安全机制,通过对潜在非安全内容进行有效压制和过滤,降低安全风险。

    技术团队还向我们透露,经由联合建模,模型令人惊喜地涌现出指令理解、声音扮演和声音控制等新能力。举例来说,目前模型部分方言和口音,主要源自于 Pretrain 阶段数据泛化,而非针对性训练。在这一点上,语音模型和语言模型非常相似。

    惊喜之外,豆包「颠覆」了什么?

    在目前已有的同类产品功能中,我们能感受到:豆包的拟人度、情感化体验是最好的,十八般武艺样样精通,在中文能力上更是远超 ChatGPT 等「舶来品」。

    看到最后,可能有人想问:除了惊喜的用户体验之外,为什么豆包更新的端到端实时语音收获了如此多的关注?

    关键答案是:它是第一个服务于亿万用户且真正 Work 的端到端中文语音系统 —— 好用,且免费用。

    曾几何时,与 AI 进行实时语音对话只是一种科幻电影的场景,也是我们对高级人工智能的一种具体想象。但现在,这样的神奇功能就存在于你我手机中的豆包 APP,从「遥遥相望」变得「触手可及」。

    简单总结,豆包的全新端到端实时语音开创了两个先河:

    从技术变革的层面看,豆包业内首次地给 AI 注入了「灵魂」,做到了「情商」和「智商」的双商在线。这似乎意味着传统语音助手时代的结束。我们已经不再下意识觉得自己是与一个被海量数据训练的模型说话,人和 AI 开始产生了微妙的情感连接,包括信任、依赖,科幻电影的情节正走进大众生活。

    正如《Her》等经典作品中,人类之所以爱上 AI,从来不是因为它能提供无限的知识,而是因为它能带来恰到好处的情感价值。

    从大模型技术落地的层面看,端到端实时语音通话补齐了多模态交互方式中为数不多的空白。大模型应用的玩法正在不断升级 —— 未来的产品可能是接收文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合输出。人和机器的交互方式正在被颠覆,进而变革人与人的交互方式。

    至少对于当前的中文用户来说,豆包端到端实时语音功能的上线提供了一种以人类自然语言为媒介的交互方式,真正打破了人们获取、体验高级人工智能的门槛。

    回到半年前,我们能想象到是豆包率先创造了历史吗?

    从 2023 年的大语言模型开始,到 2024 年结束,豆包大模型家族在图像、语音、音乐、视频、3D 等多模态层面均已补全,不仅在国内跻身第一梯队,也在短短几个月的时间里完成了从「初出茅庐」到「震撼世界」的蜕变。

    而在百舸争流的大模型赛道上,谁先抵达这一里程碑,或许就决定了其未来十年在领域内的排位。

    接下来一年里,关于大模型、关于豆包和国产 AI 将以怎样的速度前进,更加值得我们期待。