每日AI快讯

AI开发集每日实时更新AI行业的最新资讯、新闻、热点、事件、产品动态、爆料等,让你随时了解人工智能领域最新趋势。

4月18日·周五

通义万相2.1首尾帧模型开源!细节真实生动,丝滑流畅

阿里通义万相宣布开源业界首个百亿参数规模的“首尾帧生视频模型”,参数量达14B。模型可根据用户指定的开始和结束图片生成衔接首尾画面的720p高清视频,满足更可控、定制化的视频生成需求。

来源:通义大模型

腾讯混元开源定制化图像生成插件InstantCharacter,“一张图一句话”搞定角色生成

腾讯混元宣布开源定制化图像生成插件InstantCharacter,与开源文生图模型Flux实现兼容。插件通过一张图加一句话即可让角色以特定姿势出现在不同场景,解决了角色一致性难题,具有高画质、高精度和灵活文本编辑性,适用于连环画、影片创作等场景。

来源:腾讯混元

国补刺激下的电视市场,消费者并不买账

政策叠加终端的不定,新一轮挑战下,二季度产业链的调整,将成为今年电视市场涨跌的关键。

来源:钛媒体

智谱完成北京市人工智能产业投资基金追加投资,Z 基金出资3亿支持全球开源社区

北京市人工智能产业投资基金宣布追加投资智谱(Z.ai)2亿元人民币,支持其开源模型研发与开源社区生态建设。智谱是该基金投资的第一家AI大模型企业,在文本、推理、语音、图像、视频、代码等多领域有深厚积累。智谱Z基金出资3亿元支持全球AI开源社区发展,推动AI普惠,助力北京打造“全球开源之都”。

来源:智谱

4月17日·周四

再创开源多模态大模型性能标杆,书生·万象3.0升级发布,创新预训练方法

上海人工智能实验室开源升级了通用多模态大模型书生·万象3.0(InternVL3)。模型采用创新的多模态预训练方法,将语言和多模态学习整合于同一预训练阶段,显著提升了多模态基础能力。在10亿至780亿参数的全量级版本中,InternVL3在开源模型性能上位列第一,接近闭源模型Gemini-2.5-Pro。

来源:上海人工智能实验室

具身智能公司戴盟机器人发布全球首款多维高分辨率高频率视触觉传感器|钛快讯

戴盟机器人投资方昆仲资本的创始合伙人姚海波近期对外表示,具身机器人行业的现状是,即使你的产品在技术上是全行业最好的,也不一定马上能赢得市场或者赚钱,这是该领域的必经阶段,因为很多创新领域的早期发展都无法通过质量直接带来利润。

来源:钛媒体

Anthropic官方推出了两个重磅新功能:Research 与 Google Workspace 集成

Anthropic公司旗下的Claude推出两大新功能:Research和与Google Workspace集成。Research功能可快速检索网络与内部文件,精准回答复杂问题;Google Workspace集成则让用户能无缝调用Gmail、日历和文档信息,轻松完成任务。

来源:新智元

消息称 OpenAI 考虑以 30 亿美元收购人工智能编程工具 Windsurf

OpenAI 正在考虑以约 30 亿美元收购人工智能编程工具 Windsurf(原名 Codeium)。如果收购成功,将是 OpenAI 有史以来最大的一笔交易,增强其在 AI 编程助手市场的竞争力。Windsurf 专注于根据自然语言提示编写代码,此前曾计划按 30 亿美元估值融资。

来源:IT之家

4月16日·周三

AI 音乐商用创作平台Mureka火爆海外,正式开放国内登陆入口和API

昆仑万维集团旗下的 AI 音乐商用创作平台 Mureka 正式开放国内登录入口和 API。Mureka 自 2024 年上线以来,在全球范围内收获极高人气,支持纯音乐及 10 种语言的音乐创作。其 Mureka V6 是基座模型,Mureka O1 是推理优化版本,可提升音乐品质和创作效率。

来源:昆仑万维集团

OpenAI ChatGPT 上线图库功能,更轻松管理 AI 生成图片

OpenAI 宣布 ChatGPT 上线 Image Library 图库功能,帮助用户更便捷地管理和查看 AI 生成的图像。功能已向所有 Free、Plus 和 Pro 用户开放,覆盖移动端和网页端。

来源:IT之家

美国全面封杀英伟达H20芯片对华出口,超400亿季度收入灰飞烟灭|钛媒体AGI

作为英伟达面向中国市场、唯一符合美国规定的特供芯片,H20也遭禁售。此外,英伟达今后无法再向中国销售任何高性能GPU产品。这一系列调整,预计将冲击英伟达超100亿美元的营收。

来源:钛媒体

中国第一家启动IPO的“大模型六虎”来袭!智谱融资超160亿,美国OpenAI也将IPO

智谱 AI 启动 IPO 上市流程,成为中国第一家进入 IPO 阶段的“大模型六虎”公司。智谱 AI 成立于 2019 年,由清华大学计算机系技术转化而来,目前累计融资超 160 亿元,投后估值超 200 亿元。

来源:钛媒体AGI

4月15日·周二

魔搭上线最大MCP中文社区,独家首发支付宝、MiniMax等MCP

阿里云旗下的AI开源社区魔搭(ModelScope)推出全新MCP广场,上架千余款热门MCP服务,独家首发支付宝、MiniMax等全新MCP服务。支付宝MCP服务是国内首款聚焦AI智能体支付场景的服务,可实现交易创建、查询、退款等功能;MiniMax MCP服务器封装了语音生成、语音克隆、图片生成及视频生成等多模态能力。

来源:阿里云

智谱启用全新全球域名“z.ai”,开源高性能GLM模型系列

智谱启用全新域名“z.ai”,整合32B基座、推理、沉思三类模型,作为最新模型的交互体验入口。基座模型和推理模型已上线智谱MaaS平台,提供API服务,部分版本免费。宣布开源32B/9B系列GLM模型,涵盖基座、推理、沉思模型,均采用MIT许可协议,可免费用于商业用途。

来源:智谱

中国第一家启动IPO的“大模型六虎”来袭!智谱融资超160亿,美国OpenAI也将IPO|钛媒体AGI

智谱CEO张鹏早前在2024 T-EDGE创新大会暨钛媒体财经年会上表示,如今的Agent可以做到像人一样,理解界面、规划任务、使用工具、完成任务,从而更聪明地代替人类行动。对于人类本身的 AI 能力是比较明确的,我们需要对照人类的智能能力去打造AGI。

来源:钛媒体

MiniMax MCP Server 上线:多模态能力,一键触达

MiniMax 稀宇科技宣布其 MiniMax MCP Server 正式上线。服务器通过简单文本输入即可调用视频、图像、语音生成及声音克隆等多项多模态能力,兼容 Claude Desktop、Cursor、Windsurf 和 OpenAI Agents 等主流 MCP 客户端。

来源:MiniMax 稀宇科技

4月14日·周一

昆仑万维推出Skywork-OR1系列模型,同规模下性能超越阿里QwQ-32B,对齐DeepSeek-R1

昆仑万维天工团队推出全新升级的Skywork-OR1系列模型,包括7B和32B版本,聚焦数学和代码推理能力。系列模型在同等参数规模下性能超越阿里QwQ-32B,接近DeepSeek-R1。Skywork-OR1系列全面开源,涵盖模型权重、训练数据集和完整代码,团队采用多阶段GRPO训练,优化数据过滤和训练流程,显著提升模型推理性能。

来源:昆仑万维集团

云鲸再获1亿美金融资,腾讯、北京机器人基金领投,重押具身智能,迈向Pre-IPO

家庭清洁服务机器人公司云鲸智能近日完成1亿美金融资,由腾讯投资、北京机器人产业发展投资基金联合领投,科幻基金与明势创投跟投。资金将用于具身智能产品研发、全球市场扩张及多品类战略布局。云鲸已启动Pre-IPO轮融资,进入上市冲刺阶段。

来源:36氪

0元复刻!国内首款开源验证人形机器人发布,傅利叶年初已完成8亿元融资|钛媒体AGI

傅利叶方面透露,公司已经确认不参加延期至4月19日亦庄举办的全球首个人形机器人半程马拉松比赛。

来源:钛媒体

重新认识阿里:大踏步迈向 AI

《晚点LatePost》发文称阿里巴巴在AI领域投入坚决、布局全面且率先盈利。过去几年,阿里历经低谷,2025年凭借AI技术股价涨幅超75%。阿里云与宝马、中移动等达成合作,云谷园区接待爆满。阿里明确AI战略,未来三年投入3800亿元建设云和AI基础设施,通义大模型位列全球第一梯队,夸克升级为“AI超级框”,钉钉回归助力AI应用。

来源:晚点LatePost

OpenAI 宣布 ChatGPT 自 4 月 30 日起停用 GPT-4 模型,全面升级至 4o 版本

OpenAI 宣布于2025年4月30日起,将让GPT-4在ChatGPT中退役,全面启用GPT-4o。GPT-4o在能力、一致性和创造力上更胜一筹。GPT-4退出ChatGPT,开发者仍可通过API调用。

来源:APPSO

4月13日·周日

0元复刻!国内首款开源验证人形机器人发布,傅利叶年初已完成8亿元融资|钛媒体AGI

傅利叶方面透露,公司已经确认不参加延期至4月19日亦庄举办的全球首个人形机器人半程马拉松比赛。

来源:钛媒体

4月12日·周六

0元复刻!国内首款开源验证人形机器人发布,傅利叶年初已完成8亿元融资|钛媒体AGI

傅利叶方面透露,公司已经确认不参加延期至4月19日亦庄举办的全球首个人形机器人半程马拉松比赛。

来源:钛媒体

4月11日·周五

谷歌Deep Research迎来重大升级,搭载Gemini 2.5 Pro模型,性能超OpenAI

谷歌Deep Research迎来重大升级,搭载全球顶尖的Gemini 2.5 Pro模型。新版本在分析推理、信息整合和报告洞察力方面显著提升,5分钟可生成46页学术论文,能将复杂报告转为10分钟播客。性能较OpenAI DR提升超40%,价格仅为1/10。

来源:新智元

商汤发布「日日新SenseNova V6」大模型,助力机器人具身智能升级

商汤发布新一代多模态大模型「日日新SenseNova V6」,参数达6000亿,采用混合专家架构,实现多模态长思维链、强化学习与全局记忆融合,推理能力显著提升,多项测试超国际领先模型。模型助力人形机器人具身智能发展,使其具备视觉、语言等多模态交互能力,可应用于导览、社交互动等场景。

来源:智东西

悠船宣布MidJourney V7模型正式上线:图像生成质量大幅提升

悠船团队宣布悠船V7模型正式上线。V7版本在图像生成质量上显著提升,包括人物肤色、面部细节、材质纹理和光影效果等方面。能更好地解析复杂场景,实现背景与主体的自然融合。V7在视角表现和风格还原度上也更加专业,显著提升了身体、手部及物体细节的一致性。

来源:悠船助手

Anthropic 推出 Claude Max 订阅计划,月费最高 200 美元

Anthropic推出Claude Max订阅计划,月费最高200美元,与OpenAI的ChatGPT Pro竞争。Max计划分为两个层级:每月100美元的Max速率限制是Claude Pro的5倍,每月200美元的Max速率限制是Claude Pro的20倍。计划提供更宽松的使用限制和优先获取最新AI模型的功能。

来源:IT之家

OpenAI宣布ChatGPT新功能,新增长期记忆功能,可以记住过去所有的聊天记录

OpenAI宣布ChatGPT推出新功能,能引用过去所有聊天记录,为用户提供更加私人订制的体验。标志着LLM交互范式从偶发性互动向持续性互动转变,使ChatGPT更像私人助理。新功能已向Plus和Pro用户开放,用户可以与ChatGPT进行更深入的互动。

来源:量子位

4月10日·周四

关税变局下的PC市场:抢出货拉库存,产业链“失血”重构

涨价、产线转移,PC市场的连续增长还能否持续?

来源:钛媒体

火山引擎推出AI数据专家“Data Agent”,企业数据全场景智能体

火山引擎迎来首位AI数据专家「Data Agent」。作为企业数据全场景智能体,Data Agent在数据分析和智能营销领域表现出色。可融合企业内部结构化与非结构化数据,理解业务需求,生成深度研究报告,无缝制定并执行营销策略,为每位用户精准配置触达时机和营销文案,活动结束后自动复盘并持续学习进化。

来源:火山引擎

连续完成A及A+轮融资,星尘智能获锦秋基金、蚂蚁集团等领投

星尘智能宣布连续完成A轮及A+轮融资数亿元,由锦秋基金、蚂蚁集团领投,云启资本、道彤资本等老股东跟投,华兴资本担任独家财务顾问。星尘智能于2022年底在深圳成立,首创面向AI的软硬件一体化系统架构,全栈自研的Astribot S1高度仿人,关键操作参数媲美甚至超越成年男性。

来源:Z Potentials

谷歌推出 Firebase Studio 云端集成开发环境:AI 助你秒建应用

谷歌推出 Firebase Studio,基于云端、AI 驱动的集成开发环境(IDE)。用户只需输入提示词,AI 可快速生成完整应用程序,支持 React、Next.js、Angular、Vue.js、Flutter、Android、Node.js、Java 和 Python Flask 等多种编程语言和框架。

来源:IT之家

alphaXiv推出「Deep Research for arXiv」功能,让文献检索秒速完成

alphaXiv推出「Deep Research for arXiv」功能,可协助研究人员在arXiv平台上快速检索与阅读学术论文,提升文献检索及研究效率。用户输入相关问题,系统能迅速生成文献综述或热门论文回答,将数小时的搜索过程缩短至几秒。

来源:机器之心

4月9日·周三

AI“胡编乱造”,背刺了谁?

第一批受害者已出现。

来源:钛媒体

「AI硬件」闯出一匹黑马“小智AI”,2个月接入设备增长10万台

「小智AI」作为一款开源AI硬件项目,在过去两个月内接入设备数增长10万台,增速达300%。语音助手以台湾腔、反应迅速、声音拟人化等特点在短视频平台引发病毒式传播,点赞量达数十万甚至百万。小智AI团队不生产硬件,设备多由爱好者、开发者DIY完成,通过电商平台售卖。

来源:极客公园

4月8日·周二

超越特斯拉,全球自由度最高的北京灵巧手创企,灵心巧手拿下超亿融资

北京灵心巧手科技公司近日完成超亿元种子轮融资,由红杉种子基金等多家机构领投。公司成立于2019年,自主研发的Linker Hand系列灵巧手,工业版自由度达25-30个,科研版最高自由度达42个,是全球自由度最高的商用灵巧手,性能和价格优势明显。公司构建了全球最大的灵巧操作数据集DexSkill-Net,助力灵巧手快速学习复杂任务。

来源:智东西

亚马逊升级 AI 视频模型 Nova Reel,最长可生成两分钟多镜头视频

亚马逊升级 AI 视频模型 Nova Reel 至 1.1 版本,现可生成最长两分钟的多镜头视频。用户输入最多 4000 个字符的提示词,模型能生成由六秒镜头组成的视频。新增“多镜头手动”模式,结合图片和提示词,最多生成 20 个镜头的视频。

来源:IT之家

特朗普称或对中国加码50%关税,贸易战将“围剿”全球芯片巨头|钛媒体AGI

芯片行业的真正命脉——5210亿美元的机械设备、4780亿美元的电子产品和3860亿美元的汽车终端进口,都将接受高达49%的关税冲击,最终会转嫁到消费者手中,并将损害全球芯片企业利益。

来源:钛媒体

4月7日·周一

全球风投交易量暴降32%!一季度AI赛道融资额占58%,亚洲不足10%|钛媒体AGI

PitchBook报告显示,2025年第一季度,全球风险投资交易数量达7551件,同比下降约31.95%;交易总价值达1263亿美元,同比上涨约53.46%。

来源:钛媒体

微软 Bing 重大革新:Copilot Search 上线,AI 与传统搜索结合

微软宣布 Bing 搜索引擎上线 Copilot Search 功能。工具将传统网络搜索与生成式搜索结果相结合,通过 Bing 检查多个网站信息,显示更详细准确的响应内容,提供引用和建议。

来源:IT之家

4月6日·周日

AI健身卷土重来,二次泡沫还是真正的颠覆?

AI健身不是简单将大模型融入硬件。

来源:钛媒体

4月5日·周六

知名华裔教授住宅遭美国FBI突袭,学术界声讨特朗普,超1200名科学家要离开美国|钛媒体AGI

香港大学讲座教授席宁早前对钛媒体AGI表示,现在地缘政治对学术领域的确有一些负面作用,但最关键的一点在于,中国人要把机器人科学研究这件事做好,走在世界前列,无论环境怎么恶劣怎么发展,我们都无所畏惧。

来源:钛媒体

4月4日·周五

西门子371亿收购美国AI科学软件独角兽,并已使用多种大模型加速工业AI布局|钛媒体AGI

西门子预计Dotmatics将在2025财年创造超过3亿美元的营收,调整后的息税折旧摊销前利润超过40%,中期收入协同效应预计为每年约1亿美元,长期内将增至每年5亿美元以上。该交易预计将于2026财年上半年完成。

来源:钛媒体

4月3日·周四

AI时代下的生态变革,制造企业该如何面对? | 钛媒体圆桌

蒸汽机替代的是简单体力劳动,而这一轮AI冲击的不仅是蓝领,甚至是复杂的脑力劳动。

来源:钛媒体

元鼎智能完成近10亿元融资,携手Fluidra加速全球市场布局

元鼎智能近日完成近10亿元人民币的战略融资,由全球泳池巨头Fluidra战略投资,云启资本加入,XVC、复星锐正、蜂巧资本等老股东增持。此次融资助力元鼎智能打通全球泳池专业渠道,实现从“线上领先”到“全渠道突破”的转型。

来源:元鼎智能Aiper

4月2日·周三

家电企业们,都有一个“统管全家”的野望

一场润物细无声的“AI生活革命”正在发生。

来源:钛媒体

阿里通义千问登顶全球开源模型榜首

阿里通义千问的端到端全模态大模型Qwen2.5-Omni登上Hugging Face全球开源模型总榜榜首。该模型可同时处理文本、图像、音频和视频等多模态输入,实时生成文本与自然语音合成输出。阿里至今已开源200多款模型,千问衍生模型数量突破10万,成为全球最大开源模型族群。

来源:界面新闻

国家天文台基于通义千问打造国际首个太阳大模型——“金乌”

国家天文台联合阿里云发布国际首个太阳大模型“金乌”,基于阿里通义千问系列开源模型打造。“金乌”在M5级太阳耀斑预报上准确率超91%,为该级别最高水平。模型以超90万张太阳卫星图像为样本训练,可预测未来24小时耀斑爆发情况及生成太阳模拟图像。解决了传统太阳预报难以处理海量观测数据的难题。

来源:阿里云

智元机器人与国际顶尖 Physical Intelligence(Pi)携手,引领具身智能全球创新

智元机器人宣布与国际顶尖具身智能公司Physical Intelligence(Pi)达成深度技术合作,聚焦动态环境下长周期复杂任务。智元机器人在具身智能领域拥有本体-数据-模型三位一体全栈布局,量产超1000台通用具身机器人。近期加入智元的罗剑岚博士将领导具身智能研究中心,推进合作。

来源:智元机器人

4月1日·周二

OpenAI完成400亿美元融资,估值3000亿美元,资金用于AI研究及扩大计算基础设施

OpenAI宣布完成400亿美元融资,投后估值达3000亿美元。本轮融资由日本软银领投300亿美元,微软及其他投资者参与。资金将用于推动AI研究及扩大计算基础设施。

来源:腾讯科技

第四范式2024年营收52.61亿元,戴文渊:消费电子业务不是转型而是业务多元化|看财报

2024年,第四范式归母净亏损2.69亿元,较2023年缩窄70.4%。钛媒体AGI基于第四范式财报趋势计算,2025财年内第四范式有望实现盈亏平衡或净利润为正。

来源:钛媒体

OpenAI宣布将开源推理模型,首次计划发布开放权重语言模型

OpenAI宣布将在未来几个月内推出一款具备推理能力的开放权重语言模型。是自GPT-2以来,OpenAI首次计划发布此类模型。OpenAI CEO Sam Altman表示,模型将遵循严格的准备框架进行评估,确保安全性与可靠性。OpenAI计划举办一系列开发者活动,收集反馈并展示早期原型,首场活动将在旧金山启动。

来源:APPSO

3月31日·周一

面壁发布首个纯端侧智能助手cpmGO,构建汽车超性能端侧大脑

面壁智能发布首个纯端侧智能助手——小钢炮超级助手cpmGO,赋能汽车智能座舱,提供纯端侧、超性能、全场景服务。助手具备视觉、语音、多模态等丰富能力,可实现端到端智能化应用,突破弱网断网限制,保护车内信息安全,支持9大类26款应用,提升使用便捷性。

来源:面壁智能

AI版论文搜索Ai2PaperFinder:输入主题AI自动搜索全部相关论文

在现代科研领域,Ai2PaperFinder作为一款强大的文献检索工具,致力于帮助研究人员高效获取相关学术论文。该平台汇聚了超过800万篇全文论文和1.08亿篇摘要,用户可以通过简单的关键词搜索,快速找到所需文献。此外,Ai2PaperFinder还具备文献合成的功能,能为用户提供详尽的答案,极大地节省了查阅时间。

来源:AI开发集

千寻智能完成5.28亿元Pre-A轮融资,领先VLA模型加速具身智能落地

千寻智能完成5.28亿元人民币Pre-A轮融资,由阿美风险投资旗下Prosperity7 Ventures领投,多家资本参与。本轮融资将加速其具身大模型迭代、机器人进化及人才团队建设。千寻智能成立于2024年,团队来自顶尖高校和知名企业,致力于打造通用人形机器人和下一代具身大模型。

来源:千寻智能 Spirit AI

智源发布首个跨本体具身大小脑协作框架与开源具身大脑RoboBrain

智源研究院在中关村论坛上发布首个跨本体具身大小脑协作框架RoboOS与开源具身大脑RoboBrain。RoboBrain融合任务规划、可操作区域感知、轨迹预测能力,通过多阶段训练,增强长程操作任务能力,可在多评测任务中超越多个领先模型。RoboOS基于“大脑-小脑”分层架构,实现多机器人协作,支持多类型具身本体,具备动态任务管理与优化能力。

来源:智源研究院

Wayve推完整世界模型GAIA-2:支持同时生成5个视角的视频,可模拟高风险场景

Wayve公司推出了GAIA-2视频生成世界模型,显著提升了自动驾驶系统的训练和验证能力。该模型能够生成多样化的驾驶场景,并支持同时生成五个视角的视频,增强环境感知。此外,GAIA-2还具备模拟高风险场景的能力,帮助开发者在受控环境中验证自动驾驶系统的安全性。

来源:AI开发集

3月30日·周日

对话芒果TV CTO卢海波:AI资本投入不设上限|钛媒体独家

芒果TV具有“国有属性+市场化运作”的特殊基因,除了打造AI大模型相关的能力,今年还要完成一道广电系统的大作业题。

来源:钛媒体

3月29日·周六

对话星纪魅族COO廖清红:AI要平权,手机是AI Device最大的终端

智能手机是AI Device最大的终端,从目前来看不可替代。

来源:钛媒体

3月28日·周五

GPT-4o「吉卜力风」一夜爆火,奥特曼连夜换头像!宫崎骏痛批AI侮辱生命

OpenAI 更新的 GPT-4o 原生图像生成功能因「吉卜力风格」图片生成一夜爆火。用户可将任何图像上传并请求 AI 转换为吉卜力风格,效果出色且操作便捷。功能引发了社交媒体热潮,奥特曼也换上了吉卜力风格的头像。宫崎骏曾批评 AI 作画是对生命的侮辱。

来源:新智元

阿里通义千问推出视觉推理模型 QVQ-Max:可分析、推理图片和视频内容

阿里通义千问团队发布新一代视觉推理模型 QVQ-Max。模型具备细致观察、深入推理和灵活应用三大核心能力,能快速解析图片和视频内容,识别关键元素并结合背景知识进行推理。能协助完成数据分析、编程等职场任务,帮助学生解答难题、推荐穿搭方案等。

来源:IT之家

PIKA新功能发布:AI视频技术“让您遇见更年轻的自己”

随着人工智能技术的快速发展,iPIKA推出了新功能“您可以遇见更年轻的自己”,允许用户通过上传童年照片和自拍视频生成互动视频。这一创新结合了科技与情感,用户可以自定义“年轻版自己”的动作和表情,生成真实感十足的视频,受到用户的高度评价。

来源:AI开发集

开源版Suno来了!AI音乐生成模型YuE可生成专业级的歌声和伴奏

YuE是由香港科技大学与DeepSeek合作开发的开源音乐生成模型,能够生成多种风格的音乐并模拟人声。其双LLaMA语言模型架构使其在音乐生成质量上达到了前所未有的高度,甚至与著名的闭源工具相抗衡。

来源:AI开发集

云学堂更名为绚星智慧科技,推出四项AI产品及服务 | 科技前线

据麦肯锡多份报告显示,AI Agent市场呈爆发式增长态势,2024年全球AI Agent市场规模约为51亿美元,预计2030年将飙升至471亿美元,复合年增长率高达44.8%。

来源:钛媒体

3月27日·周四

微信 AI 搜索新增“快速思考”,采用混元 T1 模型

微信AI搜索在“快速回答”和“深度思考”之外,新增“快速思考”选项,由腾讯混元T1模型提供支持。可快速生成回答,引用消息源包括公众号推文和网页信息,结果页面支持继续提问和社交分享,历史问答会保存在“最近”列表中。

来源:IT之家

首款AR眼镜曝光,Vidda正式进入可穿戴市场 | AWE 2025

Vidda在AWE 2025首发AR眼镜并推出QD-Mini LED电视与三色激光投影三款新品。

来源:钛媒体

阿里开源全模态模型Qwen2.5-Omni,7B尺寸实现全球最强性能

阿里通义千问Qwen2.5-Omni-7B正式开源。作为首个端到端全模态大模型,Qwen2.5-Omni可同时处理文本、图像、音频和视频输入,实时生成文本与自然语音输出。在OmniBench等多模态任务中刷新纪录,性能远超Google的Gemini-1.5-Pro等同类模型。

来源:阿里云

阿里通义千问开源发布新一代端到端多模态模型Qwen2.5-Omni

阿里云通义千问团队推出了Qwen2.5-Omni,这是一个新一代的多模态旗舰模型,旨在实现文本、图像、音频和视频的无缝处理。该模型采用了创新的Thinker-Talker架构,能够进行实时音视频交互,并在多模态任务中表现出色。Qwen2.5-Omni在多个领域的基准测试中超越了现有的单模态和封闭源模型,展示了其强大的性能与广泛的应用潜力。

来源:AI开发集

OpenAI宣布支持Anthropic的MCP标准

OpenAI的首席执行官山姆·阿尔特曼宣布,该公司将支持竞争对手Anthropic推出的模型上下文协议(MCP),旨在提升AI助手在特定查询中的响应准确性和相关性。MCP的整合将应用于多个OpenAI产品,包括ChatGPT的桌面应用程序。MCP允许AI模型从多种数据源获取信息,促进开发者与AI应用之间的双向连接。

来源:AI开发集

3月26日·周三

谷歌发布Gemini 2.5 Pro,多项测试夺冠,推理能力全面超越OpenAI

谷歌发布Gemini 2.5 Pro,是Gemini 2.5思考模型家族的首个成员。模型在多项基准测试中表现卓越,以1443分在大模型竞技场获断层第一,领先优势达39分,全面超越OpenAI o3-mini等多款知名模型。在“人类最后考试”中,得分较OpenAI o3-mini提升近5%,提升比例达34%。Gemini 2.5 Pro支持100万tokens上下文窗口。

来源:智东西

OpenAI发布GPT-4o图像生成功能,免费向用户开放

OpenAI宣布在GPT-4o模型中集成先进图像生成功能,用户可通过自然语言指令生成和编辑图像。新功能支持多轮对话优化图像,保持内容一致性,能处理10至20个物体的复杂指令,远超其他模型。支持文本渲染、风格转换和上下文关联生成。

来源:IT之家

谷歌Gemini Live推出实时AI视频新功能,实时交互能力再升级

谷歌在MWC上承诺的Project Astra与Gemini Live集成功能正式上线。Gemini Live新增屏幕共享功能,用户可通过“Share screen with Live”按钮让AI读取手机屏幕信息并回答问题。实时视频功能可让Gemini通过手机摄像头解读画面并即时回答相关问题。

来源:机器之心

零成本拍爆款!AI电商视频生成神器Product Anyshoot来了

Product Anyshoot是一款创新的AI视频生成工具,专为电商行业设计,旨在提升商品展示的效率和真实感。商家只需上传商品图片,系统便能智能地将商品融入预制视频中,极大地简化了制作流程。这款工具的商品还原度极高,生成的视频质量达到商业标准,帮助中小型商家在市场竞争中脱颖而出。

来源:AI开发集

腾讯云宣布上线DeepSeek最新版V3模型API接口

腾讯云于3月25日晚宣布推出DeepSeek-V3-0324版本模型的API接口,允许企业和开发者直接调用该模型,提供稳定优质的服务。新版本在推理任务、编程能力和中文写作等方面有显著提升,特别是在数学和代码评测中超越了GPT-4.5。

来源:AI开发集

3月25日·周二

Trae 支持配置 DeepSeek V3 最新版

Trae宣布支持配置DeepSeek V3最新版(DeepSeek-V3–0324)。Trae是国内首个AI原生IDE,专注于中文开发场景,支持自定义模型接入。DeepSeek-V3–0324拥有6850亿参数,是基于DeepSeek V3的小版本升级。开发者可通过简单配置接入该模型,提升编程体验。

来源:Trae&MarsCode

美团已开发内部大模型 LongCat,AI 策略是主动进攻

美团CEO王兴在财报电话会议中表示,美团在人工智能领域采取“主动进攻”策略,定位为连接数字世界与物理世界的桥梁。美团已开发内部大语言模型LongCat,用于日常工作,推出AI编码、智能会议与文档助手等工具,将集成其他主流模型助力产品研发。

来源:IT之家

PiT框架横空出世,

PiT(基于视觉零件的图像生成框架)是一项颠覆性的技术创新,能够通过输入零散的图像片段自动生成完整的图像。该框架不依赖传统的文字提示,而是通过智能分析用户提供的图像碎片,生成风格一致、细节完整的作品。

来源:AI开发集

抢占AI原生应用入口,百度上线首个无代码开发平台

AI应用大爆炸的前夜来了?

来源:钛媒体

王炸!DeepSeek-V3-0324悄然发布 ,免费商用,消费级电脑也能跑!

DeepSeek-V3-0324的发布标志着人工智能领域的一次重大突破。这款容量高达641GB的模型以其卓越的性能和开源许可吸引了广泛关注。与传统的付费模型不同,DeepSeek-V3-0324允许用户免费下载和商业使用,打破了行业壁垒。

来源:AI开发集

3月24日·周一

百川智能携手北京儿童医院发布全球首个儿科大模型“福棠·百川”,双医模式助力基层医疗

百川智能携手北京儿童医院发布全球首个儿科大模型“福棠·百川”,推出两款AI儿科医生应用(基层版和专家版)。模型覆盖儿童常见病与疑难病症知识体系,首创儿科“循证模式”,整合医学证据为患儿制定个性化诊疗方案。

来源:百川大模型

OpenAI推出三大音频模型,语音交互技术迈向新高度

OpenAI推出新一代音频模型,包括语音转文本和文本转语音功能。gpt-4o-transcribe显著降低单词错误率,优于现有Whisper模型;gpt-4o-mini-transcribe是精简版本,速度更快、效率更高;gpt-4o-mini-tts首次支持“可引导性”,开发者可控制语音风格。

来源:APPSO

蚂蚁自研2900亿大模型用国产AI芯片训练,计算成本508万元低于DeepSeek|钛媒体AGI

这是蚂蚁集团首次详细披露其在AI算力技术层面的进展。

来源:钛媒体

AbletonMCP :调用Ableton的MCP服务,让Claude能够创作音乐

AbletonMCP 是一款创新工具,通过模型上下文协议将音乐制作软件 Ableton Live 与 Claude AI 连接,提供了一种全新的音乐创作体验。该系统由 Ableton 远程脚本和 MCP 服务器组成,用户可以通过 Claude 与 Ableton 进行互动,执行各种音乐制作指令。

来源:AI开发集

新一代AI图像生成模型Reve Image震撼登场,引领创作新潮流

Reve Image是一款全新的AI图像生成模型,专注于提升美学表现和提示遵循能力,旨在为用户提供高质量的视觉创作体验。该模型展现出强烈的设计感,生成的作品简洁大气,具有海报风格的视觉冲击力。用户反馈其生成能力已足以媲美市场领先技术,且平台设计友好,操作流畅。

来源:AI开发集

3月23日·周日

西门子董事长博乐仁:DeepSeek模型等中国创新正不断给世界带来惊喜|钛媒体AGI

“随着AI、大语言模型、Copilots,尤其AI智能体的爆发,科技颠覆的浪潮正以前所未见的速度席卷而来。”博乐仁表示,西门子在中国拥有一支约3万人的团队,并已服务5万多家客户。

来源:钛媒体

3月22日·周六

破界融合!北京首家AI+新材料全流程智能实验室落地沙河高教园

沙河高教园区作为科技创新“策源地”和人才培养“新高地”,汇聚了北航、北师大等8所顶尖高校7万名师生,其中包括29名院士在内的1000余名高层次人才,获评2023全市唯一一家中国产学研合作创新示范基地,在航空航天、新一代信息技术等领域产出了一批重大成果,为区域高质量发展注入了强劲动能。

来源:钛媒体

3月21日·周五

高中生利用《我的世界》搭建AI模型评测网站,全民参与评判模型优劣

随着人工智能技术的迅速发展,评估和比较生成式AI模型的能力成为了一大挑战。MC-Bench网站通过《我的世界》游戏提供了一种新颖的评测方式,用户可以在不知情的情况下对AI生成的建筑进行投票。这一创意不仅提高了公众参与度,还为AI模型的评估提供了直观的视觉体验。

来源:AI开发集

谷歌前科学家出品!Reka开源Reka Flash3,能力超Gemma327B

Reka AI最近推出了其首个开源模型Reka Flash3,这款拥有210亿参数的通用推理模型在业内引起了广泛关注。尽管参数量不如一些竞争对手,但其从零开始训练的特性和深度优化使其在性能上表现出色。Reka Flash3不仅具备强大的推理能力,还支持低延迟和设备友好的部署,适合多种终端使用。

来源:AI开发集

AI家电热潮下的冷思考,技术理想与现实的落差|AWE 2025

AWE,AI成了必贴的标签。

来源:钛媒体

3月20日·周四

投资者关心AI与电商,但腾讯更想提游戏和广告

互联网巨头有史以来资本支出规模最高的AI大战,已经拉开帷幕。

来源:钛媒体

阶跃星辰开源图生视频模型 Step-Video-TI2V,运动可控,动漫效果尤佳!

上海阶跃星辰宣布开源图生视频模型 Step-Video-TI2V。模型基于30B参数,支持生成102帧、5秒、540P分辨率的视频,具备运动幅度可控和镜头运动可控两大核心特点,在动漫风格视频生成方面表现出色。

来源:阶跃星辰

LG开源EXAONE Deep模型,号称韩国首个自研推理AI模型

LG AI Research最近开源了EXAONE Deep推理AI模型,标志着AI进入了主动式AI的新纪元。该模型以320亿参数展现出卓越的推理能力,尤其在逻辑推理和数学领域表现出色,获得94.5分的高考数学成绩,堪比学霸。

来源:AI开发集

OpenAI 推出最贵 o1-pro API,定价远超 DeepSeek

OpenAI 推出了最昂贵的API——o1-pro。是o1的升级版,使用更多计算资源以提供更优质响应,仅对特定开发者开放(Tier 1–5)。定价极高:每百万输入token收费150美元,输出token收费600美元。

来源:机器之心

运动可控!阶跃星辰 Step-Video-TI2V 图生视频模型开源

上海阶跃星辰智能科技有限公司推出的Step-Video-TI2V模型在图生视频领域具有显著的创新性。该模型基于30B参数的Step-Video-T2V,能够生成高质量的视频,并具备运动幅度和镜头运动的可控性,特别适合动画创作和短视频制作。通过优化生成一致性和动态性,该模型为创作者提供了更灵活的选择,能够满足多种尺寸和效果的需求。

来源:AI开发集

3月19日·周三

马斯克xAI公司收购视频生成初创公司Hotshot,加速布局AI视频领域

马斯克的xAI公司收购了 Hotshot 视频生成初创公司。Hotshot由4人组成,在13个月内开发出3款视频生成模型,包括Hotshot-XL、Hotshot Act-One和Hotshot。Hotshot模型可生成最长10秒的720p视频。公司由Aakash Sastry和John Mullan于2017年创立,曾获Reddit联合创始人Alexis Ohanian等投资。

来源:量子位

豆包编程能力再升级,3分钟做出专属小游戏

字节跳动旗下的AI智能助手豆包宣布AI编程能力升级,新增HTML预览、Python运行和完整项目生成三项功能。用户可通过豆包快速制作小游戏等互动网页。豆包支持HTML代码实时预览和交互,Python代码直接运行并提供一键报错修复,能生成完整项目代码,无需分别编写前后端逻辑。

来源:豆包

性能暴增150%的地表最强AI芯片发布,英伟达捍卫算力“霸主”|钛媒体AGI

“我们现在必须以10倍的速度计算,我们要做的计算量要是当前的10倍、100倍。”黄仁勋预测未来几年,就AI革命而言,英伟达仍然发挥着真正的作用,而不是躺在“功劳簿”上。

来源:钛媒体

昆仑万维开源Skywork R1V视觉思维链推理模型

昆仑万维推出全球首个开源多模态推理模型Skywork R1V,具有38亿参数,性能接近知名闭源模型DeepSeek-R1。R1V在视觉问答和复杂推理任务中表现优异,特别是在MMMU和MathVista基准测试中分别取得69分和67.5分的高分。

来源:AI开发集

Stability AI 发布新模型Stable Virtual Camera,2D 照片轻松转3D 视频

Stability AI推出的Stable Virtual Camera是一款创新的人工智能模型,能够将2D图像转换为沉浸式视频,提供真实的深度和视角。该模型允许用户从一张或多张图像中生成新视角,并指定相机角度,支持多种动态效果。然而,当前版本仍为研究预览版,存在在特定场景下质量下降的风险。

来源:AI开发集

3月18日·周二

秘塔AI搜索升级:文字秒变可视化网页

秘塔AI搜索升级模型,推出“生成互动网页”功能。用户可在研究模式下将文字内容秒变互动网页,或通过粘贴文章链接快速生成,核心观点一目了然。支持上下滑动查看更多内容,登录后署名分享。

来源:AI秘塔

QwQ-32B登陆!超算互联网MaaS服务再上新

超算互联网平台推出 QwQ-32B 推理大模型服务。QwQ-32B 已集成至平台的 Chatbot 可视化对话服务和 API 在线调用服务。用户可通过平台一级栏目直接体验其多轮交互和长文本解析能力,满足学术研究、代码生成、日常咨询等需求。

来源:超算互联网

即时AI搜索激战:抖音向左做百科,小红书向右攻点评

差异化定位百科和点评。

来源:钛媒体

Anthropic发布MCP传输机制重大升级:告别长连接,迎接更灵活的Streamable HTTP

Anthropic对Model Context Protocol(MCP)进行了重大更新,推出了Streamable HTTP传输方式,取代了传统的HTTP+SSE方案。这一创新解决了MCP远程传输的关键限制,提升了灵活性和兼容性。新机制允许客户端与服务器之间更高效的双向通信,支持无状态服务器运行,简化了部署流程,并提高了系统的可扩展性。

来源:AI开发集

谁说视频只能“一镜到底”?字节创新技术LCT,让AI像导演一样拍摄电影大片!

长上下文调整(LCT)技术的出现,极大提升了AI生成视频的叙事能力,使其能够像电影导演一样自由切换镜头,构建更连贯的故事场景。通过引入全注意力机制、交错的3D位置嵌入和异步噪声策略,LCT解决了多镜头生成中的视觉一致性和时间动态问题。

来源:AI开发集

3月17日·周一

零一万物推出万智,打通企业大模型“最后一公里”,确认不再做超大基模迭代

李开复创立的AI独角兽零一万物宣布推出万智企业大模型一站式平台,为企业级DeepSeek部署提供定制解决方案。平台预装高性能GPU,内置DeepSeek全系列模型,支持多种前沿模型架构,具备灵活扩展性,AI搜索产品准确性高达88%。

来源:钛媒体AGI

首个国产Agent开发框架!仓颉社区发布Cangjie Magic,原生支持鸿蒙等全平台!

Cangjie Magic是一个创新的智能体开发框架,基于华为自研的仓颉编程语言,旨在重塑智能体开发的方式。该框架通过独特的Agent DSL架构、原生支持MCP通信协议和智能调度引擎,提供了全面的智能体生命周期管理。

来源:AI开发集

李开复公布零一万物企业大模型一站式平台,确认不再做超大基模迭代 | 钛媒体AGI

李开复强调,零一万物的创业初衷未变,一直都是Make Al Work,创业者应尊重商业规律,回归商业本质。未来的大模型的行业竞争将不再单指模型性能的比拼,更关乎从中台到应用的能力。

来源:钛媒体

百度发布文心大模型4.5及X1,两款模型免费上线

百度发布文心大模型4.5和文心大模型X1,在文心一言官网免费开放。文心大模型4.5是新一代原生多模态基础大模型,具备优秀的多模态理解能力和精进的语言能力,通过关键技术如FlashMask动态注意力掩码等实现能力提升。文心大模型X1是能力更全面的深度思考模型,能自主运用工具,在多种场景表现出色。

来源:百度

Cohere 发布AI模型Command A,两块GPU就能高效运转,企业部署成本降50%

Cohere推出的Command A模型以其仅需两块GPU的低硬件需求和高达50%的成本节省,打破了高性能AI的传统门槛。其1110亿参数的设计结合优化的Transformer架构,使得企业能够在处理复杂任务时,享受超长的上下文窗口和多语种支持。

来源:AI开发集

3月16日·周日

抖音游戏、社交变阵,流量巨头来到新战局

追逐流量的决策路径,就像一记回旋镖。然而,AI应用新势力,也必须要借力传统互联网流量机器的强大势能,或者与流量机器本身,开展一场用户注意力的争夺战争。

来源:钛媒体

3月15日·周六

抖音游戏、社交变阵,流量巨头来到新战局

追逐流量的决策路径,就像一记回旋镖。然而,AI应用新势力,也必须要借力传统互联网流量机器的强大势能,或者与流量机器本身,开展一场用户注意力的争夺战争。

来源:钛媒体

3月14日·周五

国家队出手,通用人形机器人打响第一枪 | 钛媒体焦点

人形机器人,每日一变。

来源:钛媒体

3月13日·周四

阿里巴巴推出AI旗舰应用——新夸克,发布“AI超级框”

阿里巴巴推出全新AI旗舰应用“新夸克”。新夸克基于阿里通义领先的推理及多模态大模型,全面升级为无边界的“AI超级框”,为2亿用户带来全新AI体验。与对话式AI不同,夸克将AI对话、深度思考、深度搜索、深度研究、深度执行整合到一个极简“AI超级框”内,一站式满足用户需求。

来源:阿里巴巴

谷歌开源新一代多模态模型 Gemma-3:性能卓越、成本降低10倍

谷歌最新发布的多模态大模型Gemma-3以其低成本和高性能引起了广泛关注。该模型支持多种参数规模,最大可达270亿参数,且仅需一张H100显卡进行高效推理,算力需求显著降低。Gemma-3在对话模型评比中表现优异,支持长文本处理和多模态数据,展现出强大的语言处理能力和创新的架构设计,是当前算力要求最低的高性能模型之一。

来源:AI开发集

芯片巨头美光科技的新加坡工厂突发断电,如今已对供应商涨价超10%解决业绩困境|钛媒体独家

钛媒体硅基世界独家了解到,目前美光已经向供应商要求NAND闪存芯片涨价10%以上,以解决美光营收利润下降困境。

来源:钛媒体

智元机器人与阶跃星辰达成战略合作,共同探索AI+具身智能场景

智元机器人与阶跃星辰正式签署战略合作协议。双方将利用各自优势,在具身智能与大模型领域展开全方位合作,聚焦新零售等场景解决方案开发、具身智能数据合作及世界模型技术探索。

来源:智元机器人

谷歌推机器人控制模型Gemini Robotics,让机器人像人类一样思考行动

谷歌的Gemini Robotics是一个革命性的机器人控制模型,旨在将人工智能的智慧注入机器人,使其在物理世界中更智能地行动。基于Gemini2.0模型,Gemini Robotics具备强大的多模态理解能力,能够理解文本、图像、音频和视频,并具备出色的泛化能力,能快速适应新环境和指令。

来源:AI开发集

3月12日·周三

Manus将与阿里通义千问团队正式达成战略合作

Manus平台宣布与阿里通义千问团队达成战略合作。双方将基于通义千问系列开源模型,在国产模型和算力平台上实现Manus的全部功能,为中国用户打造更具创造力的通用智能体产品。

来源:财联社

Fusion Fund宣布四期基金超募1.9亿美元,深化AI及前沿科技投资布局

3月12日消息,Fusion Fund 宣布 1.9 亿美元的第四期基金募资,目前管理资金总规模超过5亿美元。

来源:钛媒体

视频局部编辑技术VideoPainter:输入提示词自动识别修改,支持长视频

VideoPainter是一款基于深度学习的视频编辑工具,能够通过简单的提示词自动识别并修改视频内容,尤其适合长视频处理。用户只需输入简短的指令,系统便能快速完成编辑,极大提升了视频制作的效率。其背后的Diffusion Transformer模型使得编辑过程更为精准,用户可以轻松实现创意转化,真正改变了视频编辑的游戏规则。

来源:AI开发集

阿里通义开源R1-Omni模型 可提升多模态情感识别能力

通义实验室团队于3月11日开源了R1-Omni模型,标志着全模态模型的发展取得了重要进展。该模型通过结合强化学习与可验证奖励的方法,显著提升了多模态情感识别的推理能力和泛化性能。训练过程分为冷启动和RLVR两个阶段,确保了模型在多模态情感识别任务中的稳定性和效率。

来源:AI开发集

李飞飞团队新成果 BEHAVIOR Robot Suite:500美元打造全能家务机器人

李飞飞团队推出具身智能新成果——BEHAVIOR Robot Suite(BRS),解决机器人在家庭环境中完成家务任务的全身操作问题。BRS的核心组件成本不到500美元,具备三项关键能力:双臂协同、稳定导航和末端执行器的广泛操作范围。团队通过JoyLo低成本遥操作接口和WB-VIMA学习算法,实现了高效的数据采集和全身动作协调。

来源:量子位

3月11日·周二

豆包大模型团队 COMET 系统开源,万卡集群部署节省数百万 GPU 小时

字节跳动豆包大模型团队推出通信优化系统 COMET,针对 MoE 模型分布式训练中的通信瓶颈,通过细粒度计算-通信重叠技术,实现单层 1.96 倍加速,端到端平均 1.71 倍效率提升。COMET 已在万卡级生产集群落地,节省数百万 GPU 小时资源,获 MLSys 2025 高分评审,核心代码已开源。

来源:豆包大模型团队

科大讯飞联合华为率先实现国产算力大规模跨节点专家并行集群推理

科大讯飞与华为联合团队在国产算力领域取得重大进展,率先突破了国产算力集群上MoE模型的大规模跨节点专家并行集群推理。通过软硬件深度协同创新,团队在昇腾集群上完成了验证和部署,实现了显著的性能提升。

来源:科大讯飞研究院

网易有道突破翻译大模型,14B小参数垂类模型全量上线应用|钛媒体独家

14B小参数垂类模型,意味着在训练和推理时,消耗的计算资源更少,部署的成本更低,更容易集成到现有系统和设备中,适合更多的实际场景。

来源:钛媒体

OpenAI 发布 CoT 思维链研究成果,监控阻止大模型恶意行为

OpenAI公布最新研究,通过CoT(思维链)监控方式监控推理模型的“想法”,阻止AI大模型恶意行为,如胡说八道、隐藏真实意图等。测试中,以o3-mini为被监控对象,GPT-4o为监控器,在编码任务环境下,CoT监控器检测系统性“奖励黑客”行为召回率达95%,远超仅监控行为的60%。

来源:IT之家

Manus AI系统提示词泄露,官方这样回应

Manus AI系统刚上线便吸引了大量用户关注,然而不久后系统被用户jian破解,获取了重要信息。该系统并非独立模型,而是基于Claude Sonnet构建,并配备29种工具。Manus团队对此回应,强调用户可以直接访问沙盒,代码仅用于接收命令,并表示将开源更多内容。季逸超提到使用Claude及Qwen微调版本,正在测试Claude3.7,期待其更新潜力。

来源:AI开发集

3月10日·周一

智元发布首个通用具身基座大模型GO-1

智元机器人发布首个通用具身基座大模型Genie Operator-1(GO-1)。模型基于创新的Vision-Language-Latent-Action(ViLLA)架构,融合多模态大模型(VLM)和混合专家系统(MoE),通过预测隐式动作标记,弥合图像-文本输入与机器人动作执行之间的差距。

来源:智元机器人

超算互联网QwQ-32B API接口服务上线,免费100万Tokens

超算互联网平台上线阿里巴巴开源推理模型QwQ-32B的API接口服务,提供免费100万Tokens。QwQ-32B基于Qwen2.5-32B+强化学习构建,在数学和代码能力上表现优异。用户可通过超算互联网平台快速开发或私有化部署该模型,平台提供保姆级教程,支持多种访问形式。

来源:超算互联网

推理版局部重绘方法LanPaint,零训练修复图片

LanPaint 是一款由开发者 scraed 在 GitHub 上发布的图像修复工具,旨在提供高质量的图像修复效果,且无需额外训练。该工具通过多次迭代优化模型的去噪过程,从而实现无缝修复。用户可以简单集成,使用标准的 ComfyUI KSampler 流程,降低了使用门槛。LanPaint 还支持多种复杂的修复任务,展现出强大的图像处理能力。

来源:AI开发集

Firecrawl推出LLM.txt API:提供网址即可生成任意网站的LLM.txt

Firecrawl最近推出了LLMs.txt生成器接口(Alpha版),旨在帮助用户将任何网站的内容转化为适合大语言模型(LLM)训练的文本文件。用户只需提供网站URL,系统便会自动抓取内容并生成llms.txt和llms-full.txt两种格式的文本文件,便于分析和训练。该功能虽然在Alpha阶段,但提供了异步处理和状态监控,用户可设置爬取页面数量及是否生成完整文本。

来源:AI开发集

CAMEL-AI推出OWL项目:0天复刻Manus,开源且性能卓越

CAMEL-AI开源社区推出OWL项目,成功0天复刻Manus通用智能体完全开源,性能在GAIA Benchmark上达到57.7%,超越Huggingface的Open Deep Research(55.15%)。OWL项目免费,支持GitHub一键克隆,提供云端和本地两种执行环境。

来源:CAMEL-AI

3月9日·周日

通用Agent未来形态什么样?

一个对话框,调动多种工具。

来源:钛媒体

3月8日·周六

3月7日·周五

三小时复刻Manus!OpenManus横空出世,斩获GitHub3000+星标

OpenManus项目在短短三小时内复刻了Manus智能体,并迅速在GitHub上获得了超过3300个星标。该项目的安装过程简单易行,仅需修改配置文件即可使用。OpenManus集成了多个顶级大模型,展现出强大的任务处理能力,能够将复杂任务分解为清晰步骤,生成详尽报告。

来源:AI开发集

号称全球性能最高!Mistral 发布全新 OCR API 全方位解析文档

Mistral推出的OCR API,Mistral OCR,旨在提升企业文档理解能力,能够精准提取各种文档中的信息并整理为结构化数据。它支持多语言和多模态处理,保留文档格式,提供自托管选项,并与大型语言模型集成,极大地提升了文档处理的速度和准确性。对于面临非结构化数据挑战的企业而言,Mistral OCR无疑是一项革命性的技术,助力企业实现数字化转型。

来源:AI开发集

3月6日·周四

智源开源多模态向量模型BGE-VL:多模态检索新突破

智源研究院联合多所高校开发了多模态向量模型 BGE-VL,推动多模态检索技术的突破。模型基于大规模合成数据集 MegaPairs 训练,具备优异的可扩展性和数据质量。MegaPairs 通过自动化挖掘和标注多模态数据,仅需传统数据量的 1/70 即可实现更优效果。

来源:智源研究院

IBM 推出小型AI模型 Granite3.2,强调高效推理与实用性

IBM最近推出了Granite3.2大型语言模型,专注于为企业和开源社区提供高效、实用的人工智能解决方案。该模型具备多模态和推理能力,提升了灵活性和成本效益,特别是在文档处理和数据提取方面表现出色。Granite3.2还引入了思维链功能和小型化的安全模型Granite Guardian,确保在降低成本的同时保持高性能。

来源:AI开发集

逐际动力半年完成5亿元融资,阿里、蔚来、联想等巨头加持

具身智能机器人公司「逐际动力」近期完成A+轮融资,半年内累计融资5亿元人民币。此次融资由阿里巴巴、蔚来资本、联想创投等多家知名机构参与,将用于加速人形机器人研发与商业化落地。专注于全尺寸通用人形机器人及双足机器人开发。

来源:36氪

通义千问QwQ-32B,更小尺寸,性能比肩全球最强开源推理模型

阿里云通义千问团队推出320亿参数的推理模型QwQ-32B,性能媲美6710亿参数的DeepSeek-R1。模型通过大规模强化学习提升推理能力,在数学推理、编程能力等多领域表现卓越,超越多个领先模型。QwQ-32B集成Agent能力,支持批判性思考与动态调整。

来源:通义千问Qwen

全球首款通用智能体爆火,Manus

全球首款通用智能体Manus引发了科技圈的广泛关注。Manus具备独立思考和执行复杂任务的能力,能够交付完整成果,展现出强大的通用性。它不仅能处理日常事务,还能进行深入市场调研、个性化旅行规划等多种任务。在二手交易市场,Manus邀请码价格从999元到5万元不等,甚至有的卖家表示不接受还价,显示出该产品的稀缺性。

来源:AI开发集

3月5日·周三

OpenAI宣布提供3.6亿,联合15个大学和机构建立NextGenAI教育联盟

OpenAI宣布成立NextGenAI教育联盟,联合15家顶尖大学和机构,包括加州理工学院、哈佛大学、麻省理工学院、牛津大学等。OpenAI将提供5000万美元(约合人民币3.6亿元)的研究补助金、计算资源和API访问权限,支持学生、教育工作者和研究人员推进AI研究与教育创新。

来源:钛媒体AGI

开源RISC-V消息引发芯片股暴涨,英伟达、高通、华为等大厂早已入局|硅基世界

知合计算CEO孟建熠日前对钛媒体AGI表示,如今大模型来了,对于RISC-V、X86、ARM这些架构都是新机会,就看谁能够在这个架构里面演进得最快。但是,RISC-V可以做得更快,它在“快”上面有更好的优势。

来源:钛媒体

Vidu API 开放平台全面开放,开启智能化内容生产范式

全球领先的专业级视频生成服务Vidu API开放平台全面开放,面向企业级用户与个人开发者。具备多模态语义理解能力,支持文字、图片等多模态指令输入,精准匹配创作意图。动漫风格稳定,画面流畅,帧间一致性高,首创多主体一致性技术,突破模型上下文理解限制。

来源:Vidu AI

全新技术 Fast3R :实现千张图片一键3D 重建,速度惊人!

Fast3R是一种创新的多视角3D重建技术,能够在一次前向传播中处理多达1500张图片,显著提高重建速度。与传统的DUSt3R方法相比,Fast3R利用基于Transformer的架构并行处理视图信息,省去复杂的对齐过程,提升了推理速度并减少误差积累。

来源:AI开发集

微软开源图片模型ART,可生成多图层透明图片

在图像生成领域,微软研究人员推出的“Anonymous Region Transformer”(ART)技术,革新了用户与生成模型的互动方式。通过匿名区域布局,ART能够根据全球文本提示直接生成多层透明图像,并引入逐层区域裁剪机制,大幅提升生成效率,速度比传统方法快12倍。

来源:AI开发集

3月4日·周二

秘塔AI搜索推出视频搜索功能,高效学习娱乐新体验

秘塔AI搜索推出新功能,新增“视频”搜索模块。功能基于对上亿条视频内容的分析,覆盖多模态数据,用户可通过关键词快速找到学习或娱乐视频。

来源:AI秘塔

百川智能调整业务布局,聚焦医疗领域

百川智能近期对To B业务进行重大调整。2025年3月3日,金融行业To B团队被裁撤,此前,团队曾负责金融领域的大模型商业化,推出Baichuan4-Finance等产品。此次调整是为聚焦医疗领域,百川已在该领域布局,如投资医疗数据服务商“小儿方”并计划落地AI医生助理。

来源:智能涌现

超强视频生成模型 Wan2.1GP:低配GPU也能搞定大片!

DeepBeepMeep团队推出的Wan2.1GP是一个针对低端GPU用户优化的视频生成模型,基于阿里巴巴的Wan2.1,旨在为缺乏高性能GPU资源的用户提供强大的视频生成能力。该模型在多个基准测试中表现优异,支持多种生成任务,并具备中英文文本生成能力,标志着视频生成技术的一个重要进步。

来源:AI开发集

重磅!MiniMax推全新图像生成模型 Image-01,使用成本仅为1/10

MiniMax最近推出了其首款文本到图像生成模型Image-01,标志着AI图像生成技术的新进展。该模型以其卓越的提示控制能力和视觉构图能力而备受瞩目,用户可以创造出逻辑一致且艺术感十足的图像。此外,Image-01的高效批处理功能和极具竞争力的价格,使得专业级AI创作变得更加易于获取。用户能够以更低的成本体验到电影级质量的图像,极大地拓展了他们的创意空间。

来源:AI开发集

3月3日·周一

智谱AI完成超10亿元新轮战略融资,杭州城投产业基金参与投资

智谱AI完成超10亿元战略融资,投资方包括杭州城投产业基金等。两轮融资期间近三个月DeepSeek的RL训练模式引发行业变革,促使OpenAI等公司调整战略,降低GPT-4 Turbo价格考虑开源。智谱AI在开源生态和基座模型上持续投入,计划发布并开源全新大模型产品,同时调整B端与C端业务,强化行业定制化与多模态交互体验。

来源:智谱

科大讯飞星火X1升级,推出星火一体机及多款新品

科大讯飞宣布星火X1大模型升级,并发布多款新品。星火X1在数学能力上显著提升,首发星火医疗大模型X1,已应用于“讯飞晓医”,在医疗推理任务上超越GPT-4o和DeepSeek R1。科大讯飞联合华为升级星火一体机,推出医疗、政务、高教、法律、警务五大场景一体机,发布首款“星火X1+DeepSeek”双引擎AI学习机,推动AI在多领域的深度应用。

来源:科大讯飞

开源OCR工具olmOCR:高效实现 PDF 转文本,支持表格与手写识别

olmOCR是一款开源的光学字符识别工具,专注于将PDF及其他文档高效转换为可编辑文本。它不仅支持普通文本提取,还能处理表格、数学公式和手写内容,极大地方便了用户的文档处理需求。该工具经过大量文献训练,具备高准确率,减少错误生成。用户可在线体验或在本地GPU上部署,享受更快的处理速度,满足不同需求。

来源:AI开发集

杭州国资参投,智谱完成超10亿元战略融资|钛媒体AGI

这是继包括DeepSeek在内的“杭州六小龙”热潮之后,杭州国资首次参与AI大模型公司投资,同时,这也有可能是智谱IPO之前重要的一轮战略融资。

来源:钛媒体

中国2025一季度人工智能现状分析:摆脱“学生”标签,从追赶者到竞争者

2025年第一季度,中国AI的发展状况令人瞩目,已从追赶者转变为竞争者。报告显示,中国的AI技术在多个领域取得显著进展,尤其是在推理能力和智能指数方面,部分模型已接近美国顶尖水平。尽管面临出口管制等挑战,中国AI展现出强大的适应能力和创新速度,未来竞争将更加激烈。

来源:AI开发集

2月27日·周四

Anthropic 全面开放 Claude AI 的 GitHub 集成,赋能所有开发者

Anthropic宣布全面开放Claude AI的GitHub集成,面向免费、Pro和Teams用户。集成后,用户可将GitHub代码库同步至Claude,使其理解代码上下文,辅助测试、调试和优化代码。

来源:IT之家

人形机器人爆火背后,寻找中国供应链的“隐形冠军”

当下,站在人形机器人的潮头,作为前沿科技长期的观察者和记录者,钛媒体现发起《寻找中国供应链“隐形冠军”之人形机器人篇》系列专题报道,以及《人形机器人创新产业链榜单》征集活动。

来源:钛媒体

B站文本转语音模型IndexTTS :支持拼音纠正汉字发音、精准控制停顿

B站推出的IndexTTS模型是基于XTTS和Tortoise的GPT风格文本转语音系统,具备独特的拼音纠正汉字发音能力和精准的停顿控制。经过数万小时的数据训练,IndexTTS在字词错误率和音质评测中表现优异,超越了多款流行的TTS系统,展示了行业领先的性能。

来源:AI开发集

ElevenLabs 发布 Scribe 语音转文本模型,准确率创新高、英语达96.7%

ElevenLabs 最近推出了其最新的语音转文本模型 Scribe v1,声称在多种语言中达到了最高的准确性。该模型支持99种语言,能够在复杂音频环境中准确区分多达32位不同说话者。Scribe 的定价为每小时0.40美元,并在未来六周内提供50%的折扣。

来源:AI开发集

2月26日·周三

通义万相开源视频生成模型Wan2.1:8.2G显存即可生成480P视频

通义万相最新发布的Wan2.1模型专注于高质量视频生成,凭借其卓越的性能和创新技术,成为创作者和企业用户的首选工具。该模型在Vbench评测中取得了86.22%的高分,领先于其他视频生成模型,展现出显著的性能优势。Wan2.1通过高效的3D因果VAE模块和Diffusion Transformer架构,优化了视频生成和推理效率,为用户提供了灵活的开发和部署选择。

来源:AI开发集

微软开源全新多模态 AI Agent “Magma”:可自动下单与行为预测

微软最近在官网上开源了名为“Magma”的多模态AI Agent基础模型。Magma能够跨越数字和物理世界,处理图像、视频和文本等多种数据类型,并具备心理预测功能,能够更准确地理解人物或物体的意图。这款AI的应用场景非常广泛,不仅可以帮助用户进行日常操作如自动下单和查询天气,还能控制实体机器人并提供实时帮助。Magma的推出标志着智能助手和机器人技术的重大进步,特别适合用于AI驱动的助手或机器人,…

来源:AI开发集

百度,是时候想“开”了

“百度一下”,还是14亿人的第一选择吗?

来源:钛媒体

2月25日·周二

声网母公司发布2024年财报,Q4净利润16万美元实现扭亏为盈|钛媒体AGI

Agora, Inc.创始人、CEO赵斌表示,在未来2年内,包括多模态或语音对话,AI 体验将开始增长为更实际的用例,目前,声网和Agorad都在致力于打造“人工智能语音代理的关键基础设施”。

来源:钛媒体

商汤小浣熊家族全面升级:多模态融合

商汤科技在2025全球开发者先锋大会上宣布了其AI生产力工具——商汤小浣熊家族的全面升级,强化了多模态能力,推动AI应用加速落地,向AI Agent演进。这次升级不仅提升了工具的性能,还使AI更好地服务于生产力。办公小浣熊和代码小浣熊2.0的多模态能力展示了其在数据分析和编程效率上的强大潜力,吸引了大量用户注册。

来源:AI开发集

ChatGPT 变身苹果 Safari 浏览器默认搜索引擎

OpenAI更新ChatGPT应用,新增Safari扩展功能,用户可将ChatGPT设为Safari地址栏的默认搜索引擎。更新后,用户在“设置”中启用“ChatGPT搜索扩展”,输入搜索查询时,结果将直接由ChatGPT提供,非传统的谷歌等搜索引擎。

来源:IT之家

京东零售技术发布京点点AIGC内容生成平台 一键生成商品图、营销文案

京东零售技术团队推出的京点点AIGC内容生成平台,标志着电商内容生成领域的重大技术突破。该平台利用AI技术,帮助商家高效、低成本地生成商品图片和营销文案,已覆盖20多个核心场景,日均调用量超过1000万次。

来源:AI开发集

2月24日·周一

DeepSeek爆火:AI赛道的一次“非典型突围”

信息时代,注意力成为了一种稀缺资源,这是不争的事实。在这样的背景下,谁能精准驾驭热点,谁就能在这场心智的争夺中占据先机,拥有更多的“出圈”机会。

来源:钛媒体

LiblibAI 作为独家 AIGC 创作合作平台接入阶跃开源视频生成大模型

上海阶跃星辰智能科技有限公司开源的视频生成大模型“Step-Video-T2V”正式接入LiblibAI平台,LiblibAI成为其独家AIGC创作合作平台。此次合作推动AI技术的普及与创新,为全球开发者和创作者提供更优质的服务。

来源:阶跃星辰

DeepSeek 开源周首日:发布大模型加速利器FlashMLA 解码性能飙升至3000GB/s

DeepSeek在开源周首日推出了FlashMLA,这是一款针对英伟达Hopper架构GPU的高效多层注意力解码内核,旨在优化变长序列场景下的大模型推理性能。该技术通过全面支持BF16精度和创新的页式键值缓存系统,显著提升了内存管理的精确性。FlashMLA在性能测试中表现出色,达到了3000GB/s的处理速度和580TFLOPS的算力。

来源:AI开发集

马斯克宣布 Grok 3 语音模式早期测试版已上线

马斯克在社交平台X宣布,Grok 3语音模式早期测试版已在Grok应用程序上线。支持用户通过自然语言与AI对话,提供两种声音(Ara和Grok)及不同个性,支持添加自定义说明和分享对话。

来源:IT之家

腾讯混元视频模型(Hunyuan Video)测试招募中,开源在望

腾讯混元视频模型(Hunyuan Video)近期在X平台上公开招募测试伙伴,标志着其AI视频生成技术进入关键测试阶段。该模型以超过13B参数量成为开源视频生成模型中的佼佼者,展现出卓越的性能,特别是在视频流畅性和多对象生成方面。

来源:AI开发集

2月23日·周日

沈向洋、漆远在2025 GDC谈开源和智能体展望,商汤发力AGI软件和应用平台|钛媒体AGI

随着国产DeepSeek大模型的横空出世引发关注。作为 AI 大模型和算力产业链公司重要聚集地之一,上海如何下“先手棋”,发展 AI 应用和商业落地,这是非常值得关注的。

来源:钛媒体

2月22日·周六

“大模型六虎”阶跃星辰3月将开源图生视频模型,并成立新的生态基金|钛媒体AGI

阶跃星辰生态基金的筹资参与方,包括上海仪电、上海国有资本投资有限公司、徐汇资本等,“繁星计划”计划旨在为Agent应用开发者提供模型、算力、资本、数据和企业孵化等全方位支持。

来源:钛媒体

2月21日·周五

Spotify 启动 AI 配音有声书服务,29 种语言可供选择

Spotify宣布与ElevenLabs合作推出AI配音有声书服务。支持29种语言,为作者提供多种合成语音选项。免费版每月提供10分钟文本转语音服务,付费套餐起价99美元,可生成500分钟配音。Spotify认为,AI配音能让小型作者更低成本地制作有声书,便于旧书有声化。

来源:IT之家

腾讯元宝升级:DeepSeek图生文功能上线

腾讯元宝上线图生文功能,结合混元和DeepSeek技术,可理解图片内容提供分析。结合混元的多模态理解技术后,在关闭联网搜索的情况下,用户发送任意图片并提问,元宝都能给出自己的理解和分析。

来源:腾讯

DeepSeek和美颜相机BeautyCam相继屠榜,中国AI支棱全球?

DeepSeek全球支棱,美颜相机BeautyCam多国霸榜:两个故事,一个逻辑。

来源:钛媒体

Figure推出新型智能模型 Helix,让人形机器人接受语音命令做家务

Figure最近推出了Helix,一个新型的视觉-语言-行动模型,旨在提升人形机器人在家庭环境中的应用能力。Helix能够通过自然语言指令控制机器人执行多种家务任务,并展现出强大的物体识别能力,能够拾取未见过的家居物品。尽管家务机器人面临诸多挑战,Figure仍然希望将家庭环境作为技术发展的重点,以解决这些复杂问题。

来源:AI开发集

扣子Coze宣布独家支持 DeepSeek Function Calling 工具调用能力

扣子(Coze)平台正式推出对DeepSeek Function Calling工具的独家支持,标志着AI应用搭建的新进展。此次更新的核心在于DeepSeek模型的深度整合,用户可以免费体验R1和V3模型,并实时查看模型的思维链内容。这为开发者提供了更直观的调试体验,能够优化模型表现。

来源:AI开发集

2月20日·周四

钛媒体AGI独家|MiniMax副总裁魏伟离职,此前曾是腾讯云副总裁

对此,MiniMax公司向钛媒体AGI独家回应:消息属实,MiniMax 国内B端业务迎来新的发展阶段,将由其他负责人带领团队。MiniMax将持续提升技术能力,为海内外更多客户带来高质量体验。

来源:钛媒体

「捏 Ta」X「清影」达成战略合作,多模态模型商业化持续发力

AI角色创作平台“捏Ta”与智谱旗下的多模态模型“清影”达成战略合作,共同探索从AI角色设计到动画创作的完整路径。此次合作基于智谱最新升级的视频生成大模型CogVideoX-2,显著提升了模型的图像生成和指令遵从能力,支持高质量视频创作。上线首日,“捏Ta”平台完成4万+次视频生成,调用上亿次Tokens。

来源:智谱

Xbox推新生成AI模型Muse,助力游戏开发者高效创建游戏元素

微软推出的生成性人工智能模型Muse旨在提升游戏开发者的创作效率。该模型通过深度学习理解3D游戏世界,能够实时生成游戏元素并响应玩家行为。然而,游戏开发者对Muse的发布表示担忧,认为AI可能削弱创作自由。尽管如此,微软依然对Muse的潜力充满信心,期待其为游戏行业带来更多创新和丰富的体验。

来源:AI开发集

微软团队推多模态AI模型Magma:整合视觉、语言和动作决策技能

微软研究团队与多所高校的研究人员共同推出了名为“Magma”的多模态AI模型,旨在整合图像、文本和视频等多种数据类型,以便在数字与物理环境中执行复杂任务。Magma通过强大的训练方法和创新技术,克服了现有AI模型在跨领域应用中的局限性,展现出卓越的多模态理解和空间推理能力。

来源:AI开发集

Codeium 获新一轮融资,估值推至 28.5 亿美元

AI编程初创公司Codeium完成新一轮融资,估值达28.5亿美元。此次融资距C轮融资仅6个月,当时估值为12.5亿美元。Codeium专注于为企业提供服务,去年推出Windsurf Editor工具,可自动编写部分代码。

来源:IT之家

2月19日·周三

接入DeepSeek-R1联网满血版大模型,联想发布小新Pro系列新品|科技前线

不仅是联想AI PC,目前市售的主流联想moto AI手机和联想AI平板也已全部内嵌接入DeepSeek-R1联网满血版的联想小天。

来源:钛媒体

「灵宝CASBOT」完成超亿元天使轮融资,加速推进人形机器人量产进程

北京中科慧灵机器人技术有限公司(灵宝CASBOT)近日完成超亿元天使轮融资,投资方包括联想创投、国投创合、河南资产基金等。本轮融资将加速人形机器人量产及核心技术研发。2024年11月,公司发布首款双足人形机器人CASBOT 01,拥有52个自由度,算力达550T,续航超4小时。

来源:36氪

DeepSeek 推出 NSA 技术:加速长上下文训练与推理

DeepSeek团队最近发布了NSA(Native Sparse Attention)技术,旨在提升长上下文训练和推理的速度,同时降低预训练成本。该技术通过分层稀疏策略优化了注意力机制,使得模型在处理长文本时表现出色。NSA在多项基准测试中表现优异,甚至在某些情况下超越了传统的完全注意力模型,标志着人工智能训练与推理技术的重大进步。

来源:AI开发集

Magic1-For-1模型横空出世:一分钟视频“秒”速生成

英伟达最新发布的Magic1-For-1视频生成模型以其卓越的速度和效率,彻底改变了AI视频创作的格局。该模型能够在一分钟内生成一段完整的视频,通过将复杂的文本到视频生成任务拆解为两个更简单的步骤,极大地提高了生成速度和质量。这项技术的突破不仅节省了时间,还优化了内存消耗和推理延迟,为未来数字内容生成技术的发展提供了新的方向。

来源:AI开发集

2月18日·周二

秘塔AI搜索推出“浅度研究”功能,2-3分钟完成数百网页分析

秘塔AI搜索推出 Shallow Research「浅度研究」功能,快速收集信息并完成初步分析。功能采用“小模型+大模型”协同架构,结合秘塔自研模型与DeepSeek R1推理模型,可在2-3分钟内完成数百个网页的搜索与分析。

来源:AI秘塔

中国AI变局:腾讯、百度接入DeepSeek模型,字节反思,“大模型六虎”加速分化|钛媒体AGI

据调查,59%的网友已主要使用AI搜索工具,而百度等传统搜索仅占22%。微信的整合可能加速这一趋势,尤其对年轻用户更具吸引力。

来源:钛媒体

昆仑万维开源中国首个面向AI短剧创作的视频生成模型,重塑AI短剧行业格局

昆仑万维开源中国首个面向AI短剧创作的视频生成模型SkyReels-V1及表情动作可控算法SkyReels-A1。SkyReels-V1是开源视频生成模型中参数最大且支持图生视频的模型,可实现影视级人物微表情表演和电影级光影美学,支持33种细腻表情与400+自然动作组合。SkyReels-A1支持高保真微表情还原和更大幅度的人物表情驱动。

来源:昆仑万维集团

HYBE旗下AI 声音工具Supertone Play上线:10秒搞定声音克隆

HYBE旗下的Supertone推出了名为“Supertone Play”的文本转语音工具,旨在为创作者提供高质量、富有表现力的音频内容。该工具支持英语、韩语和日语,并将在未来扩展至西班牙语和中文。Supertone Play拥有150种声音角色,适用于多种创作需求,并具备语音克隆功能,用户可以根据自己的声音创建个性化角色,调整情感语调。

来源:AI开发集

效果最佳!阶跃星辰开源Step-Video-T2V 视频生成模型

今日,阶跃星辰与吉利汽车集团联合推出了两款开源的多模态大模型,特别是Step-Video-T2V视频生成模型,凭借300亿参数量在视频生成领域展现出卓越的能力。该模型不仅在生成高质量视频方面表现出色,还能精准理解指令,支持多种镜头运动,生成的画面真实且符合物理规律。开发者们可以在跃问App中体验这款模型,并为其提供反馈,推动技术进步。

来源:AI开发集

2月17日·周一

腾讯多款产品接入DeepSeek-R1模型,全面升级AI体验

腾讯宣布旗下多款产品接入DeepSeek-R1模型,包括腾讯元宝、微信、ima、腾讯文档、QQ浏览器、QQ音乐等。腾讯元宝支持免费使用DeepSeek-R1满血版和混元T1深度思考模型,提供复杂问题解答能力。微信“AI搜索”功能在灰度测试中。ima、腾讯文档、QQ浏览器、QQ音乐等产品结合DeepSeek-R1优化功能,提升用户体验。

来源:腾讯

中国AI变局:腾讯、百度接入DeepSeek模型,字节反思,“大模型六虎”加速分化|钛媒体AGI

据调查,59%的网友已主要使用AI搜索工具,而百度等传统搜索仅占22%。微信的整合可能加速这一趋势,尤其对年轻用户更具吸引力。

来源:钛媒体

xAI即将发布Grok 3,马斯克称之为“地球上最聪明的人工智能”

埃隆·马斯克的xAI公司将于2月17日发布Grok 3聊天机器人,马斯克称其为“地球上最聪明的人工智能”。Grok 3引入“思维链”推理能力,显著提升推理、编程及多模态功能。训练使用合成数据,可反思错误。Grok 3接入X平台,供用户使用。发布时间较马斯克原计划延迟

来源:第一财经

开发者狂喜!字节AI编程工具Trae正式发布Win x64版本

字节AI编程工具Trae的Win x64版本正式发布,标志着其在开发者工具领域的又一重要进展。这一更新旨在为用户提供更流畅的操作体验,进一步提升开发效率。Trae的Builder模式通过与AI的对话简化任务执行,结合多模态功能和智能自动补全,极大地优化了开发过程,帮助开发者更专注于创作。

来源:AI开发集

月之暗面解密o1:Long-CoT是关键,模型思考需要放长线

月之暗面研究员Flood Sung在长文中深入探讨了k1.5模型的研发思路及OpenAI o1模型的技术启示。文章强调了Long-CoT(长链条思维)的重要性,指出其在小型模型训练中的应用效果显著。尽管之前因成本考虑将重点放在Long Context的优化上,但OpenAI o1的发布促使团队重新审视技术方向,决定全面推进Long-CoT研究,以期实现更接近人类的思考能力。

来源:AI开发集

2月16日·周日

海淀重磅三连发:100亿基金启动、超10亿支持AI、11大重点项目落地|钛媒体AGI

雷军表示,2024年小米集团增速超过30%,销售了1.7亿台智能手机,小米电动汽车SU7短短9个月交付超过13.5万辆。2025年,小米将向研发投入300亿元。

来源:钛媒体

2月15日·周六

剥离游戏业务,押注电商广告,AppLovin要成为下一个TikTok?

AI营销能力超群,AppLovin市值冲上1700亿美元巅峰。

来源:钛媒体

2月14日·周五

昆仑万维发布Matrix-Zero世界模型,开启空间智能新时代

昆仑万维推出Matrix-Zero世界模型,包含3D场景生成和可交互视频生成两大子模型。3D场景生成模型可将图片转化为全局一致、可自由探索的3D场景,支持不同风格输入和动态效果生成;可交互视频生成模型以用户输入为核心,支持实时交互和精准视角控制。

来源:昆仑万维集团

通义灵码全新上线模型选择功能,新增支持 DeepSeek-V3 和 DeepSeek-R1 模型

通义灵码上线模型选择功能,支持DeepSeek-V3和DeepSeek-R1满血版671B模型。通义灵码是阿里云和通义实验室联合出品的AI编码助手,提供代码智能生成和研发智能问答能力。升级后,用户可在VS Code和JetBrains IDEs中切换不同模型,满足复杂算法和简单逻辑处理需求,进一步降低AI编程门槛。

来源:通义灵码

Windsurf Wave3更新发布:增强AI编辑体验 Tab键光速跳转代码,Turbo模式解放双手!

Exafunction团队最近推出了Windsurf系列的Wave3更新,旨在提升用户在Windsurf编辑器中的体验。此次更新引入了多项新功能,包括模型上下文批协议(MCP)支持、Tab跳转、Turbo模式等,极大地增强了编辑效率和用户体验。

来源:AI开发集

变了!下一代文心AI模型将于今年6月开源,百度到底还是交了“税”|钛媒体AGI

截至2024年11月,文心一言用户规模为4.3亿,文心大模型日均调用量超过15亿次,较2023年增长超30倍。

来源:钛媒体

Pika推出Pikamemes应用:自拍照秒变个性化GIF,各种心情随意切换

Pika Labs近期推出的Pikamemes应用,利用强大的AI技术为用户提供个性化GIF表情包制作服务。用户只需上传自拍照,选择心情模板,便能轻松生成与心情匹配的GIF,极大丰富了社交媒体的表达方式。未来,Pika Labs计划进一步优化应用功能,增加更多模板和特效,提升用户体验。

来源:AI开发集

2月13日·周四

用户加钱买罪受!英伟达RTX 50系列显卡遭遇蓝屏、掉驱动问题

英伟达显卡首发遭遇各类问题,这次受伤的多是加钱购买的“土豪玩家”。

来源:钛媒体

OpenAI 将在未来几个月内推出 GPT-5:整合 o3 等多项技术,可免费无限使用

OpenAI创始人Sam Altman在社交媒体上透露公司产品路线图的重大更新。OpenAI将发布GPT-4.5(代号Orion),是最后一个非思维链(CoT)模型。未来几个月,OpenAI将推出GPT-5,模型将整合OpenAI的多项技术,包括o3,不再将o3作为独立模型发布。GPT-5将集成到ChatGPT和API中,提供更统一的智能体验。

来源:机器之心

全新视频生成模型Magic1-For-1:在一分钟内生成一分钟长度视频

DA-Group-PKU团队推出的Magic1-For-1模型以其高效的图像到视频生成技术而闻名,能够在短短一分钟内生成一段一分钟长的视频剪辑。这一技术通过优化内存使用和减少推理延迟,显著提升了视频生成的效率。该模型将视频生成过程分解为文本到图像生成和图像到视频生成两个关键子任务,提升了训练效率和生成精度。

来源:AI开发集

文心一言 4 月起全面免费,上线深度搜索功能

百度AI宣布:自2025年4月1日零时起,文心一言将全面免费开放,PC端和APP端用户均可体验文心系列最新模型。同时,文心一言上线深度搜索功能,同样于4月1日起免费开放。深度搜索功能具备更强大的思考规划和外部工具使用能力,为用户提供专家级内容回复,支持多场景任务处理以及多模态输入与输出。APP端也将同步上线。

来源:百度AI

Adobe Firefly AI视频生成工具公测:轻松将文字与图像转化为短视频

Adobe最近推出了Firefly Video的公开测试版本,允许用户将文本和图像转化为最长5秒的1080p短视频。该工具的用户界面友好,支持多种自定义设置,极大地提升了视频创作的灵活性。此外,Firefly Video还具备AI翻译功能,支持超过20种语言,为多语言内容创作者提供了便利。

来源:AI开发集

2月11日·周二

“大模型六虎”首个接入DeepSeek模型AI应用出现,梁文锋或成亚洲顶级科技富豪|钛媒体AGI独家

据钛媒体AGI统计,截至目前,已经有超过70家 AI 云服务、算力、应用公司接入了DeepSeek模型。

来源:钛媒体

字节联合港大发布新视频模型Goku:可直接生成虚拟数字人视频

近日,香港大学与字节跳动合作研发的Goku视频生成模型正式发布。该模型基于先进的生成算法,能够根据文本提示生成高质量的视频内容,极大丰富了数字艺术的表现形式。研究团队展示了一系列精彩的视频示例,展示了Goku在创意表现上的无限潜力。

来源:AI开发集

OpenAI、谷歌、Roblox 等联手,成立新组织以保障 AI 时代儿童安全

Roblox、Discord、OpenAI和谷歌联合成立非营利组织ROOST(强大开放在线安全工具),为AI时代构建可扩展且互联互通的安全基础设施。ROOST将向公共和私人机构免费提供开源安全工具,初期重点关注儿童安全,特别是提供检测、审核和报告儿童性虐待材料(CSAM)的相关工具。

来源:IT之家

庖丁科技宣布完成新一轮融资,金山办公及顺为联合领投

北京庖丁科技宣布完成新一轮融资,金额达到15亿元人民币,由金山办公和顺为资本联合领投。此次融资将用于文档智能技术研发、市场拓展及核心人才引进,推动非结构化数据智能处理技术的创新与落地。庖丁科技专注于文档智能领域,已为超过100家大型机构客户提供服务,客户续费率超过90%。

来源:36氪

ZyphraAI 开源 Zonos-TTS:支持实时语音克隆和多语言情感控制

ZyphraAI最近推出了其全新的多语言文本到语音模型Zonos-TTS,标志着语音合成技术的又一进步。该模型不仅开源且可商用,支持实时语音克隆,并经过大量英语语音数据的训练,展现出卓越的性能。用户可以选择本地部署或API服务,且提供了免费的音频生成服务,极大地降低了使用门槛。

来源:AI开发集

2月10日·周一

视频生成模型最新成果,可仅靠视觉认知世界!现已开源

字节跳动豆包大模型团队联合北京交通大学、中国科学技术大学发布的“VideoWorld”视频生成模型,现已开源。模型首次实现仅通过视觉信息认知世界,无需依赖语言模型即可学习和执行复杂任务,如围棋对战和机器人操控。VideoWorld采用潜在动态模型(LDM)压缩视频帧间变化信息,显著提升学习效率。

来源:豆包大模型团队

影目科技、雷鸟创新出狠招,AI眼镜圈沸腾了

过去一年,科技巨头扎堆入局AI眼镜领域,市场迎来了蓬勃发展的转折点。

来源:钛媒体

Meta AI 推脑机接口模型Brain2Qwerty,可通过脑电波解码打字内容

Meta AI推出的Brain2Qwerty模型为脑-机接口(BCI)技术带来了新的希望。该模型通过非侵入性的方法,利用EEG和MEG解码参与者的打字内容,具有较高的准确性。研究显示,使用MEG的解码效果显著优于EEG,字符错误率降低至32%。

来源:AI开发集

豆包:视频生成模型 “VideoWorld” 已开源

豆包大模型团队在北京交通大学和中国科学技术大学的联合研究下,推出了“VideoWorld”视频生成实验模型,该模型的创新之处在于仅依赖视觉信息进行知识学习,突破了传统语言模型的限制。通过分析视频数据,模型展示了在围棋和机器人任务中的卓越推理与规划能力,尤其在复杂任务中表现出色。

来源:AI开发集

美国网约车巨头 Lyft 同 Anthropic 达成合作:Claude 将为百万司机提供服务

美国网约车巨头Lyft与AI创企Anthropic达成合作,将推出AI驱动的产品,为Lyft每年超4000万乘客和100万司机提供更好的拼车体验。目前,由Anthropic的Claude模型支持的Lyft AI客服助手已投入使用,每天处理数千个客户请求,平均客服解决时间缩短87%。

来源:IT之家

2月9日·周日

国补之后,DeepSeek成为“华米Ov”们增长的新引擎

DeepSeek“接力”国补,加速AI Phone的到来。

来源:钛媒体

2月8日·周六

DeepSeek或考虑以数十亿美金估值进行融资,阿里股价随即涨超6%|钛媒体AGI

朱啸虎认为,DeepSeek还是应该开放融资的,因为再往前走是需要烧钱的,当前主要资源需求还是算力卡。

来源:钛媒体

DeepMind新AI系统AlphaGeometry2:超越国际数学奥林匹克金牌得主

谷歌DeepMind推出的AI系统AlphaGeometry2在几何问题解决方面表现优异,超越了国际数学奥林匹克金牌得主。该系统被视为AlphaGeometry的改进版本,能够解决过去25年IMO中84%的几何问题。DeepMind通过结合神经网络和符号引擎的方法,探索复杂几何问题的解决方案,以期推动更强大的通用AI的发展。

来源:AI开发集

软银即将完成对 OpenAI 的 400 亿美元投资,超越微软成为最大金主

软银即将完成对OpenAI的400亿美元投资,投前估值为2600亿美元,投后估值达3000亿美元。资金将在未来12至24个月内支付,第一笔款项最快于春季到账。投资完成后,软银将超越微软,成为OpenAI的最大投资方。部分资金将用于OpenAI与软银、甲骨文合资的“星际之门”项目。

来源:IT之家

开源去背景抠图模型BEN2,图片和视频都能去除背景

PramaLLC最近推出的背景消除网络BEN2在前景分割技术上实现了显著创新。该模型采用信心引导抠图技术,能够针对低信心像素进行精细处理,从而提高抠图的准确性和可靠性。BEN2支持单张及批量图像处理,操作简单,且提供视频分割功能,用户可轻松分离视频中的前景和背景,极大地方便了图像和视频处理的工作。

来源:AI开发集

2月7日·周五

OpenAI 更新 o3-mini 模型思维链展示方式,提高 AI 推理透明度

OpenAI宣布公开o3-mini模型的推理思维链,免费和付费用户可查看其思维过程。部分人质疑公开的思维链是否为原始数据,因为展示速度较慢且字符数量与原始版本存在差异。OpenAI发言人确认公开的思维链经过后处理,消除不安全内容、简化复杂想法,为非英语用户提供更好的体验。

来源:量子位

谷歌 Magic Editor 集成 SynthID,“火眼金睛”识别 AI 造假

为应对 AI 生成内容带来的虚假信息风险,谷歌将 SynthID 水印技术集成到图像编辑工具 Magic Editor 中。本周使用 Magic Editor 的 AI 生成编辑图像将在 Google Photos 中被 SynthID 标记,部分细微编辑可能无法被检测到。技术通过嵌入数字水印标记内容,不影响视觉质量。

来源:IT之家

OpenAI 与加州州立大学达成迄今最大的AI教育合作

OpenAI宣布将在加州州立大学23个校区推出ChatGPT,覆盖46万名学生和6.3万名教职员工。是OpenAI在美国高等教育领域的最大规模部署,为学生提供个性化辅导和学习指南,同时帮助教师完成行政工作。

来源:36氪

网易有道全线AI应用接入DeepSeek-R1|钛媒体独家

“高质量开源和低价模型必然会带来AI的大繁荣。”网易有道CEO周枫如此预判。

来源:钛媒体

DeepSeek声明:社交平台仅三个账号,一切声称与官方群组有关收费行为均系假冒

DeepSeek官方发布声明:近期,DeepSeek发现部分仿冒账号和不实信息误导公众,DeepSeek的官方账号仅包括微信公众号“DeepSeek”、小红书“@DeepSeek(deepseek_ai)”和X(Twitter)“DeepSeek (@deepseek_ai)”。除这些账号外,其他任何声称与DeepSeek相关的信息均为假冒。

来源:DeepSeek

2月6日·周四

谷歌发布Gemini 2.0 Pro,全型号刷榜,原生多模态,编程、物理模拟能力炸裂

谷歌发布 Gemini 2.0 系列模型,包括 Gemini 2.0 Pro、2.0 Flash 和 2.0 Flash-Lite。2.0 Pro 是谷歌最强的编码和复杂提示处理模型,配备 200 万 token 上下文窗口,支持谷歌搜索和代码执行工具。2.0 Flash 是高效主力模型,支持 100 万 token 上下文和多模态输入,适合高容量任务。2.0 Flash-Lite 是最具性价比的…

来源:Founder Park

OpenAI 放大招:ChatGPT 搜索功能无需注册人人可用,分钟级别解析全网信息

OpenAI 宣布 ChatGPT 搜索功能无需登录账户即可使用,用户可直接获取基于实时网络信息生成的答案,查看信息来源清单。与传统搜索引擎相比,ChatGPT 搜索可实现分钟级解析网络信息,能查看地图和本地景点图片,结果更具可信度和实用性。

来源:IT之家

超7000亿涌入AI赛道!纵使DeepSeek再强,中国AI融资规模却只有美国的7%|钛媒体AGI

2024年,全球科技公司 IPO 等待时间达到了7.5年,相较于2022年增加了2年。全球投融资领域依然表现低迷,除了AI行业之外,投资活动整体呈现收缩态势。

来源:钛媒体

苹果推出全新应用 Apple Invites 可轻松创建和分享邀请函

苹果公司最近推出了全新应用“苹果邀请”,旨在帮助用户轻松创建个性化邀请函,适用于各种聚会活动。该应用不仅允许用户管理RSVP和分享照片,还与Apple Music整合,提供协作播放列表。iCloud+用户可以享受更多高级功能,而所有人都可以参与RSVP。应用操作简单,适用于iOS18及以上版本的iPhone设备,现已在App Store上免费提供。

来源:AI开发集

谷歌重磅发布Gemini2.0全系列模型

谷歌最近推出了其最新的Gemini2.0模型系列,包括基础版Flash、经济版Flash-Lite和实验版Pro,旨在满足不同用户需求。这些模型在性能和成本之间提供了良好的平衡,尤其是Pro版在数学和复杂问题的回答准确性上表现突出。API定价的调整使得用户在混合工作负载下的使用成本更具竞争力。

来源:AI开发集

2月5日·周三

英伟达推人形机器人设计框架ASAP 动作灵敏,轻松扣篮

ASAP框架通过对齐模拟与现实物理特性,实现了人形机器人的灵活运动。该框架包括预训练和后训练两个阶段,利用人类运动数据和真实世界运动轨迹来优化机器人的运动策略。实验结果显示,ASAP显著提高了机器人的敏捷性和协调性,弥补了传统方法的不足。

来源:AI开发集

SB OpenAI Japan成立!2025年首个最火AI赛道开打

OpenAI在日本宣布成立合资公司 SB OpenAI Japan,与软银合作,专注于开发和销售新型高级企业AI——“水晶智能(Cristal intelligence)”。合作为日本企业提供定制化的AI解决方案,推动企业工作流程自动化和效率提升。

来源:智东西

国家队出手!国家超算互联网平台重磅上线deepseek,免费体验

中国人工智能初创公司DeepSeek在国家超算互联网平台上线了可视化界面功能,用户可以轻松体验其强大功能而无需复杂操作。平台提供全天候免费体验服务,用户只需在输入框中输入问题即可开始对话。DeepSeek以低廉的训练成本著称,其训练费用仅为OpenAI的5%到10%。国家超算互联网平台旨在连接算力产业资源,推动中国在人工智能领域的发展。

来源:AI开发集

1月31日·周五

不用开口:谷歌 AI 帮你致电商家,价格、预约一键搞定

1 月 31 日,谷歌公司昨日(1 月 30 日)发布公告,在 Search Labs 中推出名为“Ask for Me”的实验性新功能,用户可以利用 AI 代替自己致电商家,咨询价格和服务可用性等信息。IT之家附上演示如下: 谷歌目前已和多家美国汽车修理厂和美甲沙龙店展开合作,让用户不需要亲自拨打电话,就能了解营业时间、费用等相关信息。商家可以选择拒绝 AI 代打电话,并且该功能会在通话开始时告…

来源:IT之家

王维嘉:DeepSeek尚不足以撼动中美AI差距格局

从技术格局来看,尽管DeepSeek的成果缩小了中美在人工智能技术上的差距,但中美人工智能整体格局尚未被撼动。

来源:钛媒体

1月27日·周一

扎克伯格持续建设“AI 帝国”:Meta 今年将投入最多 650 亿美元

Meta首席执行官马克・扎克伯格表示,公司今年计划投入最多650亿美元用于扩展AI基础设施,巩固其在与OpenAI和谷歌竞争中的地位。Meta将增加AI岗位的招聘,建设一座超过2吉瓦的数据中心。作为英伟达的主要客户之一,Meta计划在年底前拥有超过130万块图形处理器,在2025年实现约1吉瓦的计算能力。

来源:IT之家

开源全模态模型Baichuan-Omni-1.5上线,多项能力跑赢GPT-4o mini

百川智能上线开源全模态模型Baichuan-Omni-1.5。模型支持文本、图像、音频和视频的全模态理解,具备文本和音频的双模态生成能力。在视觉、语音及多模态流式处理等方面,Baichuan-Omni-1.5的表现均优于GPT-4o mini,在多模态医疗应用领域优势突出。

来源:百川大模型

1月25日·周六

微软与高校合作开源 AIOpsLab:可构建自主云AI Agent

近日,微软与加州大学伯克利分校、伊利诺伊大学等研究机构联合开源了AIOpsLab项目,旨在为云自动化运维提供智能代理系统。该系统能够模拟复杂操作任务,支持故障自动检测、定位及解决,显著提升云服务的可观测性与运维效率。AIOpsLab通过模块化设计,支持人类与数字代理的协作,帮助开发者处理不同工作负载及故障场景。其架构包括协调器、服务、工作负载生成器、故障生成器及可观测性,确保用户在多种云环境中获得…

来源:AI开发集

字节跳动推出 PaSa:基于大语言模型的智能学术论文搜索代理

PaSa是字节跳动与北京大学联合开发的智能学术论文搜索代理,旨在提升学术文献检索的效率与准确性。该系统结合了大型语言模型和强化学习技术,能够自主执行复杂的搜索策略,显著减少研究人员在文献综述中所需的时间和精力。

来源:AI开发集

1月24日·周五

中国联通发布元景思维链大模型:性能超越GPT-4

中国联通近日推出了元景思维链大模型,标志着其在人工智能领域的重要进展。这款央企开源的通用思维链大模型展现了卓越的慢思考能力和多场景推理能力,其性能在多个测评中超越了目前最好的通用语言模型,如OpenAI的GPT-4。

来源:AI开发集

OpenAI发布首个AI智能体Operator,首批面向ChatGPT Pro用户

OpenAI最新推出的AI代理Operator旨在帮助用户在网络上执行多种任务,初步面向ChatGPT Pro用户。该工具结合了先进的视觉能力和强化学习,能够与网页进行交互并具备自我纠正功能。Operator在设计上注重安全性,确保用户在处理敏感信息时能保持控制。

来源:AI开发集

百川智能发布深度思考模型,同时具备语言、视觉和搜索三大领域推理能力

百川智能推出两款新模型:Baichuan-M1-preview是国内首个全场景深度思考模型,具备语言、视觉和搜索三大领域推理能力,在医疗循证模式下,能快速精准回答医疗问题,提供深度推理和个性化建议。小尺寸版本Baichuan-M1-14B是行业首个开源医疗增强大模型,医疗能力超越Qwen2.5-72B。

来源:百川大模型

1月23日·周四

字节启动 Seed Edge,加码 AGI 研究

字节跳动正式设立代号为“Seed Edge”的研究项目,专注于通用人工智能(AGI)的前沿研究。项目拟定五大研究方向,包括下一代推理、感知、软硬一体模型设计、新范式探索和Scaling方向研究。Seed Edge旨在探索AI的原创性创新,而非仅追随现有技术。字节跳动创始人张一鸣高度重视AI研究,鼓励团队探索基础课题。

来源:晚点LatePost

阶跃星辰视频生成模型Step-Video V2版发布

上海阶跃星辰智能科技有限公司发布了Step-Video V2版本,标志着视频生成技术的重大进步。该版本通过优化VAE模型和DiT架构,显著提升了生成效率和视频质量。同时,新增的基础文字生成功能使得视频内容更加丰富,拓宽了应用场景。

来源:AI开发集

基于CogAgent!智谱GLM-PC电脑智能体大模型开放体验

GLM-PC是一款基于CogAgent的电脑智能体,具备强大的逻辑推理与深度感知能力。它不仅支持Windows系统,还通过最新的“深度思考”模式提升了代码生成和复杂任务处理能力。GLM-PC的设计灵感来源于人类的左右脑分工,能够高效执行任务并提供出色的用户交互体验。

来源:AI开发集

Step-Video 开年震撼升级:更强大的真实世界模拟器来了

阶跃星辰推出视频生成模型 Step-Video V2版本。新版本在参数量、语义理解、指令遵循能力等方面大幅提升,支持复杂运动、人物美感、基础文字生成和多语言输入等功能。用户可通过跃问网页端申请试用。

来源:阶跃星辰

1月22日·周三

微软解绑:OpenAI 获更大 AI 算力自主权,携手软银、甲骨文等启动 5000 亿美元“星际之门”项目

1 月 22 日,微软公司昨日(1 月 21 日)发布公告,宣布调整和 OpenAI 公司的合作关系,允许 OpenAI 使用竞争对手的计算资源。此次调整旨在满足 OpenAI 日益增长的算力需求,并缓解双方因算力供应问题产生的摩擦。此前,OpenAI 的算力需求完全依赖于微软的 Azure 云基础设施。由于 OpenAI 的模型训练和用户规模扩张需要巨额算力投入,微软的供应速度曾引起一些 Ope…

来源:IT之家

谷歌全新升级Gemini2.0Flash Thinking,长上下文处理能力再创新高

谷歌于2025年1月22日发布了Gemini2.0Flash Thinking推理模型的增强版,显著提升了长上下文处理能力,支持高达1M token的输入。此次更新旨在提高模型的可靠性,减少生成内容与最终答案之间的矛盾。新版本不仅在数学、科学和多模态推理能力上有显著提升,尤其在数学方面成绩提升了54%。

来源:AI开发集

四年投资3.6万亿!特朗普重磅宣布OpenAI新合资公司,孙正义任董事长|钛媒体AGI

孙正义和OpenAI的钞能力,实现美国AI“大跃进”。

来源:钛媒体

有道子曰-o1推理模型正式发布!消费级显卡即可部署

网易有道正式发布并开源国内首个输出分步式讲解的推理模型“子曰-o1”。作为14B轻量级单模型,子曰-o1支持在消费级显卡上部署,采用思维链技术,能提供细致的解题过程,具备强逻辑推理能力。子曰-o1已应用于“有道小P”,支持“先解析思路、再提供答案”的答疑模式,助力学生自主思考。

来源:网易有道

网易有道子曰-o1推理模型正式开源发布

网易有道于2025年1月22日推出了国内首个输出分步式讲解的推理模型“子曰-o1”,并宣布其开源。这款14B轻量级模型专为消费级显卡设计,能够在低显存设备上稳定运行。通过思维链技术,该模型提供详细的解题过程和逻辑推理,帮助用户更好地理解知识。

来源:AI开发集

1月21日·周二

清影2.0重磅更新,模型能力大幅提升

清影2.0重磅更新,AI视频生成能力大幅提升。新版本在模型结构、训练方法和数据工程上全面升级,图生视频基础模型能力提升38%,支持画面主体进行大幅度运动并保持稳定。指令遵从能力行业领先,可精准实现复杂提示词,涵盖写实、三维动画、二维动画及特殊艺术风格。已上线智谱清言,普通用户可免费用。

来源:智谱

商汤孵化的AI零售公司商汤善惠完成A轮融资,朱啸虎的金沙江创投领投|钛媒体AGI

本轮融资由金沙江创投领投,微木资本、嘉实基金和金弘基金等知名资管平台和产业资本跟投。此次融资将重点投向零售AI算法研发创新、海外市场拓展战略方向,助力公司全球化布局迈入新阶段。

来源:钛媒体

告别传统爬虫!Firecrawl Extract无需编写代码,轻松抓取任何网站的数据

Firecrawl Extract的推出标志着网络爬虫时代的逐渐落幕。借助其自然语言处理和强大功能,用户无需再为编写爬虫脚本而烦恼,而是可以专注于数据分析与应用,显著提高工作效率。这一创新的工具使得数据抓取变得更加智能、简便,推动了数据采集技术的进一步发展。

来源:AI开发集

DeepSeek-R1 发布,性能对标 OpenAI o1 正式版

深度求索发布DeepSeek-R1模型,并开源模型权重。DeepSeek-R1通过强化学习技术大幅提升推理能力,在数学、代码和自然语言推理等任务上性能对标OpenAI o1正式版。DeepSeek还开源了基于R1蒸馏的6个小模型,其中32B和70B模型性能比肩OpenAI o1-mini。DeepSeek-R1已上线API,可通过官网或App调用。

来源:DeepSeek

国产大模型再突破!DeepSeek R1开源,性能直逼OpenAI,开启AI平权新时代

DeepSeek最近发布并开源了其最新研发的大型语言模型R1,标志着国产AI技术的一次重大突破。该模型在性能上与OpenAI的o1正式版相媲美,特别是在数学、代码和自然语言推理等关键任务上表现优异。

来源:AI开发集

1月20日·周一

豆包实时语音大模型上线即开放!情商智商双高

字节跳动旗下的豆包大模型团队宣布推出豆包实时语音大模型,在豆包APP全量开放。模型是语音理解和生成一体化的端到端语音系统,主要面向中文语境,支持英语对话但暂不支持多语种。在语音表现力、情绪承接和控制力方面表现出色,整体满意度高于GPT-4o。具备低时延、可随时打断等特性,支持实时联网回答时效性问题。

来源:豆包大模型团队

晚点对话 MiniMax 闫俊杰:创业没有天选之子

《晚点》对话MiniMax创始人闫俊杰,探讨AI创业与技术发展。闫俊杰认为,AI创业不应套用移动互联网逻辑,模型能力提升并非依赖用户规模,而是技术进化。MiniMax最新开源的MiniMax-01模型采用线性注意力机制,首次在大规模模型中实现高效处理400万token的长上下文,助力AI记忆与交互能力提升。

来源:晚点对话LateTalk

字节跳动推出针对中文开发者AI IDE产品Trae 性能对标Cursor

字节跳动推出的Trae是一款专为中文开发者设计的AI集成开发环境(IDE),旨在提升中文开发者的编程体验。Trae通过全面优化中文界面和代码注释支持,解决了现有工具在中文用户使用时的不便。此外,Trae还集成了先进的AI模型,提供智能代码生成和逻辑优化功能。

来源:AI开发集

阶跃星辰上线Step-2mini、Step-2文学大师版语言模型

2025年1月20日,上海阶跃星辰智能科技有限公司推出了Step系列语言模型的新成员Step-2mini和Step-2文学大师版,旨在满足开发者在不同创作场景中的需求。Step-2mini以轻量化设计实现了高效性能和快速响应,而Step-2文学大师版则专注于内容创作,能够生成逻辑严密且富有独特风格的作品。

来源:AI开发集

商汤孵化的AI零售公司商汤善惠完成A轮融资,朱啸虎的金沙江创投领投|钛媒体AGI

本轮融资由金沙江创投领投,微木资本、嘉实基金和金弘基金等知名资管平台和产业资本跟投。此次融资将重点投向零售AI算法研发创新、海外市场拓展战略方向,助力公司全球化布局迈入新阶段。

来源:钛媒体

1月19日·周日

独家对话依图联合创始人林晨曦:“大模型六虎”正以三倍速走“AI四小龙”之路|钛媒体AGI

在林晨曦看来,“大模型六小虎”可能是在三倍速走过去10年“AI四小龙”的路,估值和商业化速度都很快,主要原因是 AI 产业、投资速度和方式都发生了转变。

来源:钛媒体

1月18日·周六

独家对话依图联合创始人林晨曦:“大模型六虎”在C端商业化几乎是死路一条|钛媒体AGI

在林晨曦看来,“大模型六小虎”可能是在三倍速走过去10年“AI四小龙”的路,估值和商业化速度都很快,主要原因是 AI 产业、投资速度和方式都发生了转变。

来源:钛媒体

OpenAI 阿尔特曼:计划几周内推出 o3 mini 推理模型

感谢IT之家网友 Hi_World 的线索投递! 1 月 18 日,OpenAI CEO 萨姆・阿尔特曼今日在 X 上发文称,OpenAI 已完成新推理 AI 模型 o3 mini 版本,计划在几周内推出,包括 API 和 ChatGPT 选项,让高级推理 AI 更易用且实惠。在去年的 12 Days of OpenAI 活动上,OpenAI 的 o3 系列大模型在最后一天压轴登场,官方称在某些场…

来源:IT之家

1月17日·周五

字节跳动豆包全新上线 AI 编程功能:支持一键上传多个本地代码文件、实时引入 GitHub 开源仓库

感谢IT之家网友 软媒新友2335129 的线索投递! 1 月 17 日,字节跳动豆包 1 月 16 日宣布,豆包电脑版和网页版全新上线 AI 编程功能。该功能支持一键上传多个本地代码文件、实时引入 GitHub 开源仓库,快速获取项目的完整上下文,不需再逐段复制代码。IT之家从官方介绍获悉,豆包全新 AI 编程功能配备全新的代码编辑器,支持沉浸式阅读;代码片段需要解释或调整,可精准圈选;查看代码…

来源:IT之家

黄仁勋现场抽4万元现金红包给英伟达中国员工,并确认将与日月光SPIL合作开发AI芯片|硅基世界

据福布斯富豪榜数据显示,黄仁勋实时净资产高达1189亿美元,全球排名第十,高于微软创始人比尔·盖茨、彭博创始人迈克尔·布隆伯格、农夫山泉创始人钟睒睒等。

来源:钛媒体

阿里再投具身智能,清华大学孵化的星动纪元完成最新一轮融资

清华大学孵化的人形机器人企业北京星动纪元,近日完成最新一轮融资,新增阿里巴巴旗下公司等为股东,注册资本增至约1095.9万人民币。星动纪元专注于研发高智能通用人形机器人,产品已迭代至第六代——星动STAR 1,具备55个自由度,能在复杂环境中执行多种任务。

来源:财联社

微软发布创新AI模型MatterGen,根据特定需求生成新材料

微软研究院推出的MatterGen是一个革命性的AI系统,能够根据特定需求生成新材料,极大地加速了电池和太阳能电池板等关键技术的开发。与传统方法相比,MatterGen通过扩散模型直接生成所需材料,成功率提高了15倍。该系统的开源发布将促进全球科学研究的创新与合作,尽管在实际应用前仍需进行大量测试和验证。

来源:AI开发集

黑森林实验室推FLUX Pro微调API,仅用五张样本图像就能定制AI模型

德国人工智能初创公司Black Forest Labs推出了FLUX Pro微调API,用户只需提供五张样本图像即可定制AI图像模型,以匹配特定品牌的视觉风格。该API支持多种图像格式,允许用户上传高达20张训练图像,且可调节训练参数以优化输出效果。

来源:AI开发集

1月16日·周四

智谱Realtime、4V、Air新模型发布,上线bigmodel.cn

智谱发布多款新模型,包括GLM-Realtime、GLM-4V-Plus和GLM-4-Air,这些模型在bigmodel.cn上线。GLM-Realtime模型支持低延迟视频理解和语音交互,具有清唱功能和长达2分钟的记忆能力。GLM-4-Air和GLM-4V-Plus模型提供高性价比的语言和视觉理解解决方案。

来源:智谱

腾讯会议全新升级,上线AI小助手Pro

腾讯会议推出全新升级功能。用户可从组织通讯录直接拉人入会,日程自动呈现并多渠道提醒,确保参会人准时上会等。上线AI小助手Pro全程监听会议,可回答问题、提供方案建议,支持联网搜索与文件上传提问,提升会议效率。

来源:腾讯会议

AI向上,折叠屏向下,手机乱战下的变与不变

在一片唱衰声中,苹果又一次称霸了全球手机市场。

来源:钛媒体

线稿上色的新技术MangaNinja:输入线稿和参考图,精准给线稿上色

MangaNinja是一种创新的线稿上色技术,通过输入线稿和参考图像,能够实现高精度的上色效果。该技术基于扩散模型,采用补丁重排模块和点驱动控制方案,显著提升了上色的准确性和图像质量。MangaNinja在处理复杂场景时表现出色,能够有效解决角色姿势变化和颜色混淆等问题,为用户提供了更大的创作灵感和可能性。

来源:AI开发集

Luma AI 推出Ray2视频生成模型,实现更快更自然的运动效果

Luma AI最近推出了Ray2视频生成模型,标志着在AI视频创作领域的重要进展。Ray2经过大量计算训练,提升了视频生成的速度和自然度,用户可以通过简单的文本描述生成短视频。尽管在复杂提示下可能出现失真,整体反馈积极。为了庆祝这一发布,Luma Labs还举办了大奖赛,鼓励创作者参与并有机会赢得奖金。

来源:AI开发集

1月15日·周三

书生·浦语大模型升级,突破思维密度,4T数据训出高性能模型

上海人工智能实验室宣布书生大模型升级至3.0版本,书生·浦语3.0(InternLM3)。版本通过精炼数据框架,仅用4T训练数据,使InternLM3-8B-Instruct综合性能超同量级开源模型,训练成本降低75%以上。书生·浦语3.0首次在通用模型中融合常规对话与深度思考能力,可应对更多真实场景。

来源:上海人工智能实验室

OpenBMB发布多模态模型MiniCPM-o2.6手机也能进行视觉和语音处理

OpenBMB推出的MiniCPM-o2.6是一款具有80亿参数的多模态模型,旨在解决高计算资源需求与边缘设备兼容性之间的挑战。该模型在视觉、语音和语言处理方面表现出色,能够高效运行于智能手机和平板电脑上。通过模块化设计,MiniCPM-o2.6集成了多种强大组件,支持实时处理和多语言功能。

来源:AI开发集

阿里巴巴达摩院推出电商场景多模态大模型Valley2

阿里巴巴达摩院推出的Valley2是一款多模态大型语言模型,专为电商场景设计,旨在提升各领域的性能并拓展应用边界。该模型结合了先进的视觉编码器和创新的处理模块,展现了在多个基准测试中的卓越表现,标志着多模态语言模型的重大进展。

来源:AI开发集

Vidu 2.0全新升级,更快、更强、更稳定

Vidu 2.0正式上线,带来生成速度与画质的双重突破,10秒即可出片。效果升级,视频风格、主体更一致,首尾帧更自然。推出超值套餐,成本低至4分/秒。新增错峰模式,低峰时段不限量、不扣积分,保障创作不停歇。

来源:Vidu AI

1月14日·周二

加速AI和机器人融入生活空间,「一目科技」完成数亿元D轮融资

“一目科技”近期完成数亿元D轮融资,由赛富投资基金领投,南京市创新投资集团、松霖科技跟投。公司专注于多模态感知+AI计算解决方案,产品已应用于智慧水务、智慧家居、生命科学等领域,并打入TCL、惠而浦等头部白电厂商供应链。在CES 2025上,一目科技的AI洗护机器人首秀亮相并获媒体好评。

来源:智能涌现

清华、复旦与斯坦福联合开源 “Eko” 框架,让Agent自动化操作电脑

近日,清华大学、复旦大学与斯坦福大学的研究团队联合发布了名为“Eko”的Agent开发框架,旨在通过简单的代码和自然语言帮助开发者快速构建可用于生产的“虚拟员工”。Eko框架能够接管用户的电脑和浏览器,代替人类完成各种繁琐的任务,从而大幅提升工作效率,减轻人类的负担。

来源:AI开发集

字节、美团“杀疯了”!联手投资00后大模型,“阻击”黄仁勋的物理AI世界|钛媒体AGI

智源研究院创始理事长,美国国家工程院外籍院士张宏江对钛媒体AGI表示,物理模型、世界模型是人类走向AGI的必经之路,2025年 AI 领域一定会有一些突飞猛进的进展。

来源:钛媒体

英伟达发布 6.3 万亿 Token 大型 AI 训练数据库 Nemotron-CC

英伟达推出名为Nemotron-CC的大型英文AI训练数据库,包含6.3万亿个Token,其中1.9万亿为合成数据。该数据库基于Common Crawl网站数据构建,经过严格处理形成高质量子集Nemotron-CC-HQ。与业界领先的DCLM数据库相比,使用Nemotron-CC-HQ训练的模型在MMLU基准测试中分数提高5.6分。

来源:IT之家

震撼登场!英伟达开源图像生成模型Sana ,1秒生图、支持中英文和emoji

英伟达近日开源了图像生成模型Sana,凭借仅0.6亿个参数和高达4096×4096分辨率的生成能力,极大降低了使用门槛。该模型在16GB显卡上可在不到1秒内生成高质量图像,表现出色。Sana采用了深度压缩自编码器和线性扩散变换器,提升了生成速度和质量,并支持多种语言提示,方便用户创作。

来源:AI开发集

1月13日·周一

微软与荣耀、海信等中国AI出海公司合作,并预测AI Agents将彻底改变工作方式|CES 2025

微软总裁Brad Smith发文称,计划在三年内向14个国家投资超过350亿美元,以建立值得信赖且安全的 AI 和云数据中心基础设施。

来源:钛媒体

谷歌开源时间序列预测模型TimesFM2.0版本 可用于预测零售业销量、股票走势

谷歌研究团队发布了TimesFM2.0,这是一个专为时间序列预测设计的预训练模型,旨在提升预测准确性。该模型支持高达2048个时间点的单变量预测,并能够处理任意时间跨度。通过开源和科学共享,TimesFM2.0为用户提供了丰富的数据集,涵盖多个领域,推动了人工智能的发展。

来源:AI开发集

月之暗面海外产品负责人的AI Coding项目被投资人抢爆了,新一轮估值8000万美元

前月之暗面海外产品Noisee创始人明超平发起的AI Coding项目“新言意码”已完成两轮融资,目前公司估值达8000万美元。该项目吸引了五源资本、高榕资本、真格基金、高瓴创投和IDG资本等多家顶级投资机构。新言意码定位为AI coding应用,瞄准类似美国智能代码生成产品Cursor的市场。

来源:Z Finance

京东健康发布业内首个医疗健康全场景应用大模型产品体系

2025年1月11日,京东健康在年度医生盛典和数智医疗大会上发布了“AI京医”大模型产品体系及业内首个面向医院全场景应用的大模型产品“京东卓医”。“AI京医”包括AI诊疗助手2.0、AI科研助手和AI医生智能体等产品,旨在提升患者就医体验、医生临床科研效率和医院运营效能。

来源:京东黑板报

开源动作预估模型ViTPose:可以预估每一帧动作,并进行标注

ViTPose是一个开源的动作预估模型,专注于人体姿态识别。其独特之处在于采用简洁高效的视觉Transformer技术,而非复杂的卷积神经网络。模型结构简单,易于调整,能够在性能和速度之间找到平衡。ViTPose在多个数据集上表现出色,甚至超过许多复杂模型,显示出简单模型的强大潜力。

来源:AI开发集

1月12日·周日

复旦大学启动 AI 大课体系,推出 116 门 AI-BEST 序列课程

1 月 12 日,据复旦大学官方消息,2024-2025 学年,复旦大学全面启动人工智能课程体系建设和教育模式改革(简称“AI 大课”),推出 116 门 AI-BEST 序列课程。其中,秋季学期已开 61 门。例如,《具身智能引论》是一门向全校本研开放的 AI 通识基础课,选课最多的是专业背景各异的大一新生,由 6 位老师、15 位助教带零基础新生上手“具身 AI”。像《具身智能引论》这样面向全…

来源:IT之家

微软与荣耀、海信等中国AI出海公司合作,并预测AI Agents将彻底改变工作方式|CES 2025

微软总裁Brad Smith发文称,计划在三年内向14个国家投资超过350亿美元,以建立值得信赖且安全的 AI 和云数据中心基础设施。

来源:钛媒体

1月10日·周五

阿里通义万相 2.1 模型宣布升级:首次实现中文文字视频生成功能,支持无限长 1080P 视频的高效编解码

感谢IT之家网友 Skyraver 的线索投递! 1 月 10 日,阿里旗下通义万相宣布推出 2.1 版本模型升级,视频生成、图像生成两大能力均有显著提升。在视频生成方面,通义万相 2.1 通过自研的高效 VAE 和 DiT 架构增强了时空上下文建模能力,支持无限长 1080P 视频的高效编解码,首次实现了中文文字视频生成功能,登上 VBench 榜单第一。据介绍,通义万相 2.1 支持中英文视频…

来源:IT之家

Cohere重磅推出安全AI平台“North”,挑战微软与谷歌!

Cohere公司今日推出了其全新的AI平台“North”,旨在为企业用户提供一个安全的工作空间,直接与微软的C o p i l ot 和谷歌的Vertex AI竞争。该平台结合了大型语言模型、搜索能力和自动化工具,特别适用于金融和医疗等受监管行业。

来源:AI开发集

通义万相2.1模型能力重磅升级,轻松实现文生组图

阿里通义万相2.1模型重磅升级,视频生成能力显著增强。通过自研的高效 VAE 和 DiT 架构,首次实现了中文文字视频生成功能,支持无限长 1080P 视频的高效编解码。在 VBench 视频生成模型评测体系中荣登榜首。还支持文生组图,采用 IC-LoRA 图像生成训练方法,增强文本到图像的上下文能力,轻松实现关联图像间的组合生成。

来源:通义

微软联合清北推rStar-Math技术:小型模型逆袭数学问题,超越 OpenAI!

微软最近推出的rStar-Math技术为小型语言模型在数学问题上的表现带来了显著提升,甚至在某些测试中超越了OpenAI的o1-preview模型。这项技术结合了蒙特卡罗树搜索,模拟人类的深度思考,促进了模型的自我演进。

来源:AI开发集

1月9日·周四

CES 2025首日观察:AI硬件不再画饼,中国厂商大杀四方

CES 2025首日,AI硬件成为焦点,中国厂商表现亮眼。涂鸦智能展示AI与IoT深度融合的创新应用,如智慧能源管理、AI灯光创作等,AR/AI眼镜大热,雷神、Rokid等厂商推出多款新品,电视领域,海信、TCL、长虹等国产厂商凭借RGB三维控色、Mini LED技术等突破。智能清洁设备也迎来创新,追觅、MOVA、云鲸等品牌带来机械臂、履带式拖布等新技术。

来源:36氪

晚点对话李开复丨零一万物部分团队并入阿里,“灵魂拷问来得太快了”

零一万物CEO李开复在晚点对话中透露,公司与阿里云成立产业大模型联合实验室,部分团队将加入该实验室。零一万物将不再追求训练超级大模型,转而专注于训练更快、更便宜的模型,并基于此打造可盈利的应用。

来源:晚点LatePost

官宣!通义灵码 AI 程序员全面上线,仅需10分钟完成整个开发过程

阿里云和通义实验室联合推出的通义灵码AI程序员全面上线,成为全球首个同时支持VS Code和JetBrains IDEs的AI编程工具。通义灵码具备代码智能生成、研发问答等功能,通过对话协作方式,能够高效完成业务开发、问题修复和单元测试等任务。累计生成代码达15亿行。

来源:通义灵码

通义万相推2.1视频模型 大幅提升复杂运动能力

阿里旗下的通义万相视频生成模型在最新2.1版本中实现了重磅升级,推出了极速版与专业版,分别聚焦于高效性能和卓越表现力。这一版本在处理复杂运动和还原真实物理规律方面取得了显著进步,提升了视频的电影质感和指令遵循能力。

来源:AI开发集

微软正式开源超强小模型Phi-4

微软在Hugging Face平台上发布了小型语言模型Phi-4,参数量为140亿,表现优异,超越了多款知名模型如GPT-4o和Llama-3.1。Phi-4在数学竞赛AMC中获得91.8分,并在MMLU测试中取得84.8分,展现了强大的推理能力。该模型采用创新的合成数据生成方法,支持长达16k的上下文长度,适用于消费级硬件。

来源:AI开发集

1月8日·周三

用AI大模型重塑服装设计制版,「深服科技」获数千万元Pre-A轮融资

浙江深服人工智能近日完成数千万元Pre-A轮融资,由上海厚毅资本领投。资金将用于模型开发、技术人才引进和市场拓展。深服科技成立于2023年,专注于为服装行业提供AI解决方案,通过AI大模型技术解决设计和制版难题,降低研发成本。产品“画衣衣AI制版”即将发布,可让设计师自主生成CAD制版图。

来源:36氪

卷到千元一副的AI眼镜,寄托着大厂的赚钱美梦

低价策略固然能以更快的速度铺开市场,但AI眼镜承载着增长的希望,厂商入局究其根本是出于经济回报。

来源:钛媒体

可灵AI V1.6模型现已开放API,生成质量更稳定

北京快手宣布,自研的视觉生成大模型可灵AI V1.6已开放API。新版本在生成质量、内容效果等方面有显著提升,尤其在广告视频素材生成方面表现出色,能更好地响应运动、时序类动作和运镜等文字描述,提高素材生成成功率。

来源:可灵AI

英伟达AI助手G-Assist将于2月正式上线 在家就能优化PC性能

Nvidia宣布全新G-Assist系统助手将于2月正式推出,旨在为GeForce RTX用户提供便捷的PC设置管理。该人工智能助手通过语音或文本命令,帮助用户优化游戏和系统设置,监测性能指标,甚至控制外设。G-Assist运行在用户的GeForce RTX GPU上,反应迅速且可离线使用。

来源:AI开发集

Anthropic正以600亿美元估值筹集20亿美元,将成为第五大最有价值的美国初创公司

Anthropic 正在与 Lightspeed Venture Partners 谈判,计划以 600 亿美元的估值筹集 20 亿美元。这轮融资将使 Anthropic 的估值达到 600 亿美元,成为继 SpaceX、OpenAI、Stripe 和 Databricks 之后第五大最有价值的美国初创公司。

来源:有新Newin

1月7日·周二

英伟达发布新一代消费级显卡RTX50系列,售价为549美元起

在2025年1月7日的 CES 展会上,英伟达 CEO 黄仁勋发布了 RTX 5090 显卡。显卡采用 Blackwell 架构,拥有 920 亿晶体管,AI 性能达 3352 TOPS,显存为 32 GB GDDR7,功耗为 575W。能通过 AI 提升帧率和图像质量。英伟达还推出了 Cosmos 世界模型平台,旨在推动物理 AI 的发展。

来源:机器之心

中国信通院发布 MaaS 六大标准,解决 AI 模型落地“最后一公里”难题

感谢IT之家网友 Autumn_Dream 的线索投递! 1 月 7 日,中国信通院 CAICT 官方公众号昨日(2025 年 1 月 6 日)发布博文,宣布为解决 MaaS 平台服务质量参差不齐、选型困难等问题,推出了 MaaS(Model as a service,模型即服务)系列标准。项目背景随着大模型向行业应用的深入发展,如何将基座模型通过工程化开发适配到专属领域,并生产面向用户的智能化应…

来源:IT之家

开源AI搜索网站MiniPerplx:由Gork驱动,支持搜索Twitter和YouTube内容

MiniPerplx是一款由Gork驱动的开源AI搜索引擎,凭借其简洁的界面和流畅的用户体验,迅速在技术圈内引发关注。它不仅支持常规网页搜索,还创新性地整合了Twitter和YouTube的内容,提供了更丰富的信息来源。此外,平台的热点话题实时更新功能让用户能够及时掌握网络动态,展现出开源项目的强大潜力。

来源:AI开发集

英伟达推出首个生成式世界基础模型Cosmos,加速物理AI系统的发展

在2025年消费电子展上,NVIDIA推出了Cosmos平台,旨在加速物理人工智能系统的开发,特别是在自主驾驶和机器人领域。该平台集成了生成式世界基础模型、视频标记器及安全机制,帮助开发者减少对真实数据的依赖,快速创建和优化AI模型。NVIDIA CEO黄仁勋强调,Cosmos将使物理AI开发更加普及,助力各类开发者接触通用机器人技术。

来源:AI开发集

OpenAI更强系统来了,通用人工智能真的触手可及吗?

当AGI到来时,它可能不会像你想象的那样显而易见或掀动风浪。

来源:钛媒体

1月6日·周一

马斯克称 Grok 3 即将推出:已完成预训练,计算量比 Grok 2 高十倍

马斯克宣布 Grok 3 即将推出,预训练已完成,计算量比 Grok 2 高出十倍。去年 7 月,Grok 3 使用了 10 万块英伟达 H100 芯片进行训练,但未能如期发布。去年 12 月,xAI 向所有 𝕏 平台用户免费推出了 Grok-2 模型,Premium 用户将优先访问新功能。

来源:IT之家

「天工大模型4.0」o1版和4o版正式上线天工APP和网页,免费使用

昆仑万维集团宣布,「天工大模型4.0」o1版和4o版于2025年1月6日正式上线天工网页和APP,供用户免费使用。o1版专注于中文逻辑推理,具备强大的数学、代码、逻辑、常识和伦理决策能力,通过多智能体体系和强化学习等技术提升推理性能。4o版为多模态模型,语音对话助手Skyo具有情感表达和多语言切换能力,提供流畅的实时对话体验。

来源:昆仑万维集团

Meta 发布新型记忆层技术:突破参数限制,大幅提升 AI 事实准确性

Meta 公司近日推出了一项创新的记忆层技术,旨在提升大型语言模型的事实准确性并扩展参数规模。这项技术通过可训练的键值查找机制,显著提高了模型的信息存储和检索能力。实验结果表明,配备记忆层的模型在多个任务中表现优异,尤其在事实性任务上,性能提升显著。

来源:AI开发集

奥尔特曼再发万字“小作文”:ChatGPT周活跃用户已超3亿,OpenAI将目标转向超级智能

“我们相信,到 2025 年,我们可能会看到第一批 AI Agent(智能体)可以‘加入劳动力队伍’,并实质性地改变公司的产出。我们仍然相信,不断将出色的AI工具交到人们手中,将带来广泛实质成果。”

来源:钛媒体

字节跳动开源全新AI模型LatentSync 精准控制唇形同步

字节跳动推出的LatentSync是一项先进的端到端唇同步技术,利用音频条件的潜在扩散模型,实现了视频中人物唇部动作与音频的精确匹配。该技术通过引入TREPA技术,增强了时间一致性,同时优化了SyncNet的收敛性,显著提升了唇同步的准确性。

来源:AI开发集

1月5日·周日

CES 2025前瞻,看AI继续“霸屏”,创新产品如何“破圈”

CES 2025将于1月7日至10日在美国拉斯维加斯举行,距离开展还有几天时间,本文从电脑、家电、芯片、出行等多个领域,介绍一下目前已经曝光的新产品、新技术。

来源:钛媒体

罗永浩 Jarvis 初创项目“J1 Assistant AI 助理”上线,利用语音与大模型互动

感谢IT之家网友 勇者阿帽 的线索投递! 1 月 5 日,罗永浩旗下 AI 初创项目 Jarvis 现已悄悄在海外上线,目前其官网展示了一款名为 J1 Assistant 的聚合类 AI 助理软件,暂时仅拥有安卓版本,官网锁国内 IP。IT之家参考官方介绍,这款 J1 Assistant AI 助理软件最大特色是拥有一个音频输入按钮,用户可以通过按下按钮输入语音,之后即可将相关语音作为消息发送 /…

来源:IT之家

1月4日·周六

微软计划本财年砸下 800 亿美元,建设符合 AI 工作需求的数据中心

感谢IT之家网友 HH_KK、乌蝇哥的左手 的线索投递! 1 月 4 日,当地时间周五,微软在博客文章中宣布了一项雄心勃勃的计划:在 2025 财年投资 800 亿美元(IT之家备注:当前约 5857.49 亿元人民币),用于建设能够支持人工智能运算需求的数据中心。微软副董事长兼总裁布拉德・史密斯透露,预计这笔支出超过一半将在 2025 年 6 月之前(即 2025 财年截止时期)投向美国市场。史…

来源:IT之家

1月3日·周五

AI眼镜,新一代时尚单品还是“吃灰神器”?

“百镜大战”风声渐起。

来源:钛媒体

阿里入局 AI 眼镜:与雷鸟达成战略合作,产品将接入通义大模型

雷鸟创新与阿里云达成AI眼镜领域的独家战略合作,阿里云通义大模型将为雷鸟AI眼镜提供技术支持。是国内首次大模型与AI眼镜硬件厂商深度定制合作。双方将共同投入研发资源,围绕云计算、大模型、AI硬件等领域合作。雷鸟计划于1月7日发布雷鸟V3 AI拍摄眼镜。

来源:IT之家

斯坦福大学开源AI写作系统:一键生成高质量长文,科研写作新突破

斯坦福大学最新开源的STORM&Co-STORM系统在人工智能写作领域取得了重要进展。该系统通过简单的主题输入,整合多源信息,快速生成高质量的长篇文章,显著提升科研写作的效率和质量。核心技术包括必应搜索和GPT-4o mini的支持,用户可选择不同模式进行交互。

来源:AI开发集

个月赚100万美元!套壳大模型聊天工具TypingMind怎么做到的?

Typing Mind 是由独立开发者 Tony Dinh 创建的一款第三方工具,旨在提升 ChatGPT 的使用体验。自2023年3月推出以来,TypingMind 在短短20个月内实现了100万美元的年度收入,标志着其商业模式的成功转型。Tony 认识到订阅业务的重要性,积极拓展市场,与客户建立深厚关系,并进行合规性认证,以增强客户信任。

来源:AI开发集

1月2日·周四

AI 眼镜的「iPhone 时刻」,真的要来了?

2025 年,会成为 AI 眼镜元年吗?

来源:钛媒体

Switch 2 发布之际,任天堂“机器学习超分”专利公开

1 月 2 日,任天堂于一项 2023 年 7 月提交、本周二公开的专利,展示了一种利用机器学习技术将低分辨率图像转换为高分辨率图像的系统。IT之家注:DLSS(深度学习超级采样)等技术通过人工智能提升游戏画面分辨率,使开发者即便在性能较低的硬件上也能实现更高的画质效果和更流畅的帧率表现。这项新专利提到了通过分辨率提升技术来有效压缩游戏体积,以适应“小容量物理存储介质”的措施,如将此类游戏塞进一张…

来源:IT之家

1月1日·周三

商汤求变,市场亟待重估“AGI坚定者”的新价值|钛媒体AGI

商汤科技董事长兼CEO徐立强调,商汤致力于成为最懂算力的大模型服务商,和最懂大模型的算力服务商。

来源:钛媒体

12月31日·周二

大模型的2024年:我们对AI的发展脱敏了

2024年AI领域发展迅速,大模型更实用但不再惊艳,端侧模型和混合专家技术MoE降低成本,多模态研究成新方向。AI搜索、语音交互、视频技术商业化挑战中前行,AI Agent开发门槛降低。AI硬件百花齐放,AI眼镜异军突起。AI游戏从辅助工具成为游戏一部分。中国AI人才梯队规模质量仅次于美国,期待在AI浪潮中领先。

来源:新硅NewGeek

可灵AI API新增【虚拟试穿V1.5】和【对口型】

快手可灵AIKling宣布API能力升级,推出虚拟试穿V1.5模型,支持单件及组合服装输入,能生成试衣视频。同时,新增对口型功能,可实现视频中人物口型与配音同步,提升视频真实感。这些升级将为电商、广告营销和泛娱乐行业带来新机遇,推动业务增长。

来源:可灵AI

黑芝麻智能发布华山A2000家族芯片平台,打造全场景通识智驾标杆

黑芝麻智能发布华山A2000家族芯片平台,针对下一代AI模型设计,提供高算力、高性能,支持全场景通识智驾。A2000家族包括A2000 Lite、A2000和A2000 Pro,满足不同自动驾驶需求。集成领先CPU、DSP、GPU等,算力是主流旗舰芯片的4倍,原生支持Transformer模型,推动智能驾驶技术发展。

来源:黑芝麻智能

Meta 计划为 Facebook 引入 AI 角色机器人,可与用户互动评论

12 月 31 日,外媒《金融时报》采访 Meta 的 AI 产品副总裁 Connor Hayes 获悉,Meta 计划将 AI 生成的角色整合到 Facebook 社交平台中,IT之家参考报道获悉,Meta 将通过提示词打造这些 AI 角色,相关角色将拥有独立个人资料卡,能够与用户进行互动评论,有点类似微博平台的“评论罗伯特”。不过外媒认为,相关 AI 内容也存在风险,可能被用于传播虚假信息。如…

来源:IT之家

当 AI 遇上“低空经济”,智能机器人产业将面临怎样新的挑战与机遇?|钛媒体AGI

AI 领域,中国 AI 核心产业规模已接近6000亿元,整个生成式 AI 相关市场规模超过14万亿元,预计“十五五”时期中国机器人产业规模预计将增长至4000亿元左右。

来源:钛媒体

12月30日·周一

支付宝「探一下」新一代AI视觉搜索产品,满足你的好奇心

支付宝推出新功能探一下,基于自研的多模态大模型技术,能够用AI之眼探索万物,提供快速、有用、趣味的生成式搜索服务。探一下提供三种核心服务:探知识、探灵感、探文本。可以根据自己的需求选择相应的服务,满足用户的好奇心。通过支付宝扫一扫界面或支小宝App中访问。

来源:支付宝

PixVerse V3.5 正式上线,模型全面升级,10秒极速生成

爱诗科技宣布PixVerse V3.5版本正式上线,新版本在Turbo模式下10秒内即可生成高质量视频,保持行业领先的语义理解和细节表现力。动漫生成效果显著提升,支持通过文生视频描述特定风格或上传图片生成动漫效果。新增首尾帧功能,激发创作灵感。

来源:爱诗科技 AIsphere

开箱即用!一键式AI数字人系统AigcPanel

AigcPanel是一款革命性的AI数字人系统,旨在简化用户的环境配置,使得视频合成和声音合成变得更加容易。用户只需下载一个安装包,即可实现开箱即用的体验,告别繁琐的设置过程。其强大的功能包括视频生成、声音合成和声音克隆,适用于多种操作系统,并且支持中英文界面,完全开源,便于用户个性化定制。

来源:AI开发集

当 AI 遇上“低空经济”,智能机器人产业将面临怎样新的挑战与机遇?|钛媒体AGI

AI 领域,中国 AI 核心产业规模已接近6000亿元,整个生成式 AI 相关市场规模超过14万亿元,预计“十五五”时期中国机器人产业规模预计将增长至4000亿元左右。

来源:钛媒体

讯飞医疗成功上市,成为医疗大模型第一股!

讯飞医疗科技股份有限公司股票代码:02506.HK于2024年12月30日在香港联交所主板成功上市,标志着医疗大模型领域的第一股诞生。作为中国医疗人工智能行业的领导者,讯飞医疗在基层医疗服务、医院服务、患者服务和智慧影像等方面均取得显著成就,致力于让医疗服务更便捷,为人类健康未来奋斗。

来源:科大讯飞

26 年前的古董 Win98 电脑成功运行大语言模型:搭载奔腾 II 处理器、128MB 内存

12 月 30 日,一个名为 EXO Labs 的组织今日在社交媒体上发布了一段视频,展示了一台运行 Windows 98 系统的 26 年高龄的奔腾 II 电脑(128MB 内存)成功运行大型语言模型(LLM)的情形。随后,EXO Labs 在其博客上发表了一篇详细文章,进一步阐述了这个项目的细节,以及其“普及人工智能”的愿景。IT之家注意到,视频中一台 350MHz 的 Elonex 奔腾 I…

来源:IT之家

12月29日·周日

芯片上市提速 30%:业界首个面向半导体行业的专用大语言模型 SemiKong 发布

12 月 29 日,由 Aitomatic 公司及其“AI 联盟”合作伙伴共同开发的 SemiKong 已正式发布,这款大型语言模型(LLM)是全球首个专为满足半导体行业需求而打造的 AI 工具。SemiKong 旨在融入半导体设计公司的工作流程,充当该领域的“数字专家”,从而显著加快新芯片的上市速度。图源:台积电据 Aitomatic 公司介绍,半导体行业正面临着专业知识严重流失的困境。随着越来…

来源:IT之家

如何解决“国外一开源,国内就创新” AI治理与安全挑战?|钛媒体AGI

今年以来,北京推进第八批、第九批生成式人工智能大模型通过备案并上线,备案大模型数量达到105个,而北京的头部大模型企业占全国一半以上,已赋能超过1.4万家企业。

来源:钛媒体

12月28日·周六

谷歌 DeepMind 优化 AI 模型新思路,计算效率与推理能力兼得

12 月 28 日,谷歌 DeepMind 团队最新推出了“可微缓存增强”(Differentiable Cache Augmentation)的新方法,在不明显额外增加计算负担的情况下,可以显著提升大语言模型的推理性能。项目背景IT之家注:在语言处理、数学和推理领域,大型语言模型(LLMs)是解决复杂问题不可或缺的一部分。计算技术的增强侧重于使 LLMs 能够更有效地处理数据,生成更准确且与上下…

来源:IT之家

福布斯2025年AI十大趋势预测,Killer Agent近在眼前

Web Agent,预定下一个AI杀手级应用。

来源:钛媒体

12月27日·周五

联想新一代智能体系统“天禧 AS”发布,明年 Q2 落地 AI PC、AI 手机、AI 平板等

12 月 27 日,2024 联想天禧生态伙伴大会于 12 月 26 日在北京国际会议中心召开。联想携手英特尔、面壁智能、火山引擎等多家企业,围绕“AI 生态未来已来”主题,共同探讨天禧生态发展机遇与天禧 AS 技术趋势。在大会上,新一代智能体系统天禧个人智能体系统(天禧 AS)升级。此次大会还见证了中国软件行业协会 AI 终端智能体创新专业委员会的成立仪式。在 2024 年,联想全力推动“一体多…

来源:IT之家

首个重症医疗大模型来了,腾讯 X 迈瑞发布“启元重症大模型”,已在ICU病房上班

腾讯与迈瑞医疗合作开发的全球首个重症医疗大模型启元重症大模型已在ICU病房投入使用。模型能实时监测患者生命体征,5秒内总结病情,提供诊疗建议,准确率高达95。能自动生成规范病历,将医生病历编写时间从半小时缩短至一分钟。

来源:腾讯

可图 1.5 图像模型来啦!全新「AI模特」功能上线

快手可灵AIKling团队发布可图1.5图像模型,模型在画面质量和美感上大幅提升。AI试衣新增AI模特功能,借助可灵1.6图生视频能力,用户只需输入文本描述即可生成模特动态展示服装。可灵1.5模型支持尾帧生成。对口型功能新增10款高品质音色,支持选择音色情感,增强视频内容的情感表达。

来源:可灵AI

火山引擎×联想,为 AI 桌面助手“如意”植入豆包大模型,“智” 敬PC新时代

联想与火山引擎合作,推出全新升级的AI桌面助手如意AI Stick,植入豆包大模型,提供AI搜索、AI写作、AI聊天三大功能,全面提升PC用户体验。如意能精准理解用户需求,提供多领域知识解答,实现智能对话式交互,增强PC智能体验。

来源:火山引擎

智谱AI开源Agent任务模型CogAgent-9B:通过屏幕截图预判操作

智谱AI推出的CogAgent-9B是一个开源的Agent任务模型,旨在通过屏幕截图来预测用户的下一步操作。该模型基于GLM-4V-9B训练,具有广泛的应用场景,包括个人电脑和手机等设备。与之前版本相比,CogAgent-9B在GUI感知和推理准确性等方面有显著提升,并支持中英文双语交互。

来源:AI开发集

12月26日·周四

ASML CEO:由于美国禁售EUV光刻机,中国芯片技术将落后西方15年|硅基世界

美国芯片管制并没有阻止中国芯片产业持续发展壮大。中国外交部发言人林剑12月3日表示,中方一贯坚决反对美方泛化国家安全概念,滥用出口管制措施,对中国企业滥施非法单边制裁和“长臂管辖”。这种做法严重破坏国际经贸秩序,扰乱全球产供链稳定,损害所有国家利益。

来源:钛媒体

阶跃星辰发布图像生成模型Step-1X-Medium 支持图生图等新功能

上海阶跃星辰智能科技有限公司推出了Step-1X-Medium版本的图像生成模型,显著提升了生成速度和图文一致性。新版本支持“图生图”功能,用户可以通过简单指令对图像进行细节增强和风格迁移。此外,针对中国风的创作能力也得到了加强,能够更好地捕捉东方美学。

来源:AI开发集

Deepseek V3开源!多语言编程能力飙升,力压Claude3.5Sonnet V2

备受期待的Deepseek V3终于开源,展现出卓越的多语言编程能力,超越了Claude3.5Sonnet V2等竞争对手。其在aider多语言编程测评中的成功率从V2.5的17%跃升至48%,显示出质的飞跃。Deepseek V3采用了6850亿参数的混合专家架构,使得模型在处理复杂任务时更加高效。

来源:AI开发集

消息称微软及阿里“老兵”胡云华加入智谱,将任“智谱清言”负责人

感谢IT之家网友 HH_KK 的线索投递! 12 月 26 日,据 36 氪“智能涌现”今日报道,前微软亚洲研究院研究员、阿里达摩院资深技术专家、支付宝中国首席数据官胡云华现已加入大模型独角兽公司智谱,并担任 C 端应用“智谱清言”负责人。IT之家汇总胡云华主要履历如下:2003 年:进入微软亚洲研究院(MSRA)实习。2007 年:正式成为微软亚洲研究院的研究员。2012 年:加入阿里巴巴的达摩…

来源:IT之家

阶跃星辰图像生成模型全新升级:支持「图生图」,一键风格迁移!

阶跃星辰宣布其图像生成模型Step-1X系列的全新升级版本Step-1X-Medium,性能提升30,增强了理解能力和图文一致性,支持图生图功能,实现细节增强、风格迁移和小范围局部修改。特别强化了中国风内容创作能力,能捕捉东方面孔神韵,支持英文文案生成。

来源:阶跃星辰

12月25日·周三

DeepMind项目MegaSaM :输入普通视频即可预估相机视角和景深

MegaSaM系统的推出标志着计算机视觉领域的一次重大突破。该系统能够从普通动态视频中快速、准确地估计相机参数和深度图,克服了传统技术在动态场景中的局限性。通过对深度视觉SLAM框架的创新性修改,MegaSaM在复杂环境下的实时处理能力显著提高,实验结果显示其在准确性和效率上均优于以往技术。

来源:AI开发集

阿里发布多模态推理模型QVQ-72B!视觉、语言能力双提升

阿里巴巴最近推出的QVQ-72B多模态推理模型在语言和视觉能力上实现了显著提升,能够处理复杂的推理和分析任务,尤其在多步推理和数学推理方面表现突出。该模型的出现标志着阿里巴巴在多模态AI领域的重大突破,提供了新的工具和思路来解决复杂问题,推动各行业的智能化升级。

来源:AI开发集

手机厂商“AI劫”

短时间,手机和应用厂商很难毕其功于一役。

来源:钛媒体

谷歌被曝正使用 Anthropic 的 Claude 模型来改进其 Gemini AI

12 月 25 日,据 TechCrunch 获得的内部通信内容显示,参与改进谷歌 Gemini 人工智能模型的承包商正在将其答案与 Anthropic 的竞品模型 Claude 的输出进行比较。此举引发了谷歌是否获得 Anthropic 授权使用 Claude 进行测试的合规性质疑。IT之家注意到,在科技公司竞相开发更优秀 AI 模型的当下,模型性能的评估通常通过行业基准测试进行,而非由承包商耗…

来源:IT之家

字节开源 Midscene.js:AI驱动的E2E测试框架迎来突破

随着人工智能技术的迅猛发展,E2E测试领域正经历着一场创新的革命。字节跳动的web-infra团队推出的Midscene.js,结合多模态大语言模型,极大地简化了用户界面测试的过程。用户无需编写代码,通过自然语言即可与网页进行交互,提升了测试效率。

来源:AI开发集

消息称 OpenAI 考虑开发人形机器人,此前已投资多家机器人初创公司

感谢IT之家网友 HH_KK、华南吴彦祖 的线索投递! 12 月 25 日,据 The Information 今日报道,OpenAI 内部人士近日透露,该公司正在探讨开发人形机器人的可能性。该媒体从两位“直接知情人士”处获悉了这一消息。然而,关于这一潜在项目的细节仍然很少,目前尚不清楚 OpenAI 计划何时推出该机器人,以及其目标应用场景。目前,少数几家开发人形机器人的初创公司主要关注两个应用…

来源:IT之家

12月24日·周二

OpenAI o3 AI 模型突破推理极限背后:成本飙升,没“钞能力”用不起

12 月 24 日,科技媒体 TechCrunch 昨日(12 月 23 日)发布博文,认为 OpenAI 的 o3 模型虽然在 ARC-AGI 等测试中取得了亮眼成绩,但背后的高计算成本,让其短期内很难在实际应用中普及。o3 性能o3 的新功能之一是可以调整推理时间,分为低、中、高三种计算级别,计算级别越高,o3 的任务执行性能越好。而 o3 是 OpenAI 是迈向该目标的重要一步,在 ARC…

来源:IT之家

NeuroAI,能带领神经科学走出困境吗?

NeuroAI领域正试图打破传统AI的局限,通过模仿大脑的工作方式来创造更智能、更高效的AI系统。

来源:钛媒体

消息称微软寻求 365 Copilot AI 模型多元化,降低成本并减少对 OpenAI 的依赖

感谢IT之家网友 乌蝇哥的左手、西窗旧事 的线索投递! 12 月 24 日,据路透社报道,知情人士透露,微软正致力于在其旗舰 AI 产品 Microsoft 365 Copilot 中引入内部及第三方人工智能模型,以期摆脱目前对 OpenAI 技术的依赖,并降低运营成本。这是微软减少对其支持的 OpenAI 依赖的最新举措。此前,微软曾大力宣传其对 OpenAI 模型的早期使用权。2023 年 3…

来源:IT之家

Hume AI发布全能语音引擎OCTAVE:文本秒变真人声,克隆人格特征

Hume AI最近推出的OCTAVE语音引擎,标志着人工智能语音领域的一次重大突破。它能够通过简单的文本或短语音录音生成逼真的语音和个性特征,极大地提升了虚拟角色和人机交互的真实感。OCTAVE结合了多种先进技术,支持实时对话和动态调整,为内容创作者提供了丰富的音频创作可能性。

来源:AI开发集

DisPose:输入动作视频和参考人物即可实现让人物跳同款舞蹈

DisPose是一项创新的人物动画技术,利用解耦姿态指导,实现了从静态图像生成动态视频的可能性。该技术通过重构稀疏姿态信息,提供更精确的运动生成,提升了动画的表现力和控制性。研究者还提出了混合ControlNet架构,进一步提高了生成视频的质量和一致性,预示着动画制作领域的未来发展方向。

来源:AI开发集

AI陪伴APP星野+猫箱的流量,居然和Kimi一个量级?

和“赛博老公老婆”谈恋爱的市场大,但也容易陷入Character AI的道德法律困境。

来源:钛媒体

12月23日·周一

百川智能发布金融大模型Baichuan4-Finance

百川智能最近发布了其全新的金融大模型Baichuan4-Finance,该模型通过创新的领域自约束训练方案,在金融能力和通用能力上实现了双重提升,显著增强了在金融场景中的适用性。根据评测数据,Baichuan4-Finance在多个金融领域的准确率均超越了竞争对手GPT-4o。

来源:AI开发集

2 小时内收集数据学会新任务,星动纪元端到端原生机器人大模型 ERA-42 发布

12 月 23 日,星动纪元今日发文,介绍了端到端原生机器人大模型 ERA-42。官方宣称,这是业界首次仅通过同一个具身大模型,实现了五指灵巧手“像人手一样灵活自如地”使用多种多样、形态各异的工具,完成上百种灵巧复杂操作任务。IT之家获悉,模型不需要任何预编程技能,完全基于其泛化和自适应力,能在不到 2 小时内通过收集少量数据就学会执行新的任务。基于 ERA-42 的能力,五指灵巧手星动 XHAN…

来源:IT之家

AI 仿冒名人带货属违法行为,消费者可要求退一赔三

12 月 23 日,近年来,人工智能(AI)技术的快速发展为社会带来了诸多便利,但也伴随着安全隐患。据IT之家了解,其中深度伪造技术就带来了不小的隐患,其生成高度逼真但并非真实的视频或图像的能力,已经引发了一系列社会问题。据央视新闻报道,今年以来,利用 AI 深度伪造假冒名人的案例层出不穷。例如,不久前就有不法分子通过 AI 技术伪造张文宏医生的面部和声音,用于直播带货,卖出 1200 多件蛋白棒…

来源:IT之家

王小川的百川智能发布全链路领域增强金融大模型,准确率超过GPT-4o|钛媒体AGI

对于AI搜索,王小川近期表示,虽然这能走出百度射程,甚至能够颠覆百度,但它依然在字节产品的射程里。从竞争角度,在大厂的 DAU范畴内,小公司还是处于弱势地位,大厂有很强的竞争力。

来源:钛媒体

AI终于迈过这道槛!Livekit 开源模型精准识别“你是否说完”!

在语音助手和客服机器人领域,如何准确判断用户是否说完一直是个难题。Livekit推出的开源精准语音轮次检测模型,通过结合Transformer模型与传统语音活动检测,显著提升了人机对话的自然度与流畅性。该模型能够减少AI的错误打断,提升用户体验,未来有望使人机对话更加智能和自然。

来源:AI开发集

12月22日·周日

香港中文大学开发新型基础 AI 模型,多种眼科疾病诊断能力优于人类医生

12 月 22 日,据《南华早报》今日报道,香港中文大学(CUHK)的研究人员开发了一种新的基础人工智能模型,能够帮助解决眼科临床任务,特别是在疾病筛查和诊断方面。随着生成式 AI 在医学领域的应用逐步增多,这一技术有望带来更广泛的影响。这一名为“VisionFM”的新模型在诊断和预测多种眼科疾病方面表现出色,研究人员称,随着数据量的增加,这一模型可能会被广泛应用于更多的临床场景。相关研究已于上个…

来源:IT之家

消息称 AI 编程助手 Cursor 四个月内再获 1 亿美元融资,估值暴涨 6.5 倍

12 月 22 日,据 TechCrunch 报道,知情人士透露,人工智能(AI)编程助手 Cursor 的开发商 Anysphere 近期完成了 1 亿美元的 B 轮融资,投后估值高达 26 亿美元(IT之家备注:当前约 189.74 亿元人民币)。本轮融资由老股东 Thrive Capital 领投。值得注意的是,Anysphere 仅在四个月前刚刚完成由 Andreessen Horowit…

来源:IT之家

第一批用上苹果AI的人,已经后悔了

这就翻车了?

来源:钛媒体

奥利奥母公司引入新型 AI 工具,可用来研发新口味零食

12 月 22 日,据《华尔街日报》报道,食品巨头亿滋公司开发了一种新的 AI 工具,用于研发其品牌的新品口味,并缩短研发周期、减少实验室工作量。IT之家注:亿滋公司旗下拥有奥利奥、趣多多、Clif Bar 等知名零食品牌。图源 Pexels该公司表示,这款机器学习工具已用于该公司 70 多种产品中,它不同于 ChatGPT 之类的生成式 AI 工具,更类似于制药公司用来快速寻找和测试新药物的药物…

来源:IT之家

消息称 OpenAI 新模型 GPT-5 研发遇阻,成本高昂、效果未达预期

12 月 22 日,据《华尔街日报》最新报道指出,OpenAI 正在开发的下一代大型语言模型 GPT-5 的研发进度落后于原计划,且目前取得的成果尚未达到与其巨额成本相匹配的水平。此消息与此前《The Information》的一篇报道相呼应,该报道曾暗示 OpenAI 正在寻求新的策略,因为 GPT-5 可能无法像之前的模型那样实现显著的性能飞跃。《华尔街日报》的报道则进一步披露了代号为“猎户座…

来源:IT之家

© 版权声明