
2025.5.30
1.AI IDE正式上线!通义灵码开箱即用
通义灵码AI IDE正式上线,这是一个深度适配千问3大模型的AI原生开发环境工具,具备编程智能体、行间建议预测、行间会话等功能。它支持最强开源模型千问3,集成通义灵码插件能力,自带编程智能体模式,支持长期记忆、行间建议预测和行间会话等能力。通义灵码已拥有插件和IDE两种产品形态,深度融入开发者工作流,实现从辅助编码到沉浸式智能开发的跨越。
来源:阿里云
2.Yandex 发布最大音乐推荐开源数据集 Yambda
俄罗斯搜索引擎巨头 Yandex 昨日发布了世界上最大的音乐推荐系统开源数据集 Yambda,包含 47.9 亿条匿名用户的交互数据,旨在帮助开发者创建智能音乐服务。
来源:IT之家
3.Anthropic 开源“思维追踪”工具,可视化揭秘 AI 内部逻辑
Anthropic 开发的“思维追踪”工具开源,可图形化展示 AI 大语言模型内部思维过程,通过构建“归因图”助力研究者可视化模型运作并交互式探索,有助于提升 AI 安全性,已在 GitHub 开源,方便社区深入探究语言模型内部运作。
来源:IT之家
4.字节又双叒推出AI视频Agent「小云雀」,剪映打出AI内容生产“组合拳”
字节跳动旗下剪映团队近期推出「小云雀 AI」,主打零门槛创作,已接入豆包和DeepSeek,安卓可下载,iOS 6月发布。其通过明确场景选择避免内容跑题,提升交互效率。在智能成片和数字人视频功能上简化操作流程,还支持AI海报生成等图像任务。
来源: Z Finance
5.DeepSeek的新R1 AI模型精简版可在单个GPU上运行
DeepSeek的更新版R1推理AI模型可能吸引了本周AI社区的大部分关注。然而,这家中国AI实验室还发布了其新R1的一个更小的“精简”版本,即DeepSeek-R1-0528-Qwen3-8B。DeepSeek声称该版本在某些基准测试中优于同等大小的模型。
来源:AIYUN
6.Hugging Face发布两款新型人形机器人
Hugging Face于2025年5月30日宣布推出两款新型人形机器人 HopeJR和Reachy Mini。HopeJR是全尺寸人形机器人,有66个驱动自由度;Reachy Mini是桌面单元,能移动头部、语音交流和听音。两者均为开源,价格分别为3000美元和250 – 300美元。公司尚未确定发货时间,但预计年底前开始发货。
来源:AIYUN
7.华为发布准万亿模型盘古Ultra MoE
华为推出参数规模7180亿的新模型——盘古Ultra MoE,这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。华为同时发布盘古Ultra MoE模型架构和训练方法的技术报告。
来源:科创板日报
8.小米多模态大模型 MiMo-VL 开源,官方称多方面领先 Qwen2.5-VL-7B
小米多模态大模型 MiMo-VL 正式开源,其在图片、视频、语言等多任务上领先 Qwen2.5-VL-7B。MiMo-VL-7B 在多模态推理任务上表现出色,超越大参数模型及闭源模型 GPT-4o。其采用高质量预训练数据和创新算法,多阶段预训练涵盖多种数据类型,混合在线强化学习提升性能。MiMo-VL-7B 开源前后模型及相关框架,为开发者提供资源。
来源:IT之家
2025.5.29
1.快手可灵AI上线2.1系列模型
可灵AI推出全新2.1系列模型,可灵2.1模型在标准模式(720p)下生成5s视频仅需20灵感值,高品质模式(1080p)下也只需35灵感值,能够满足不同用户对于成本控制的需求。在生成速度方面,高品质模式(1080p)下生成5s视频仅需不到1分钟。
来源:科创板日报
2.Meta 发布 Multi-SpatialMLLM:多模态 AI 突破空间理解瓶颈
Meta 公司联合推出 Multi-SpatialMLLM 模型,整合深度感知、视觉对应和动态感知三大组件,突破单帧图像分析的局限,提升多模态大语言模型在复杂空间理解上的能力,该模型在多项基准测试中表现优异,展现出强大的通用性和空间理解能力。
来源:IT之家
3.新版DeepSeek-R1正式开源!直逼o3编程强到离谱,一手实测来了
新版DeepSeek-R1重磅开源,凌晨已放出权重!此次模型性能几乎与o4-mini(Medium)相当,编程实测超越Claude 4 Sonnet。网友纷纷惊叹:开源又一次胜利了。
来源:凤凰网科技
4.Akool推出实时AI驱动的视频摄像头
Akool公司推出实时AI驱动摄像头,可实时生成高质量视频,创建动态化身反映演讲者声音、手势和微表情。与预录制工具不同,它专注于实时互动,适合直播、虚拟会议和AR游戏。功能包括实时多语言翻译、面部替换等,结合4D面部映射等技术,支持超多交互点,使化身表现细致且敏感。Akool已获4000万美元融资。
来源:AIYUN
5.中国石油发布 3000 亿参数昆仑大模型,AI 智能体嵌入加油站管理系统
中国石油发布3000亿参数昆仑大模型,这是能源化工行业首个通过备案的大模型。该模型在语言、视觉和多模态方面参数大幅提升,覆盖勘探、炼化、销售、装备制造等领域,构建多个智能化应用场景,如油气勘探的全波形反演、炼油化工的工艺优化等,还嵌入AI智能体于加油站管理系统
来源:IT之家
6.全球首款生成式人形机器人运动大模型发布:可根据指令生成跑步、舞蹈等连贯动作
5月29日消息,今日上午,国家地方共建人形机器人创新中心联合复旦大学未来信息创新学院,正式发布了全球首款生成式人形机器人运动大模型—— “龙跃”(MindLoongGPT)。
来源:凤凰网科技
7.Google Photos推出全新编辑器,新增AI工具
Google正在庆祝Google Photos成立十周年。推出了全新设计的编辑器。这次重新设计增加了新的AI功能,包括Reimagine和Auto Frame。这些功能之前仅限于Pixel设备,现在更多用户可以使用这些工具。
来源:AIYUN
2025.5.28
1.混元语音数字人模型,开源!
2025 年 5 月 28 日,腾讯混元开源了语音数字人模型 HunyuanVideo – Avatar。该模型由腾讯混元视频大模型及腾讯音乐天琴实验室 MuseV 技术联合研发,用户仅需上传一张图和一段音频,模型就能让图中人物自然说话、唱歌,生成包含自然表情、唇形同步及全身动作的视频,适用于短视频创作、电商与广告等场景,已应用于腾讯音乐的多个场景。
来源:腾讯混元
2.Opera Neon发布 该公司首款“AI 代理”浏览器
Opera 的浏览器产品组合今日迎来了新成员。Opera Neon 是该公司首款“AI 代理”浏览器,旨在“重新思考浏览器在代理网络中的角色”。开发人员声称,Neon 能够理解用户的意图,并利用 AI 驱动的功能将其转化为行动。
来源:cnBeta
3.我国推出天文耀发预测大模型,瞄准攻克恒星耀发难题
5 月 27 日消息,基于一站式智能科研平台 ScienceOne,中国科学院自动化研究所与国家天文台联合研发天文耀发预测大模型 FLARE,瞄准攻克恒星耀发难题,为天文学研究提供了全新工具,展示了“AI + 科学”在天文领域的巨大潜力。
来源:IT之家
4.OpenAI即将允许用户“使用ChatGPT登录”其他应用程序
OpenAI 在周二发布的网页上指出,该公司正在探索让用户使用 ChatGPT 帐户登录第三方应用的方法。OpenAI 目前正在评估可能希望将这项服务集成到其应用中的开发者的兴趣。
来源:cnBeta
5.小红书与复旦哲学达成“AI+人文”合作!
小红书与复旦大学哲学学院达成“AI+人文”合作,共同成立“AI人文人才训练营”,培养复合型人才。该训练营聚焦于AI后训练的人文课题,旨在提升AI的人性化表达与人类价值对齐能力。小红书的hi lab(人文智能实验室)与复旦哲学学院携手,通过竞赛和共创训练,培养学员的数据构建、模型认知和创新应用能力,推动AI与人文的深度融合。
来源:小红书
6.腾讯元宝宣布打通微信读书、起点读书,搜索可直接跳转阅读
2025 年 5 月 28 日,腾讯公司公关总监张军宣布腾讯元宝打通微信读书和起点读书,搜索可直接跳转阅读。此前腾讯元宝 2.18.0 更新说明已提及类似功能,其还支持优质书籍推荐、个性化指令库以及用自然语言生成 Mermaid 和 UML 流程图渲染等功能。
来源:IT之家
7.WordPress 已组建 AI 团队
WordPress周二宣布已成立一支人工智能团队,负责其开发者社区人工智能产品的开发。该团队包括 James LePage(WordPress 母公司 Automattic 的人工智能负责人)、来自Google的 Felix Arntz 和 Pascal Birchler 以及 Jeff Paul(网页设计公司 10up 的开源总监)。
来源: cnBeta
8.Anthropic 为 Claude 推出语音模式
Anthropic公司为Claude聊天机器人推出处于测试阶段的语音模式,该模式允许用户与Claude进行口语对话,未来几周将以英语上线。语音模式使用户在双手忙碌时能轻松使用Claude,可谈论文档和图像等内容,还能在文本和语音间切换,并查看对话脚本和摘要。不过,语音对话计入常规使用上限,且部分功能仅限付费订阅者使用。
来源:AIYUN
9.谷歌DeepMind发布AI编码代理AlphaEvolve
谷歌DeepMind发布AI编码代理AlphaEvolve,利用LLM在多领域优化算法,如硬件设计、数据中心运营和AI训练。它使用Gemini Flash和Gemini Pro生成程序,通过评估函数进化代码,成功应用于数学问题和数据中心运营,提高效率。尽管未完全开源,但学术研究人员可申请提前访问。
来源:AIYUN
10.硅谷跑出一匹AI应用黑马 视频实时换脸真假莫辨 背后创始人系中国90后
硅谷初创公司Akool发布全球首款实时摄像头Akool Live Camera,具备实时翻译多语言、虚拟数字人、实时换脸等功能。其特点在于实时性、低延迟和智能交互能力,适用于广告营销、直播等领域。Akool由1990年出生的中国创始人吕家俊创立,他曾在苹果、谷歌等公司任职,Akool已拥有500万用户和4000万美元的年度经常性收入,合作企业包括苹果、可口可乐等。
来源:科创板日报
11.微软开源 Aurora AI 气象预报模型,微调后还可用于洋流 / 空气质量监测等领域
微软开源了Aurora AI气象预报模型,该模型结合深度学习与大规模异构数据处理技术,可精准预测天气,微调后还能用于洋流、空气质量监测等领域。Aurora模型利用多来源的气象与环境数据训练,在热带气旋预测、海浪预报和空气质量预测等方面表现出色,已整合至MSN天气服务,并在Azure AI Foundry Labs向开发者提供试用与二次开发。
来源:IT之家
12.前Meta、谷歌员工组队 AI技术大佬融资1300万美元做AI建模 AI秒生3D模型
欧洲知名3D AI研究员、慕尼黑工业大学视觉计算与人工智能实验室的Matthias Niessner,已暂停学术工作,创办了一家初创公司SpAItial。Niessner曾是AI虚拟人创业公司Synthesia的联合创始人,他已为SpAItial筹集了1300万美元的种子轮融资——这个金额对欧洲初创公司来说极为罕见。
来源:科创板日报
2025.5.27
1.王兴披露美团 AI 业务进展:基础大模型能力接近 GPT-4o 水平,6 月将推业务决策助手
据蓝鲸新闻,在今晚的美团 2025 年第一季度财报电话会上,美团创始人王兴透露了有关美团 AI 大模型进展的消息,其称,美团计划在 6 月份推出的业务决策助手,将帮助商家把握 AI 趋势,实现数字化转型。
来源:IT之家
2.秘塔AI搜索推出全新“极速”模型
秘塔AI搜索推出了全新“极速”模型,通过在GPU上进行kernel fusion以及在CPU上进行动态编译优化,在单张H800 GPU上实现了最高400 tokens/秒的响应速度,大部分问题2秒内就能答完。新版模型不仅更快,准确率更高,逻辑也更清晰。
来源:秘塔AI搜索
3.官方通报ComfyUI存多个高危漏洞:已被境外黑客利用对我国网络实施攻击
2025年5月27日,国家网络安全通报中心发布通报,指出AI绘图工具ComfyUI存在多个高危漏洞,包括任意文件读取、远程代码执行等,攻击者可利用这些漏洞获取服务器权限并窃取数据。目前已有境外黑客组织利用这些漏洞对我国网络资产实施攻击,伺机窃取重要敏感数据。
来源:凤凰网科技
4.谷歌发布开源 LMEval 框架:打破 AI 模型比较壁垒,降低评测成本和时间
谷歌推出开源框架 LMEval,为大语言模型和多模态模型提供标准化评测工具,简化评测工作,节省时间和资源。LMEval 支持多种评估类型,能识别模型规避策略,引入安全评分,具备增量评估功能,还配备可视化工具,方便用户比较模型差异。
来源:IT之家
5.Anthropic的Claude 4 Opus将AI编码和推理提升到新高度
Anthropic的Claude 4 Opus模型在AI编码和推理方面取得重大突破。它通过混合推理方法,既可快速响应简单查询,又能深度思考复杂问题。在编码能力上,Opus 4在SWE-bench测试中表现卓越,支持多种编码风格和大量输出标记,并与主流IDE及GitHub Actions集成。
来源:AIYUN
6.三部门:有序推动智能产品创新研发 培育高端智能化电子产品等新兴领域
工业和信息化部、国家发展改革委、国家数据局印发《电子信息制造业数字化转型实施方案》,加快高端电子信息产品智能化升级。有序推动智能产品创新研发,推动智能产品分类代码研究,培育高端智能化电子产品等新兴领域。
来源:科创板日报
7.韩国SKT将推出首款推理模型A.X 4.1 性能媲美DeepSeek R1
27日讯,韩国电信SK Telecom(SKT)近日将推出首款推理模型A.X 4.1,该模型在MMLU测试中获得87.3分,与DeepSeek R1的90.8分差距不大。该模型有720亿个参数,约是DeepSeek R1(6710亿个参数)的9分之1。
来源:科创板日报
2025.5.26
1.AI 模型 4o → o3:OpenAI 升级 Operator 智能体,浏览器交互更稳定、更准确
OpenAI 升级 Operator 智能体,其 AI 模型从 4o 升级到 o3 模型。升级后,Operator 推理能力大幅提升,在与浏览器交互时更稳定、更准确,任务成功率显著提升,回复也更清晰、详尽且结构化。该智能体自 2025 年 1 月推出,主要服务于自动化网页任务,目前仅限订阅 200 美元 Pro 或 Enterprise 套餐的用户使用。
来源:IT之家
2.昆仑万维天工超级智能体APP今日正式上线!全球首款Office智能体APP
昆仑万维天工超级智能体APP于2025年5月26日正式上线,这是全球首款基于AI Agent架构的Office智能体手机APP。该APP以“8分钟完成8小时工作”为核心理念,通过四大智能体协同工作,重新定义移动办公效率。它支持跨端协同,打造无缝创作生态,其核心技术“Deep Research”在国际评测中表现优异,推理成本低。
来源:昆仑万维集团
3.红杉中国发布xbench,首个由投资机构打造的AI基准测试
红杉中国于2025年5月26日发布xbench,这是首个由投资机构打造的AI基准测试。当前,基础模型快速发展,AI Agent规模化应用,但现有基准测试难以真实反映AI系统客观能力,基础模型“刷爆”题库现象频发。红杉中国联合多家高校和研究机构,采用双轨评估体系和长青评估机制,推出xbench。
来源:凤凰网科技
4.Anthropic Claude 4:行业反应与见解
Claude 4是一个先进的AI模型,以其强大的自然语言处理能力受到赞誉,能够进行类似人类的互动并改善各行业工作流程。它在医疗、金融、零售和教育等领域有多种应用,能简化流程、自动化任务并增强决策能力。与GPT-4等其他AI模型相比,Claude 4强调伦理AI实践和减少偏见,对优先考虑公平和准确性的行业特别有吸引力。
来源:AIYUN
5.2025 高考临近“AI 大模型押题卷”火热,央视网提醒考生应独立思考避免过度依赖
2025年高考临近,AI大模型押题卷市场热度上升。央视网盘点发现,部分押题卷与真题相似度低,却仍被标榜为“押中”。专家提醒考生不应过度依赖此类押题卷,而应独立思考。同时,AI可作为复习辅助工具,但需学生正确使用,避免被动接受误导。
来源:IT之家
6.@高考生,你的AI高考通上线了!
QQ浏览器上线行业内首个高考Agent“AI高考通”,为高考考生提供全流程助力。考生可通过AI高考通快速获取全面权威的高考信息,一键得到量身定制的志愿填报方案。高考期间,AI全程陪伴,提供考前解题辅导、考中日程查询及答疑、考后志愿推荐等服务。
来源: QQ浏览器
7.AI手机是泡沫?这场对话揭开了智能硬件创业的真实状态
文章通过凤凰科技与零零科技CEO王孟秋、Nothing创始人裴宇的对话,探讨了AI手机的现状、小众品牌的发展策略以及全球化中的技术与合规问题。两位创业者认为当前AI手机多是概念营销,而非真正的技术革新。小众品牌通过精准定位和创新设计在巨头夹缝中求生。全球化背景下,中国科技企业面临技术自主与合规的双重挑战。
来源:凤凰网科技
8.上海首家国资背景垂直领域大模型企业“中城交科技”成立
上海首家国资背景垂直领域大模型企业——中城交(上海)科技有限公司在“模速空间”创新生态区正式揭牌。作为隧道股份孵化的战略性人工智能科技企业,该公司将专注交通领域大模型技术研发与应用。
来源:科创板日报
9.Figure机器人官宣更新:F.03正式行走
近日,人形机器人公司Figure首席执行官布雷特·阿德科克(Brett Adcock)在社交平台发文称,F.03已正式开始行走,并表示“这是我见过的最先进的硬件”。随后,阿德科克重申Figure正在招聘数百个岗位,其中包括多名AI工程师。
来源:科创板日报
2025.5.23
1.Claude 4发布:替代人类程序员所需的条件,现在它都有了
Anthropic 发布 Claude 4 系列模型,包括 Claude Opus 4 和 Claude Sonnet 4。Opus 4 编程能力突出,在 SWE-bench 得分 72.5%,能处理复杂代码库、连续编程 7 小时。系列具备“工具辅助延伸思考”等能力,编程助手 Claude Code 集成至主流 IDE。CEO Dario Amodei 称这是迈向 AGI 第一步,未来将构建“代码自进化”Agent。
来源:凤凰网科技
2.京东工业发布行业首个以供应链为核心的工业大模型Joy industrial
京东工业于5月22日在上海发布行业首个以供应链为核心的工业大模型Joy industrial。该大模型依托京东工业在工业数智供应链领域的经验积累和数据沉淀,构建全栈产品矩阵,助力产业降本增效等。它针对工业供应链痛点,推出多种AI智能体和产品,如需求代理、运营代理等,还明确了打造多个重要垂直行业工业大模型的目标。
来源:京东黑板报
3.京东:数字人带货水平超 80% 真人主播
京东数字人直播技术取得显著成效。近三个月,京东大模型服务调用量增长200%,内部智能体超1.4万个,AI解决18%工作内容。数字人直播成本低,带货水平超80%真人主播,超10,000家商家使用。京东推出高商业可用数字人,支持多种功能,适配不同场景。京东618期间,推出六大行业定制数字人,免费开放给商家使用。
来源:IT之家
4.Vercel发布首个v0前端生成AI模型 正处于测试阶段
Vercel发布了其首个专用模型,凭借其生成式 UI 系统 v0 向该领域迈进了一步。如果您不知道 v0 是什么,它是最近发布的 Google Stitch 等工具的竞争对手,后者也旨在让您描述用户界面并让人工智能生成设计。该工具于 2023 年首次亮相,当时是一个仅限受邀者使用的测试版,可将自然语言转换为前端代码。
来源:cnBeta
5.豆包上线视频通话功能 支持实时视频问答
字节跳动豆包AI上线实时视频通话功能,用户在电话界面开启视频画面后,豆包能基于真实场景与用户进行实时问答互动。此外,豆包视频通话功能还接入了联网搜索能力,实时获取互联网最新信息
来源:科创板日报
6.基于Sora的微软新工具Bing Video Creator挑战Veo 各平台均可免费用
微软正在悄悄地将Bing Image Creator打造成更强大的工具。在 Bing Android 应用程序中,代码字符串揭示了一个名为 Bing Video Creator 的新工具,它借助 OpenAI 的 Sora 模型,可让您将文本提示转换为短片。
来源:cnBeta
7.苹果据悉计划2026年推出智能眼镜 抢占AI设备市场
果公司计划于明年年底发布智能眼镜,旨在进一步抢占人工智能增强设备市场,但该公司搁置了研发配备内置摄像头可分析周围环境的智能手表计划。据知情人士透露,苹果工程师正加紧研发这款眼镜,以期实现在2026年年底发布的目标
来源:科创板日报
2025.5.22
1.OpenAI收购Jony Ive的AI初创公司 旨在打造“新型计算形态”
OpenAI宣布收购由乔纳森·艾维(Jony Ive)联合创立的硬件AI初创公司io,旨在开发新型AI设备。艾维与OpenAI首席执行官萨姆·奥特曼(Sam Altman)已合作两年,预计共同开发一系列产品。此次合作将结合OpenAI的AI技术与io的设计能力,有望推出具有颠覆性的消费级硬件产品,首款设备预计2026年问世。收购尚需监管部门批准,预计夏天完成,交易金额达65亿美元。
来源:cnBeta
2.Anthropic 最强 AI 模型 Claude Sonnet 4 / Opus 4 有望明日发布
2025 年 5 月 22 日消息,科技媒体 bleepingcomputer 报道称 Anthropic 正秘密研发 Claude Sonnet 4 和 Claude Opus 4 两款全新 AI 模型,目前处于内部测试或推广阶段,标注“非生产用途”和“严格速率限制”,且有“show_raw_thinking”等功能,暗示推理能力更强。Anthropic 官宣将于太平洋时间 5 月 22 日 9 点 30 分举办“Code with Claude”发布会,有望发布上述模型。
来源:IT之家
3.昆仑万维面向全球发布天工超级智能体:基于deep research的“AI版office”
昆仑万维于2025年5月22日面向全球发布天工超级智能体(Skywork Super Agents)。该产品采用AI agent架构和deep research技术,能一站式生成文档、PPT、表格、网页、播客和音视频等多模态内容,其deep research能力在GAIA榜单上排名全球第一。它包含5个专家级agents和1个通用agent,能大幅提升内容生成效率和质量,将AI从助手转变为真正的生产力伙伴。
来源:昆仑万维集团
4.Neurologyca推出多模态平台以创建情感感知AI
Neurologyca公司推出了Kopernica平台,这是一个多模态AI平台,旨在通过分析语音语调、面部表情等多模态输入解读人类情感。该平台采用3D模式识别建模,监测人体790多个参考点,能评估90种情感分类。它作为“情感操作系统”,与其他AI模型协同工作,增强人机互动。公司注重隐私,数据处理本地化且匿名化。尽管情感AI有潜在误用风险,但若使用得当,可改变人机互动方式,应用于健康监测和娱乐推荐等领域。
来源:AIYUN
5.英伟达推出视频搜索和总结工具AI Blueprint,比用户实时观看快100倍
英伟达推出 AI Blueprint,用于视频搜索与总结,由 NVIDIA Metropolis 平台驱动,可为开发者提供构建和部署 AI 智能体的工具,分析大量实时和存档视频。结合视觉语言模型和超智能大语言模型,可帮助企业查看、搜索并总结海量视频,总结速度比实时观看快 100 倍,还能同时处理数百个实时视频流或多组视频片段,支持音频转录。
来源:凤凰网科技
6.Mistral 发布编程专用开源 AI 模型 Devstral:240 亿参数、单张 RTX 4090 显卡可运行
2025年5月22日,法国巴黎Mistral AI公司推出开源AI模型Devstral,参数规模240亿,处于“研究预览”阶段,以Apache 2.0开源许可发布,可商用。该模型推动“agentic”编码发展,能应对复杂开发挑战,可通过Mistral API访问,支持本地部署,性能测试表现优异,硬件门槛低,擅长探索代码库等。
来源:IT之家
7.智能化工大模型2.0 Pro版上线
2025全国石油和化工行业科技创新大会,发布了由中国科学院大连化学物理研究所(以下简称“大连化物所”)和科大讯飞、中国科学院文献情报中心等单位联合研发的智能化工大模型2.0 Pro版本。作为我国化工行业首个大模型,智能化工大模型已应用在40余家化工企业、设计院和高校,我国化工行业将实现新技术“从实验室一步到工厂”。
来源:科创板日报
2025.5.21
1.Google I/O 2025:从研究到现实
Google I/O 2025 大会上,CEO Sundar Pichai 分享了谷歌在 AI 领域的多项进展。谷歌的 AI 模型发展迅速,Gemini 2.5 Pro 在性能上取得显著提升,且得益于强大的基础设施,模型性价比更高。全球对 AI 的接受度不断提高,Gemini 应用的月活跃用户超 4 亿。谷歌将多项研究项目转化为实际应用,如 Google Beam 提供沉浸式 3D 视频通信体验,语音翻译功能助力跨语言交流,Gemini Live 整合 Project Astra 功能并推广至更多用户。
来源:谷歌黑板报
2.全国首个 深圳市龙岗区人工智能(机器人)署揭牌
5月21日消息,据“深圳龙岗发布”消息,5月21日,深圳市龙岗区召开人工智能与机器人发展大会,揭牌全国首个人工智能领域政府直属机构——龙岗区人工智能(机器人)署,并集中发布《龙岗区加快创建“AI龙岗”三年行动计划(2025—2027年)》《龙岗区具身智能机器人友好示范城区三年行动方案(2025—2027年)》等一系列政策举措。
来源:钛媒体
3.腾讯推出智能体开发平台并计划开源多个模型
5月21日消息,腾讯云推出智能体开发平台,接入DeepSeek- R1、V3模型和联网搜索。腾讯还计划近日推出世界模型混元3D场景模型,并开源企业级混合推理模型、端侧混合推理模型、多模态基础模型。近日腾讯大模型产品批量更新,已推出视觉深度推理模型混元T1 Vision、端到端语音通话模型混元Voice、混元图像2.0模型等。
来源:钛媒体
4.全球首款!北大上线新AI
近日,由北京科学智能研究院与深势科技联合打造的新一代AI4S科研知识库与AI学术搜索平台——Science Navigator(科学导航)正式上线
来源:北京大学
5.高盛、摩根大通峰会齐聚上海 聚焦中国经济和AI
财联社5月21日电,高盛旗舰Technet科技大会于5月21日在上海召开,以往该大会更多在中国香港或新加坡举行。5月22日,摩根大通中国峰会也将在上海举行,主题为“资本为桥连通世界”。摩根大通CEO 戴蒙(Jamie Dimon)将亲临上海并在论坛上对客户发表演讲。
来源:科创板日报
6.美图公司与阿里巴巴达成战略合作并获得2.5亿美元投资
5月20日,美图公司(1357.HK)发布公告,宣布与阿里巴巴签署2.5亿美元可转债协议,同时,双方还将在电商平台、AI技术、云计算等领域展开战略合作。
来源:美图公司
7.软银计划通过150亿美元银团贷款加码AI投资
财联社5月21日电,消息人士透露,软银集团将利用一笔由瑞穗银行、三井住友银行和摩根大通担任主承销商的贷款为其人工智能投资融资,这显示出软银为其宏大野心获取资金的能力。这笔为期一年的150亿美元过桥贷款是软银迄今最大一笔融资之一
来源:科创板日报
2025.5.20
1.混元游戏来了,首个工业级AIGC游戏内容生产引擎正式发布
腾讯混元游戏视觉生成平台正式发布,这是首个工业级AIGC游戏内容生产引擎。它依托混元大模型,优化游戏资产生成与制作流程,为游戏美术设计师提供AI工具,提升设计效率数十倍。基于百万级多模态数据集,构建核心算法模型矩阵,针对游戏研发痛点优化。目前上线AI美术管线、实时画布等核心能力,集中在美术概念设计环节。
来源:腾讯混元
2.英伟达发布 GR00T N1.5 人形机器人 AI 基础模型
2025 年 5 月 20 日,在台北国际电脑展上,英伟达推出人形机器人基础模型 Isaac GR00T N1.5 新版,其通过 GR00T-Dreams 工具生成合成数据,大幅缩短开发时间,提升训练效率,解决了数据瓶颈问题。该模型在新环境适应、工作空间配置及指令识别方面显著提升,波士顿动力等头部企业已接入 NVIDIA Isaac 平台,英伟达还同步推出相关配套开发工具。
来源:IT之家
3.微软在Build 2025大会上发布Windows AI Foundry
在2025年的Build开发者大会上,微软发布了Windows AI Foundry,取代了之前的Copilot Runtime。该平台支持从模型选择、优化、微调到客户端和云端部署的AI开发者生命周期,能够在用户设备上直接运行多种AI模型,包括开源选项和微软自有的内置模型,还支持第三方贡献,如Nvidia的NIM。
来源:AIYUN
4.GitHub 的新版 AI 编程代理现在可以帮你修复代码错误
GitHub 正在推出一款 AI 编程代理,它可以代表开发人员完成修复错误、添加功能和改进文档等任务。根据Microsoft Build 大会上的公告,该代理直接嵌入到 GitHub Copilot 中,一旦用户为其分配任务,它就会开始工作。
来源: cnBeta
5.动漫神级工具诞生!日本首个AI视频生成平台Animon:3分钟高效出片
2025年4月底,日本首个AI视频生成平台Animon诞生,迅速引发全球热议。Animon在二次元生成效果上优于现有主流平台,具有专业二次元质感、无限生成、超快生成、极简界面操作以及画面一致性与风格稳定等亮点。其母公司CreateAI由图森未来转型而来,致力于将AI生成技术融入动漫、游戏等数字内容创作领域。
来源:凤凰网科技
6.美团要开放AI编程能力,将推出新产品NoCode
美团近期将上线AI编程工具NoCode,定位Vibe Coding方向,由美团研发质量与效率团队研发,已进入灰度测试。NoCode面向非技术人群,通过对话式交互完成编码任务及部署,应用场景丰富。美团此举旨在降低中小商户数字化门槛,提升用户体验。
来源:凤凰网科技
7.京东云发布JoyScale AI算力平台及JoyAgent智能体2.0
5月20日消息,京东云在上海发布JoyScale AI算力平台、JoyBuild大模型开发计算平台、JoyAgent智能体2.0等产品,同时面向医疗、工业、金融三大垂直行业推出一体机,助力企业构建AI基础设施。其中,京东云JoyAgent2.0正在帮助企业生成专业数字员工。
来源:钛媒体
8.微软将马斯克的Grok 3等AI模型引入其云端
5月20日消息,微软宣布,正在将马斯克的xAI模型添加到其人工智能市场,其中包括对方于2025年早些时候推出的Grok 3。微软表示, Azure云服务的用户可以使用超过1900种Al模型,包括来自微软合作伙伴OpenAl, Meta Platforms和DeepSeek的模型。
来源:钛媒体
9.AI终端产业有望迎“排浪式”增长 设备硬件或迎来革新机遇
本文主要介绍了人工智能终端产业的发展现状与未来趋势。国家发展改革委协同推进“人工智能+”行动,人工智能终端产业规模有望迎来“排浪式”增长,如智能手机轻量化部署国产大模型、AI眼镜等智能穿戴产品不断涌现。从产业链角度看,传统消费电子终端在AI赋能下,设备硬件面临更高性能需求,中上游各环节有望迎来革新机遇。
来源:科创板日报
10.叮咚买菜完成组织架构调整 APP改版推出多个AI功能
叮咚买菜创始人兼CEO梁昌霖宣布,公司已启动自内而外的变革,并取得了阶段性成果。公司内部改为10个独立的事业部,将商品开发、运营、品控等核心部门组织在一起,由10位核心高管分别牵头带队。同时,叮咚买菜APP还进行了改版测试,上线“AI饮食管家”、AI大模型搜索等新功能。
来源:科创板日报
2025.5.19
1.中国移动发布 AI 通话系列产品:电话智能摘要、通话 MV、多模态助理
广东移动在2025年5月15日的发布会上公布了AI通话系列产品,包括AI速记、AI秘书、AI家秀、AI礼遇、AI伴聊和即将推出的AI通话助理。这些产品依托AI大模型和多模态AI技术,为用户提供了通话记录转写、智能摘要、代接来电、家庭MV生成、电子礼物发送、情感陪伴以及通话中的智能交互等功能,覆盖了商务、家庭、社交等多元场景,旨在提升沟通效率和用户体验。
来源:IT之家
2.B站团队开源动漫视频生成模型 AniSora,一键创建不同风格片段
B站团队开源了动漫视频生成模型AniSora,可一键创建多种动漫风格视频片段,涵盖系列剧集、中国原创动画、漫画改编等。该模型针对动漫独特艺术风格和运动特点,提出完整系统,包括数据处理流水线、可控生成模型和评测数据集,人物与运动一致性均达SOTA。IT之家附有图生视频示例及开源地址。
来源:IT之家
3.OpenAI发布代码Agent:开启自动化编程时代,超强智能体
OpenAI发布了基于云端的代码Agent——Codex,由Codex-1模型提供支持,针对软件工程优化。它能为开发人员自动执行多种任务,如编写代码、回答代码库问题、修复错误等,且每个任务在独立云端沙盒环境中运行。Codex工作原理是通过输入提示词分配任务,可读取编辑文件并运行相关命令,任务完成后提交更改并提供可验证证据。
来源:凤凰网科技
2025.5.16
1.腾讯混元图像2模型发布 支持文本、语音、草图等交互方式
腾讯于2025年5月16日发布混元图像2.0模型,标志着AI图像生成进入“毫秒级”时代。该模型具备实时生图和超写实画质两大特点,参数量大幅提升,借助超高压缩倍率图像编解码器和全新扩散架构,生图速度远超行业领先模型,可实现毫秒级响应。其图像生成质量显著提升,避免了AIGC图像的“AI味”,真实感强、细节丰富。
来源:腾讯混元
2.百度AI搜索上线DeepSearch,支持主动思考和无限次免费使用
百度AI搜索日前重磅升级,推出国内首个基于百亿级内容库的深度搜索(DeepSearch),并上线了个人知识库、创作画布等创新功能,打造”边想边搜”的新一代智能搜索体验。
来源:凤凰网科技
3.Google为Android和Chrome推出新的人工智能和辅助功能
Google周四宣布,将为 Android 和 Chrome 推出全新的人工智能和辅助功能。其中最引人注目的是,Android 的屏幕阅读器 TalkBack 现在可以让您向 Gemini 询问图片中的内容以及屏幕上的内容。
来源:cnBeta
4.Manus推出图像生成功能
5月16日消息,Manus宣布推出图像生成功能。据介绍,Manus不仅是生成图像,它了解用户的意图,规划解决方案,并知道如何有效地使用图像生成和其他工具来完成用户的任务。
来源:钛媒体
5.Rokid 与高德地图战略合作,联合发布首个全场景智能眼镜导航应用
Rokid 与高德地图达成战略合作,联合发布首个全场景智能眼镜导航应用。该应用融合 AI+AR 能力与空间智能,通过语音、视觉和环境感知交互重构导航体验。用户可语音切换步行、骑行、驾车导航模式,画面简洁清晰,减轻视觉疲劳。它还能提供红绿灯信息、监测后方来车、推荐沿途餐厅等多样化服务,未来将拓展更多出行场景和融入生活服务、文旅景区等内容。
来源:IT之家
6.Mistral发布Medium 3:企业级语言模型
Mistral AI已发布Mistral Medium 3,这是一款中型语言模型,专为那些寻求高性价比、强大性能和灵活部署选项的企业设计。该模型现已通过Mistral的平台和Amazon SageMaker提供,并计划进一步在IBM WatsonX、Azure AI Foundry、Google Cloud Vertex AI和NVIDIA NIM上发布。
来源:AIYUN
7.人工智能驱动的药物开发初创公司Pathos AI完成3.65亿美元融资
Pathos AI是一家利用人工智能开发新型肿瘤药物的初创公司,近期完成3.65亿美元D轮融资,估值达16亿美元。公司开发的PathOS平台可简化制药科学家工作,其AI模型可处理多模态数据,助力药物制造商设计更有效的临床试验。Pathos正进行两种癌症药物试验,新资金将用于资助临床研究及开发大型肿瘤研究AI基础模型。
来源:AIYUN
8.MiniMax发布新一代语音大模型
16日讯,上海AI独角兽MiniMax稀宇极智近日发布新一代语音大模型Speech-02。该模型在国际两项语音评测榜单Artificial Analysis和Hugging Face TTS Arena 上,力压OpenAI、ElevenLabs等国际巨头,荣登双榜榜首。
来源:科创板日报
9.Windsurf宣布推出其首个AI软件工程模型系列SWE-1
周四,为软件工程师开发流行AI工具的初创公司Windsurf宣布推出其首个AI软件工程模型系列,简称SWE-1。该公司表示,其训练的全新AI模型系列——SWE-1、SWE-1-lite和SWE-1-mini——旨在针对“整个软件工程流程”进行优化,而不仅仅是编程。
来源:cnBeta
10.梁文锋等发表DeepSeek V3回顾性论文
5月16日消息,近日DeepSeek创始人梁文锋等人发表了一篇名为《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for Al Architectures(深入了解DeepSeek-V3:人工智能架构硬件的扩展挑战与思考)》的回顾性论文
来源:钛媒体
11.AI视频平台Hedra筹集3200万美元用于构建数字角色基础模型
生成式人工智能初创公司Hedra Inc.今日宣布它已成功筹集3200万美元,用于开发一个AI平台,该平台允许创作者通过文本、音频和图像输入生成逼真生动的角色视频。
来源:AIYUN
12.Meta据悉将推迟发布旗舰AI模型“巨兽”
5月16日电,知情人士表示,Meta Platforms将推迟其旗舰AI模型的发布,此举引发内部对其数百亿美元AI投资方向的担忧。知情人士称,工程师们正竭力提升名为“巨兽”(Behemoth)的大语言模型性能,员工质疑其改进程度是否足以支撑公开发布。该模型原定4月Meta首届AI开发者大会亮相,后推迟至6月,现再度延期至秋季或更晚。
来源:科创板日报
2025.5.15
1.通义万相VACE开源!一款模型搞定多种视频编辑任务
文章介绍了通义万相VACE开源模型,它支持多种视频编辑任务,如文生视频、图像参考生成等。VACE具备可控重绘能力,支持多模态输入,可对视频进行局部编辑和时长空间扩展。其输入范式为视频条件单元VCU,通过特定编码方式将多模态输入转化为可处理序列。
来源:通义大模型
2.速度最快:Stable Audio Open Small 端侧音频模型登场
Stability AI 推出的 Stable Audio Open Small 是一款在智能手机上运行的速度极快的音频生成 AI 模型,能在 8 秒内生成最长 11 秒的音频片段,适用于制作音效。该模型无需云端处理,与 Arm 合作针对 Arm CPU 优化,数据来自免版税音频库,避免了知识产权风险。
来源:IT之家
3.OpenAI宣布向ChatGPT用户开放GPT-4.1模型
5月15日消息,美国开放人工智能研究中心(OpenAI)北京时间今天凌晨宣布,应广大用户的要求,GPT-4.1即日起将直接在ChatGPT中提供。GPT-4.1是一款专攻编码任务和指令遵循的专用模型。Plus、Pro和Team用户将能够通过模型选择器中的“更多模型”下拉菜单访问GPT-4.1。
来源:钛媒体
4.Patronus AI推出新工具Percival,专注修复AI代理故障
Patronus AI推出新工具Percival,旨在帮助开发者快速修复AI代理故障。该工具获2000万美元资金支持,可分析AI代理任务工作流程,识别导致问题的子步骤并生成自然语言摘要,能排查20多种故障类型,包括输出与请求不符、格式问题、过时信息等,还能检测第三方系统错误。
来源:AIYUN
5.生成式AI搜索引擎Perplexity与PayPal达成合作
15日讯,生成式人工智能搜索引擎Perplexity宣布已与PayPal合作,以支持智能商务应用于Perplexity Pro平台。从今年夏季开始,美国用户在使用Perplexity寻找商品、预订旅行或购买门票时,可通过PayPal或Venmo即时结账。
来源:科创板日报
6.淘宝AI图生视频功能上线:商家视频制作周期缩短10天以上
5月15日,淘宝天猫推出AI工具助商家应对618大促,其中最引人注目的“图生视频”功能已帮助商家大幅提升内容制作效率。据了解,该功能让商家通过上传商品图片,即可自动生成最长20秒的短视频,平均为每家商户每月节省超千元成本,缩短视频制作周期10天以上。
来源:凤凰网科技
7.AI语音的Her Moment: 个性化交互达到临界点
本文介绍了MiniMax Speech 02,一个基于AR Transformer模型的高质量文本转语音(TTS)系统。该系统具备强大的泛化能力,支持32种语言、不同口音和情绪的人声合成。其核心创新是Zero-Shot能力和可学习的音色提取器,能够提供任意语言、口音和音色的组合,丰富语音生成的多样性。
来源: MiniMax 稀宇科技
8.Layer公司为其AI驱动的视频游戏制作工具筹集了650万美元
Layer AI公司是一家专注于视频游戏资产设计的人工智能驱动工具平台,2025年5月15日宣布在种子轮融资中筹集了650万美元。Layer AI为游戏开发者提供了一套专业工具,能够快速构建、管理和优化2D、3D和视频资产,显著减少内容生成时间。自2023年推出以来,Layer AI已吸引了包括Zynga公司、Tripledot Studios、SciPlay公司、Huuuge Games和Machine Zone
来源:AIYUN
2025.5.14
1.多模态上新|阶跃星辰开源 3D 大模型 Step1X-3D
阶跃星辰团队于2025年5月14日开源了3D大模型Step1X-3D,参数量达4.8B,采用3D原生架构,可生成高保真、可控的3D内容。该模型通过严格的数据筛选与处理,建立了高质量的训练样本库,并在几何与纹理生成上进行了创新,提升了生成内容的准确性与真实感。
来源:阶跃星辰
2.TikTok 推出全新图像转视频工具 TikTok AI Alive
TikTok 周二宣布,即将推出其首个 AI 图像转视频功能。这项新功能名为“TikTok AI Alive”,允许用户在 TikTok Stories 中将静态照片转换为视频。TikTok 表示,该功能只能通过 TikTok 的 Story Camera 访问,并使用人工智能制作具有“动感、氛围和创意效果”的短视频。
来源:cnBeta
3.苹果携手推出革命性 AI 模型 Matrix3D,简化 3D 重建过程
5 月 14 日消息,科技媒体 9to5Mac 昨日(5 月 13 日)发布博文,报道称苹果机器学习团队携手南京大学和香港科技大学,推出名为 Matrix3D 的 3D AI 模型,专注于从少数 2D 照片中重建真实世界的物体和场景。
来源:IT之家
4.蚂蚁数科企业级AI产品宣布全线出海
5月14日消息,迪拜金融科技峰会2025近日举行,会上,蚂蚁数科国际业务负责人陈逸石在演讲时透露,蚂蚁数科旗下企业级AI产品正在全线出海,并首次在海外市场在海外展示智能体开发平台Agentar、多端开发产品mPaaS以及安全科技产品ZOLOZ等全栈AI产品矩阵。
来源:钛媒体
5.Spotify的AI DJ现已支持语音命令个性化音乐体验
Spotify更新AI DJ功能,高级用户可在60多个市场使用英语语音命令请求音乐或改变播放列表氛围,还能指定播放特定艺术家曲目。用户可通过搜索栏输入“DJ”并按住DJ按钮使用该功能,也可快速按键改变氛围。此前该功能仅支持评论,2023年2月首次在美国和加拿大推出,后全球推广并增加西班牙语支持。
来源:AIYUN
6.Meta在首届LlamaCon活动上宣布API和保护工具
Meta在首届LlamaCon活动上宣布了Llama API的有限预览版和一系列保护工具,包括Llama Guard 4、LlamaFirewall和Llama Prompt Guard 2,旨在使AI应用更加安全。活动还包括与Cerebras和Groq合作提升推理能力,以及将LlamaStack与NVIDIA NeMo微服务集成
来源:AIYUN
7.上新!让Qwen帮你「深入研究」一下吧!
本文介绍了 Qwen 团队开发的 Deep Research 智能助理系统。该系统能规划复杂研究任务,整合网络信息,快速生成详细研究报告,提升处理复杂任务效率。它基于 Qwen 模型,融合多种能力,适用于多种场景,如市场分析、挑选夏令营等,已在 QwenChat 上免费开放体验。
来源:通义千问Qwen
8.“人工智能标识生态联盟”来了! MiniMax、小红书首批入盟
2025年5月14日,《科创板日报》报道了“人工智能标识生态联盟”的成立。该联盟是在中央网信办网络管理技术局、上海市委网信办指导下,由中国网络空间安全协会、上海市互联网业联合会人工智能专委会主办的活动上宣布成立的。联盟旨在加快人工智能生成合成内容标识工作的落地,首批成员单位包括MiniMax、小红书等。
来源:科创板日报
9.Anthropic 即推 AI 新星:Claude Neptune 安全测试收官在即
Anthropic 即将发布 Claude Neptune 新 AI 模型,目前处于内部安全测试阶段,预计 5 月底或 6 月初发布。该模型在安全测试中表现出色,尤其在防范越狱尝试方面比以往模型更强大。发布后将与 OpenAI 的 GPT-5 和谷歌的 Gemini Ultra 竞争,预计将加强多模态和智能体功能。
来源:IT之家
2025.5.13
1.火山引擎发布豆包视频生成模型Seedance 1 lite
5月13日消息,今日在 FORCE LINK AI 创新巡展·上海站,火山引擎发布豆包·视频生成模型Seedance 1 lite、豆包1.5·视觉深度思考模型,并升级豆包·音乐模型。
来源:钛媒体
2.苹果发布 FastVLM 视觉语言模型,为新型智能眼镜等穿戴设备铺路
苹果机器学习团队开源视觉语言模型FastVLM,有0.5B、1.5B、7B三个版本,基于自研MLX框架开发,专为Apple Silicon设备端侧AI运算优化。其核心FastViTHD混合视觉编码器,处理速度较同类模型提升3.2倍,体积却仅有3.6分之一。
来源:IT之家
3.Manus开放注册 用户每天可免费执行一项任务
5月13日,Manus宣布开放注册,Manus在公告中表示,Manus向所有人开放,无需等待名单;所有用户每天可免费执行一项任务(300积分),所有用户一次性获得1,000积分奖励。
来源:凤凰网科技
4.昆仑万维正式开源Matrix-Game:从图像出发构建可控交互世界
5月13日,昆仑万维正式开源(17B+)Matrix-Game大模型,即Matrix-Zero世界模型中的可交互视频生成大模型。Matrix-Game是Matrix系列在交互式世界生成方向的正式落地,也是工业界首个开源的10B+空间智能大模型
来源:昆仑万维集团
5.苹果携手复旦大学推 StreamBridge 端侧视频大语言模型框架
5 月 13 日消息,科技媒体 marktechpost 今天(5 月 13 日)发布博文,报道称苹果公司联合复旦大学,推出 StreamBridge 端侧视频大语言模型(Video-LLMs)框架,助力 AI 理解直播流视频。
来源:IT之家
6.DeepSeek:APP、WEB对话功能恢复正常
5月13日消息,DeepSeek服务状态页面更新称,APP、WEB对话功能恢复正常,对话历史有概率获取失败。此前稍早,DeepSeek登上微博热搜第二,不少网友反馈一直在转圈、无法使用。
来源:钛媒体
7.百型智能推出国内首个外贸行业垂类Agent
5月13日电,百型智能推出国内首个外贸行业垂类Agent——AI外贸员Zoe。据了解,Zoe可以根据企业目标拆解任务,独立完成从市场分析、寻找客户、精准筛选,到开发触达、转化跟进的外贸开发拓客全链路,转化率高出传统人工方式10倍以上
来源:科创板日报
2025.5.12
1.ChatGPT 深度研究新增导出为 PDF 功能,可保留报告格式
ChatGPT 推出了深度研究报告可导出为 PDF 的新功能,能保留报告原始布局,目前处于网页端测试阶段。同时,OpenAI 还为 ChatGPT 深度研究功能推出 GitHub 连接器,面向团队订阅用户,拓展其在代码管理和协作方面的应用。
来源:IT之家
2.谷歌搜索再迎新挑战:Anthropic 为其 API 引入网页搜索功能
2025年5月12日,明星AI企业Anthropic宣布为其API推出网页搜索功能,使Claude AI能够访问网络最新信息,为谷歌搜索引擎带来新挑战。该功能让开发者可打造提供最新洞察的Claude驱动AI应用。Claude在收到需最新信息或专业知识的请求时,会判断是否使用网络搜索来提供更准确答案,并可进行智能体操作,利用先前结果指导后续查询。
来源:IT之家
3.Kimi「联姻」小红书,「大模型六小龙」不端着了
本文主要探讨了Kimi(月之暗面)与小红书的合作动态以及大模型领域的竞争现状。Kimi在小红书开设官方账号,用户可直接与Kimi对话并生成笔记,但目前功能有限,整合程度不高。此次合作是Kimi拓展流量的举措,也体现了小红书对AI的探索。同时,文章还分析了大模型领域的竞争格局,指出“大模型六小龙”各自的发展策略和面临的竞争压力。
来源:36氪
4.南智光电发布中国首个光子芯片领域专用大模型OptoChat AI
2025 年 5 月 8 日,南京南智先进光电集成平台牵头研发的国内首款光子专用大模型 OptoChat AI 在光子产业生态大会上发布。该模型集成 30 万条光子芯片相关数据,能显著提升光电芯片研发效率与产业转化速度。南智光电是南京大学与南京市共建的重点研发机构,已建成国内首个“薄膜铌酸锂 + X”光电芯片产线
来源:凤凰网科技
5.美团独家投资具身大脑企业自变量机器人A轮融资
本文报道了具身智能公司自变量机器人完成数亿元A轮融资的消息,美团战投领投、美团龙珠跟投。本轮融资将用于加速全自研端到端通用具身智能大模型与机器人本体的同步迭代,以及未来多个应用场景的智慧化方案合作和落地。自变量机器人成立不到一年半已完成7轮融资,累计融资金额超10亿元。
来源:钛媒体
6.AI21 Labs从谷歌和英伟达筹集3亿美元以扩展企业AI产品
以色列人工智能初创公司AI21 Labs在D轮融资中从谷歌和英伟达筹集了3亿美元,旨在扩展其大型语言模型产品和企业AI解决方案。该公司成立于2017年,专注于开发大型语言模型和自然语言处理工具,其Jamba旗舰模型系列采用混合专家架构,支持长上下文理解和企业级应用
来源:AIYUN
7.OpenAI正与微软重议合约 以保证未来IPO可能性
OpenAI与微软正在重新协商合作条款,旨在为OpenAI未来的IPO铺平道路,同时确保微软能继续获取尖端人工智能技术。自2019年以来,微软已向OpenAI投资超130亿美元。此次谈判关键在于微软在OpenAI重组后新营利业务中的股权比例。微软可能放弃部分股权,以换取2030年后新技术的使用权
来源:科创板日报
8.字节跳动公开向量模型Seed1.5-Embedding
《科创板日报》12日讯,字节跳动Seed团队最新向量模型Seed1.5-Embedding公布技术细节,该模型在权威测评榜单MTEB上达到了中英文SOTA效果。该模型API接口将于近期在火山方舟平台开放。
来源:科创板日报
2025.5.8
1.Hugging Face 发布云端 AI 智能体,文字指令远程操控虚拟电脑
Hugging Face 推出免费云端 AI 智能体工具 Open Computer Agent,允许用户通过文本指令远程操控基于 Linux 的虚拟计算机,集成多种技术,内置常用应用,能响应简单英文指令,但复杂任务表现不佳,响应慢且性能不稳定,目前向公众开放,但需排队体验,旨在展示开源模型在云端运行的优势。
来源:IT之家
2.百度公布动物语言转换方法及装置专利:人类可与动物深度交流
百度公布一项动物语言转换专利,涉及机器学习、深度学习和自然语言处理技术。该专利可准确识别动物情感状态并转换为人类语言,实现深度交流。与现有技术相比,它能深入动物情感层面,实现实时互动沟通。
来源:IT之家
3.在元宝,DeepSeek也能生图了!
腾讯元宝的文生图功能升级,混元和DeepSeek模型都能根据用户的一句话指令生成图片。该功能结合了腾讯混元最新文生图模型,已全端上线,能发散指令生成高质量、复杂且有想象力的图像,用户无需懂提示词,就能画出想法里的图。
来源:腾讯元宝
4.阶跃多模态再添一员:阶跃与 ACE Studio 联合开源音乐大模型 ACE-Step!
阶跃与 ACE Studio 联合开源了音乐大模型 ACE-Step(音跃),参数量为 3.5B,支持多种语言和风格的音乐创作,具备高效多元创作能力、强可控性和易于拓展的特点,采用创新架构与训练策略提升生成质量与效率,其开源发布为全球创作者提供了高效灵活的创作工具,未来双方将继续推动技术演进和产业落地。
来源:阶跃星辰
5.Figma推出全新AI驱动工具,助力网站、应用原型及营销资产的创建
设计公司Figma于2025年5月8日宣布推出一系列新功能,涵盖AI驱动的网站和网络应用创建工具、营销资产批量创建方法以及全新绘图工具。其新网站创建工具Figma Sites可助力设计师轻松创建并发布网站,添加多种效果使网站更具响应性,还内置内容管理系统。
来源:AIYUN
6.亚马逊推出首款具有触觉的机器人“Vulcan”
亚马逊在德国多特蒙德的“Delivering the Future”活动上发布首款具触觉机器人“Vulcan”,这是其配送中心机器人技术的重大进步。Vulcan利用先进工程技术和“物理AI”克服了传统机器人缺乏接触感知能力的限制,能理解与物体的交互。
来源:cnBeta
7.Mistral发布AI模型Mistral Medium 3 平衡效率与性能
法国人工智能初创公司 Mistral 发布了新的人工智能模型 Mistral Medium 3,该模型在保持性能的同时注重效率,其价格相对较低,每百万输入词元 0.40 美元,每百万输出词元 2 美元。该模型在多项基准测试中的表现达到或超过了更昂贵的 Claude Sonnet 3.7 模型的 90%,并且超越了 Meta 的 Llama 4 Maverick 和 Cohere 的 Command A 等近期开放模型。
来源:cnBeta
8.刚刚,Gemini 2.5 Pro升级,成编程模型新王
Google DeepMind 发布了 Gemini 2.5 Pro(l/0 edition)更新,其编程能力大幅提升,在 LMArena 和WebDev Arena 排行榜上名列前茅,超越了 Claude 3.7 Sonnet。用户可通过提示词或手绘草图构建 Web 应用、游戏等。
来源:机器之心
9.苹果计划在Safari中引入AI搜索引擎
苹果公司正在考虑将来自OpenAI、Perplexity和Anthropic的AI搜索引擎整合到Safari中。苹果公司服务高级副总裁埃迪·库在美国司法部对Alphabet的诉讼中作证时透露了这一消息。他指出,上个月Safari上的搜索量首次出现下降,这归因于AI使用的增加。
来源:AIYUN
10.Netflix将引入生成式AI搜索和类似TikTok的动态信息流
Netflix正在重新设计主页,引入生成式AI搜索功能和类似TikTok的动态信息流,以提升用户体验。公司与OpenAI合作开发新搜索功能,允许用户用自然语言获取个性化推荐。新设计是多年幕后开发的结果,将逐步推出。Netflix还计划移除一些互动标题,未明确是否与重新设计有关。
来源:AIYUN
11.【星动纪元宣布开源AIGC机器人大模型】
人工智能领域最新动态,星动纪元开源AIGC机器人大模型VPP,该模型可让机器人实时进行未来预测和动作执行。同时,还涉及了OpenAI的人事变动、夸克的AI功能升级、特朗普计划修改AI芯片出口管制等重要信息,反映了人工智能行业的快速发展和政策变化。
来源:科创板日报
12.【广东:大力推进“人工智能+消费” 组织开展“机器人+”行动】
广东省推进“人工智能+消费”,加快AI大模型等新技术应用,打造数实融合场景,推动自动驾驶等新产品开发与应用推广,开展“机器人+”行动,挖掘机器人消费应用场景,完善远程医疗服务体系,规范“医美”消费。OpenAI聘请Instacart首席执行官担任应用主管,夸克升级AI超级框,发布“深度搜索”产品,迭代“图片智能处理”功能。
来源:科创板日报
2025.5.7
1.Recraft 完成 3千万美元 B 轮融资,其图像生成模型曾击败 DALL-E 和 Midjourney
初创公司 Recraft 完成 3000 万美元 B 轮融资,其图像生成模型“red_panda”在基准测试中超越了 OpenAI 的 DALL-E 和 Midjourney。Recraft 总部位于美国旧金山,目前拥有 400 万用户和超过 500 万美元的年化经常性收入。该公司的 AI 技术在为品牌生成图像方面表现出色,其创始人多罗古什是一位有着丰富经历的女性企业家。
来源:IT之家
2.联想超级智能体技术发布:AI从工具升级为“智能双胞胎”
2025年5月7日,联想集团在联想创新科技大会上发布“超级智能体”技术,该技术是联想混合式人工智能战略的重要组成部分,标志着人工智能从工具型助手向全场景智能伙伴和“人工智能双胞胎”进化,具备感知与交互、认知与决策、自主与演进三大核心能力矩阵,且在发展过程中始终注重数据安全和隐私保护。
来源:凤凰网科技
3.超越 DeepSeek-R1,英伟达开源模型 Llama-Nemotron 登顶
英伟达开源的 Llama-Nemotron 系列模型在推理吞吐量和内存效率上超越了 DeepSeek-R1,并且已经全部开源。该系列模型通过利用合成数据监督微调和强化学习等技术全面提升推理能力,从头构建了完善的后训练流程。
来源:IT之家
4.Kimi 长思考模型 API 正式发布
月之暗面发布的 kimi-thinking-preview 模型,这是一个具有多模态推理能力和通用推理能力的思考模型,擅长深度推理,可帮助解决复杂问题。通过 HTTP接口和 openai SDK 使用该模型,强调了 reasoning content 字段的使用方法和注意事项,还介绍了多轮对话的正确使用方式、模型的限制以及最佳实践建议。
来源:Kimi
5.最火AI编程独角兽又融资!估值超650亿
AI编程独角兽Anysphere完成9亿美元融资,估值达90亿美元。其产品Cursor通过自然语言指令帮助开发者生成代码、查错修复等,拥有超过3万名客户,包括OpenAI等知名企业。今年4月,公司年度经常性收入增至约2亿美元。AI在编程领域渗透率显著增长,但投资者对其估值可持续性存在担忧。
来源:智东西
6.小米 Mi-BRAG 智能引擎亮相:用 AI 问答代替产品说明书,登上评测榜首
小米推出 Mi-BRAG 知识库问答框架,通过四大核心技术体系重构知识处理范式,已在多个场景落地应用。该框架弥补大模型知识更新成本高、企业私有知识理解不足、数据安全隐患等问题,其技术创新主要分布在知识库创建、知识检索、回复生成等方面。第三方评测机构 SuperCLUE 评测中,小米 2025 年 4 月在 SuperCLUE-RAG 生成能力评测中登上榜首。
来源:IT之家
7.爆火的AI玩具,全行业等待一个“成功案例”
文章主要探讨了当前AI玩具创业热潮的现状与困境。过去一年,众多创业者涌入AI玩具领域,但真正推出产品的寥寥无几,且已上市产品存在诸多问题,如交互复杂、语音聊天效果不佳等,导致退货率高。大厂背景创业者面临语音模型发展不及预期、产品效果不佳等压力,而华强北等地的技术方案商则凭借低成本方案迅速抢占市场,压缩利润空间。
来源:凤凰网科技
8.联想将发布首款消费级AI眼镜,7月量产上市|钛媒体独家
联想将在2025年7月推出首款消费级AI眼镜,该产品采用树脂衍射光波导技术,镜片厚度1.8mm,重量仅38g,具备AI翻译、题词、对话及导航等功能,被认为是多模态大模型的最佳载体,2025年AI眼镜迎来发布潮。
来源:IT之家
9.Hugging Face 发布一款免费的类似 Operator 的代理 AI 工具
Hugging Face团队发布了一款名为Open Computer Agent的免费云托管计算机使用AI代理工具。该工具可通过Web访问,使用预装多个应用程序的Linux虚拟机,能完成一些简单任务,但对复杂任务表现欠佳,且常遇CAPTCHA难题。用户使用前需在虚拟队列中等待。
来源:AIYUN
10.Lightricks 通过强大的开源模型改变 AI 视频创作
Lightricks公司发布了开源视频生成模型LTX Video-13B,挑战OpenAI、谷歌等巨头。该模型是LTXV的重大升级,参数增加,功能增强,视频输出质量大幅提升且速度快。作为LTX Studio的一部分,它能在消费级硬件上生成高细节、连贯、可控的视频。
来源:AIYUN
11.【国行版苹果AI渐近 阿里百度提供支持但分工不尽相同】
苹果 AI 有望在 iOS 18.6 系统中首次在中国大陆启用部分功能,阿里巴巴和百度提供技术支持。百度的文心一言大模型作为核心云端智能引擎,阿里负责本地合规审核。此前苹果还与 DeepSeek 洽谈过,未来将兼容更多国产大模型。
来源:科创板日报
2025.5.6
1.谷歌 Gemini 聊天机器人新增多图上传功能,部分用户已可体验
谷歌 Gemini 聊天机器人新增多图上传功能,部分用户已可体验。Reddit 用户分享了通过 Gemini 2.0 Flash 模型在网页端成功上传多张图片的体验,但该功能目前不支持免费账户,也未对所有付费高级账户开放。此外,谷歌还在手机应用和网页端推出通过 Gemini 修改图像的功能,预计未来几周内将陆续向用户开放。
来源:IT之家
2.Grok 上线语音模式,马斯克修改昵称为“gorklon rust”
Grok 应用程序推出语音模式,适用于 iOS 用户及 Android 上的 SuperGrok 订阅者。马斯克更改 X 平台昵称和头像以配合宣传。此前 Grok 3 需付费订阅,2 月 20 日起免费向公众开放,订阅用户享更多特权,如优先使用语音模式。该语音模式可实现自然语言对话,提供不同声音和个性,支持对话记录与分享。
来源:IT之家
3.OpenAI最大交易达成,30亿美元收购AI编程助手Windsurf
2025 年 5 月 6 日消息,彭博社报道称 OpenAI 已同意以约 30 亿美元收购 AI 编程助手开发商 Windsurf,这是 OpenAI 迄今为止最大的一笔收购,目前处于最后谈判阶段。Windsurf 近期与多家投资机构就 30 亿美元估值融资进行谈判,该公司去年估值为 12.5 亿美元。
来源:凤凰网科技
4.OpenAI深夜官宣大调整!奥特曼全员信:放弃营利转型,开源强大模型
2025年5月6日,OpenAI宣布重大调整,将旗下营利业务转型为“公共利益公司”(PBC),继续由非营利组织掌控,使命不变。此举旨在更清晰地追求公共利益,确保通用人工智能(AGI)造福全人类。OpenAI希望开源强大模型,让用户高度自由地使用工具,并推动AI的民主化。
来源:凤凰网科技
5.Anthropic 启动支持科学研究的计划
Anthropic 启动AI for Science计划,支持从事高影响力科学项目的研究人员,重点关注生物学和生命科学应用。该计划将向合格研究人员提供高达20000美元的Anthropic API使用额度,入选标准包括对科学的贡献、研究的潜在影响以及AI加速工作的能力。尽管人工智能在科学领域的应用前景广阔,但目前仍面临可靠性等挑战。
来源:cnBeta
6.苹果与Anthropic合作开发AI驱动的情感编码工具 – 公开发布待定
苹果与Anthropic合作开发了一种新的“情感编码”软件工具,该工具利用AI来编写、测试和修复代码,目前仅在苹果内部测试,尚未决定是否向外部开发者开放。这一合作反映了苹果在AI领域的战略转变,试图弥补其在生成式AI方面的延迟努力,同时坚持混合策略,既注重内部开发,也积极开展外部合作。
来源:AIYUN
7.【经济日报:以人工智能激活产业新增长】
发展人工智能要加快创新步伐,尊重产业规律,聚焦关键领域,以创新突破拓宽技术应用边界,贴合实际需求,实现人工智能与产业发展的双向赋能,让技术红利转化为产业高质量发展的持久动能。通过聚焦关键领域、贴合实际需求,实现人工智能与产业发展的双向赋能,推动产业高质量发展。
来源:科创板日报