2025年5月AI快讯

2025年5月AI快讯

2025.5.8

1.Hugging Face 发布云端 AI 智能体,文字指令远程操控虚拟电脑

Hugging Face 推出免费云端 AI 智能体工具 Open Computer Agent,允许用户通过文本指令远程操控基于 Linux 的虚拟计算机,集成多种技术,内置常用应用,能响应简单英文指令,但复杂任务表现不佳,响应慢且性能不稳定,目前向公众开放,但需排队体验,旨在展示开源模型在云端运行的优势。
来源:IT之家

2.百度公布动物语言转换方法及装置专利:人类可与动物深度交流

百度公布一项动物语言转换专利,涉及机器学习、深度学习和自然语言处理技术。该专利可准确识别动物情感状态并转换为人类语言,实现深度交流。与现有技术相比,它能深入动物情感层面,实现实时互动沟通。
来源:IT之家

3.在元宝,DeepSeek也能生图了!

腾讯元宝的文生图功能升级,混元和DeepSeek模型都能根据用户的一句话指令生成图片。该功能结合了腾讯混元最新文生图模型,已全端上线,能发散指令生成高质量、复杂且有想象力的图像,用户无需懂提示词,就能画出想法里的图。
来源:腾讯元宝

4.阶跃多模态再添一员:阶跃与 ACE Studio 联合开源音乐大模型 ACE-Step!

阶跃与 ACE Studio 联合开源了音乐大模型 ACE-Step(音跃),参数量为 3.5B,支持多种语言和风格的音乐创作,具备高效多元创作能力、强可控性和易于拓展的特点,采用创新架构与训练策略提升生成质量与效率,其开源发布为全球创作者提供了高效灵活的创作工具,未来双方将继续推动技术演进和产业落地。
来源:阶跃星辰

5.Figma推出全新AI驱动工具,助力网站、应用原型及营销资产的创建

设计公司Figma于2025年5月8日宣布推出一系列新功能,涵盖AI驱动的网站和网络应用创建工具、营销资产批量创建方法以及全新绘图工具。其新网站创建工具Figma Sites可助力设计师轻松创建并发布网站,添加多种效果使网站更具响应性,还内置内容管理系统。
来源:AIYUN

6.亚马逊推出首款具有触觉的机器人“Vulcan”

亚马逊在德国多特蒙德的“Delivering the Future”活动上发布首款具触觉机器人“Vulcan”,这是其配送中心机器人技术的重大进步。Vulcan利用先进工程技术和“物理AI”克服了传统机器人缺乏接触感知能力的限制,能理解与物体的交互。
来源:cnBeta

7.Mistral发布AI模型Mistral Medium 3 平衡效率与性能

法国人工智能初创公司 Mistral 发布了新的人工智能模型 Mistral Medium 3,该模型在保持性能的同时注重效率,其价格相对较低,每百万输入词元 0.40 美元,每百万输出词元 2 美元。该模型在多项基准测试中的表现达到或超过了更昂贵的 Claude Sonnet 3.7 模型的 90%,并且超越了 Meta 的 Llama 4 Maverick 和 Cohere 的 Command A 等近期开放模型。
来源:cnBeta

8.刚刚,Gemini 2.5 Pro升级,成编程模型新王

Google DeepMind 发布了 Gemini 2.5 Pro(l/0 edition)更新,其编程能力大幅提升,在 LMArena 和WebDev Arena 排行榜上名列前茅,超越了 Claude 3.7 Sonnet。用户可通过提示词或手绘草图构建 Web 应用、游戏等。
来源:机器之心

9.苹果计划在Safari中引入AI搜索引擎

苹果公司正在考虑将来自OpenAI、Perplexity和Anthropic的AI搜索引擎整合到Safari中。苹果公司服务高级副总裁埃迪·库在美国司法部对Alphabet的诉讼中作证时透露了这一消息。他指出,上个月Safari上的搜索量首次出现下降,这归因于AI使用的增加。
来源:AIYUN

10.Netflix将引入生成式AI搜索和类似TikTok的动态信息流

Netflix正在重新设计主页,引入生成式AI搜索功能和类似TikTok的动态信息流,以提升用户体验。公司与OpenAI合作开发新搜索功能,允许用户用自然语言获取个性化推荐。新设计是多年幕后开发的结果,将逐步推出。Netflix还计划移除一些互动标题,未明确是否与重新设计有关。
来源:AIYUN

11.【星动纪元宣布开源AIGC机器人大模型】

人工智能领域最新动态,星动纪元开源AIGC机器人大模型VPP,该模型可让机器人实时进行未来预测和动作执行。同时,还涉及了OpenAI的人事变动、夸克的AI功能升级、特朗普计划修改AI芯片出口管制等重要信息,反映了人工智能行业的快速发展和政策变化。
来源:科创板日报

12.【广东:大力推进“人工智能+消费” 组织开展“机器人+”行动】

广东省推进“人工智能+消费”,加快AI大模型等新技术应用,打造数实融合场景,推动自动驾驶等新产品开发与应用推广,开展“机器人+”行动,挖掘机器人消费应用场景,完善远程医疗服务体系,规范“医美”消费。OpenAI聘请Instacart首席执行官担任应用主管,夸克升级AI超级框,发布“深度搜索”产品,迭代“图片智能处理”功能。
来源:科创板日报

2025.5.7

1.Recraft 完成 3千万美元 B 轮融资,其图像生成模型曾击败 DALL-E 和 Midjourney

初创公司 Recraft 完成 3000 万美元 B 轮融资,其图像生成模型“red_panda”在基准测试中超越了 OpenAI 的 DALL-E 和 Midjourney。Recraft 总部位于美国旧金山,目前拥有 400 万用户和超过 500 万美元的年化经常性收入。该公司的 AI 技术在为品牌生成图像方面表现出色,其创始人多罗古什是一位有着丰富经历的女性企业家。
来源:IT之家

2.联想超级智能体技术发布:AI从工具升级为“智能双胞胎”

2025年5月7日,联想集团在联想创新科技大会上发布“超级智能体”技术,该技术是联想混合式人工智能战略的重要组成部分,标志着人工智能从工具型助手向全场景智能伙伴和“人工智能双胞胎”进化,具备感知与交互、认知与决策、自主与演进三大核心能力矩阵,且在发展过程中始终注重数据安全和隐私保护。
来源:凤凰网科技

3.超越 DeepSeek-R1,英伟达开源模型 Llama-Nemotron 登顶

英伟达开源的 Llama-Nemotron 系列模型在推理吞吐量和内存效率上超越了 DeepSeek-R1,并且已经全部开源。该系列模型通过利用合成数据监督微调和强化学习等技术全面提升推理能力,从头构建了完善的后训练流程。
来源:IT之家

4.Kimi 长思考模型 API 正式发布

月之暗面发布的 kimi-thinking-preview 模型,这是一个具有多模态推理能力和通用推理能力的思考模型,擅长深度推理,可帮助解决复杂问题。通过 HTTP接口和 openai SDK 使用该模型,强调了 reasoning content 字段的使用方法和注意事项,还介绍了多轮对话的正确使用方式、模型的限制以及最佳实践建议。
来源:Kimi

5.最火AI编程独角兽又融资!估值超650亿

AI编程独角兽Anysphere完成9亿美元融资,估值达90亿美元。其产品Cursor通过自然语言指令帮助开发者生成代码、查错修复等,拥有超过3万名客户,包括OpenAI等知名企业。今年4月,公司年度经常性收入增至约2亿美元。AI在编程领域渗透率显著增长,但投资者对其估值可持续性存在担忧。
来源:智东西

6.小米 Mi-BRAG 智能引擎亮相:用 AI 问答代替产品说明书,登上评测榜首

小米推出 Mi-BRAG 知识库问答框架,通过四大核心技术体系重构知识处理范式,已在多个场景落地应用。该框架弥补大模型知识更新成本高、企业私有知识理解不足、数据安全隐患等问题,其技术创新主要分布在知识库创建、知识检索、回复生成等方面。第三方评测机构 SuperCLUE 评测中,小米 2025 年 4 月在 SuperCLUE-RAG 生成能力评测中登上榜首。
来源:IT之家

7.爆火的AI玩具,全行业等待一个“成功案例”

文章主要探讨了当前AI玩具创业热潮的现状与困境。过去一年,众多创业者涌入AI玩具领域,但真正推出产品的寥寥无几,且已上市产品存在诸多问题,如交互复杂、语音聊天效果不佳等,导致退货率高。大厂背景创业者面临语音模型发展不及预期、产品效果不佳等压力,而华强北等地的技术方案商则凭借低成本方案迅速抢占市场,压缩利润空间。
来源:凤凰网科技

8.联想将发布首款消费级AI眼镜,7月量产上市|钛媒体独家

联想将在2025年7月推出首款消费级AI眼镜,该产品采用树脂衍射光波导技术,镜片厚度1.8mm,重量仅38g,具备AI翻译、题词、对话及导航等功能,被认为是多模态大模型的最佳载体,2025年AI眼镜迎来发布潮。
来源:IT之家

9.Hugging Face 发布一款免费的类似 Operator 的代理 AI 工具

Hugging Face团队发布了一款名为Open Computer Agent的免费云托管计算机使用AI代理工具。该工具可通过Web访问,使用预装多个应用程序的Linux虚拟机,能完成一些简单任务,但对复杂任务表现欠佳,且常遇CAPTCHA难题。用户使用前需在虚拟队列中等待。
来源:AIYUN

10.Lightricks 通过强大的开源模型改变 AI 视频创作

Lightricks公司发布了开源视频生成模型LTX Video-13B,挑战OpenAI、谷歌等巨头。该模型是LTXV的重大升级,参数增加,功能增强,视频输出质量大幅提升且速度快。作为LTX Studio的一部分,它能在消费级硬件上生成高细节、连贯、可控的视频。
来源:AIYUN

11.【国行版苹果AI渐近 阿里百度提供支持但分工不尽相同】

苹果 AI 有望在 iOS 18.6 系统中首次在中国大陆启用部分功能,阿里巴巴和百度提供技术支持。百度的文心一言大模型作为核心云端智能引擎,阿里负责本地合规审核。此前苹果还与 DeepSeek 洽谈过,未来将兼容更多国产大模型。
来源:科创板日报

2025.5.6

1.谷歌 Gemini 聊天机器人新增多图上传功能,部分用户已可体验

谷歌 Gemini 聊天机器人新增多图上传功能,部分用户已可体验。Reddit 用户分享了通过 Gemini 2.0 Flash 模型在网页端成功上传多张图片的体验,但该功能目前不支持免费账户,也未对所有付费高级账户开放。此外,谷歌还在手机应用和网页端推出通过 Gemini 修改图像的功能,预计未来几周内将陆续向用户开放。
来源:IT之家

2.Grok 上线语音模式,马斯克修改昵称为“gorklon rust”

Grok 应用程序推出语音模式,适用于 iOS 用户及 Android 上的 SuperGrok 订阅者。马斯克更改 X 平台昵称和头像以配合宣传。此前 Grok 3 需付费订阅,2 月 20 日起免费向公众开放,订阅用户享更多特权,如优先使用语音模式。该语音模式可实现自然语言对话,提供不同声音和个性,支持对话记录与分享。
来源:IT之家

3.OpenAI最大交易达成,30亿美元收购AI编程助手Windsurf

2025 年 5 月 6 日消息,彭博社报道称 OpenAI 已同意以约 30 亿美元收购 AI 编程助手开发商 Windsurf,这是 OpenAI 迄今为止最大的一笔收购,目前处于最后谈判阶段。Windsurf 近期与多家投资机构就 30 亿美元估值融资进行谈判,该公司去年估值为 12.5 亿美元。
来源:凤凰网科技

4.OpenAI深夜官宣大调整!奥特曼全员信:放弃营利转型,开源强大模型

2025年5月6日,OpenAI宣布重大调整,将旗下营利业务转型为“公共利益公司”(PBC),继续由非营利组织掌控,使命不变。此举旨在更清晰地追求公共利益,确保通用人工智能(AGI)造福全人类。OpenAI希望开源强大模型,让用户高度自由地使用工具,并推动AI的民主化。
来源:凤凰网科技

5.Anthropic 启动支持科学研究的计划

Anthropic 启动AI for Science计划,支持从事高影响力科学项目的研究人员,重点关注生物学和生命科学应用。该计划将向合格研究人员提供高达20000美元的Anthropic API使用额度,入选标准包括对科学的贡献、研究的潜在影响以及AI加速工作的能力。尽管人工智能在科学领域的应用前景广阔,但目前仍面临可靠性等挑战。
来源:cnBeta

6.苹果与Anthropic合作开发AI驱动的情感编码工具 – 公开发布待定

苹果与Anthropic合作开发了一种新的“情感编码”软件工具,该工具利用AI来编写、测试和修复代码,目前仅在苹果内部测试,尚未决定是否向外部开发者开放。这一合作反映了苹果在AI领域的战略转变,试图弥补其在生成式AI方面的延迟努力,同时坚持混合策略,既注重内部开发,也积极开展外部合作。
来源:AIYUN

7.【经济日报:以人工智能激活产业新增长】

发展人工智能要加快创新步伐,尊重产业规律,聚焦关键领域,以创新突破拓宽技术应用边界,贴合实际需求,实现人工智能与产业发展的双向赋能,让技术红利转化为产业高质量发展的持久动能。通过聚焦关键领域、贴合实际需求,实现人工智能与产业发展的双向赋能,推动产业高质量发展。
来源:科创板日报

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...