2025年4月AI快讯

2025年4月AI快讯

2025.4.30

1.Xiaomi MiMo:为“Reasoning”而生!小米首个推理大模型开源

小米开源首个推理大模型“Xiaomi Mio”,旨在提升模型推理能力。该模型在数学推理和代码竞赛公开测评集上,仅用7B参数规模就超越了OpenAI和阿里的相关模型。其强化学习潜力显著领先,通过预训练和后训练阶段的多层面创新,如挖掘富推理语料、三阶段训练、提出新算法和设计加速系统等,实现了推理能力的提升。
来源:Xiaomi

2.Meta宣战OpenAI!发ChatGPT超强平替App,语音交互联动AI眼镜

2025年4月30日,Meta在首届LlamaCon开发者大会上发布对标ChatGPT的智能助手Meta AI App,基于Llama模型打造,支持语音和文本交互,还支持全双工语音交互,可作为Meta RayBan AI眼镜的配套应用程序。同时,Meta宣布提供官方Llama API服务的预览版本,与OpenAI SDK兼容,还提供微调和评估工具,未来可能采取收费模式。
来源:凤凰网科技

3.字节跳动豆包视频生成功能升级,提升语义理解、动作连贯性等方面表现

字节跳动的豆包视频生成功能升级,提升了语义理解、影调画质、风格类型和动作连贯性。用户可通过豆包App或官网体验。此前,字节跳动还发布了豆包1.5深度思考模型,升级了文生图模型,该模型在多个专业领域及通用任务中表现优异。
来源:IT之家

4.全球首个空间天气链式基础大模型“风宇”亮相,南昌大学、华为等研发

2025 年 4 月 29 日,在第八届数字中国建设峰会・数字气象分论坛上,中国气象局首次推介全球首个空间天气链式基础大模型 “风宇”,该模型由国家卫星气象中心牵头,南昌大学、华为技术有限公司共同参与研发,已完成太阳风、磁层和电离层全链式耦合训练,为复杂空间天气系统的智能预报提供了新的技术路径,突破传统数值模型的技术瓶颈,实现全链路智能化技术突破,应用场景广泛,已申请多项发明专利并获奖。
来源:IT之家

5.Google推出AI工具 通过个性化课程练习语言

Google发布三项新的人工智能实验,旨在以个性化方式帮助人们学习新语言。这些实验借助多模态大型语言模型Gemini,包括“小课堂”实验可定制特定情景下的词汇和语法提示,“俚语练习”实验教人更口语化地说话并融入当地俚语,“单词相机”实验则通过拍摄周围环境照片来学习新单词。这些工具支持多种语言,可通过Google实验室访问。
来源:cnBeta

6.NotebookLM 的音频概览现在支持 50 多种语言

Google Labs 宣布 NotebookLM 的音频概览功能现在支持 50 多种语言,由 Gemini 2.5 Pro 提供支持。用户可在设置中选择输出语言,该功能适用于音频和聊天响应,有助于跨语言学习。Audio Overviews 将文档变成播客式摘要,通过 AI 主持人对话交流总结和解释源材料概念,比传统文本摘要更具吸引力。
来源:AIYUN

7.微软CEO称公司多达30%的代码由AI编写

在Meta的LlamaCon大会上,微软CEO萨提亚·纳德拉透露,微软代码库中有20%到30%的代码是由AI编写的。微软CTO凯文·斯科特预计到2030年,95%的代码将由AI生成。谷歌CEO桑达尔·皮查伊也表示,AI生成了公司超过30%的代码,但目前尚不清楚这些公司是如何精确衡量AI生成代码的。
来源:AIYUN

8.总书记调研的AI眼镜 产业行至几何?

2025年4月29日,习近平总书记在上海考察期间体验了AI眼镜。AI眼镜产业迎来端侧落地节点,成为新高地。新一代智能眼镜融合多模态能力,形态接近普通眼镜,具备替代手机潜力。政策与技术双轮驱动,多地推动产业发展。终端厂商加速布局,新创企业推进产品化落地。供应链硬件与系统适配协同提速,产业链区域分布明确。
来源:科创板日报

2025.4.29

1.通义灵码正式上线 Qwen3,编程智能体马上来了

2025年4月29日,Qwen3正式发布并全部开源8款「混合推理模型」,包括两款MoE模型和六个Dense模型。旗舰模型Qwen3-235B-A22B在多项基准测试中表现出色。Qwen3模型支持两种思考模式,适合不同复杂度的问题;支持119种语言和方言,具有广泛的国际应用潜力;在Agent能力评测中创下新高,原生支持MCP协议,结合Qwen-Agent框架,降低开发者编码工作复杂度。
来源:通义灵码

2.全球首个“人工智能妈祖”亮相马来西亚,可解答信徒疑惑

马来西亚柔佛州天后宫推出全球首个“人工智能妈祖”,由 Aimazin 公司开发,能与信众互动、解读签文、解答疑惑。妈祖信仰在东南亚华人社区广泛流传,其雕像常到各地“出行”,甚至有身份证和编号。刘涛被授予妈祖文化全球推广大使。
来源:IT之家

3.OpenAI升级ChatGPT搜索 增加购物功能

OpenAI宣布更新ChatGPT中的网络搜索工具ChatGPT搜索,新增购物功能,为用户提供在线购物体验。用户搜索产品时,聊天机器人会提供推荐、产品图片、评论及购买链接。该功能面向ChatGPT Pro、Plus和Free用户以及全球已注销用户,涵盖时尚、美妆、家居用品和电子产品等类别。OpenAI强调,购物结果基于第三方结构化元数据,不含广告,且不从购买中获回扣。
来源:cnBeta

4.DeepSeek 在韩国暂停服务后重新上线

DeepSeek 是一款来自中国的人工智能服务应用。2025 年 1 月在韩国首次推出,后因未经许可转移用户数据和提示,于 2 月被韩国暂停下载。4 月 29 日,DeepSeek 在韩国应用市场重新上线,其修订隐私政策声明将按韩国个人信息保护法处理用户信息,并让用户可选择拒绝将个人信息传输给中国和美国的多家公司
来源:cnBeta

5.马蜂窝AI旅行助手官宣上线

马蜂窝自研的AI旅行助手“AI小蚂”正式上线,全面接入DeepSeek大模型并集成垂直精调模型,具备实时问答、行程规划、在线向导、个性化推荐等功能,可通过马蜂窝APP首页搜索栏及目的地POI页面使用。同期上线的“AI路书”可主动提问并以选择题形式帮助用户完善需求,定制包含行程、住宿、交通、景点、美食、购物、预算及实用贴士等高度个性化的旅行方案。
来源:IT之家

6.Qwen3:思深,行速

本文介绍了Qwen3,Qwen系列大型语言模型的最新成员。其旗舰模型Qwen3-235B-A22B在多项基准测试中表现出色,小型MoE模型Qwen3-30B-A3B激活参数数量虽少,但表现更胜一筹。Qwen3开源了多个模型权重,包括两个MoE模型和六个Dense模型,均在Apache2.0许可下开源。
来源:通义千问Qwen

2025.4.28

1.具身智能公司灵初智能发布新算法模型Psi-R1

2025年4月28日,钛媒体App报道具身智能创业公司灵初智能发布分层端到端VLA+强化学习算法模型Psi-R1。该模型使机器人在开放环境中实现长程灵巧操作,达成30分钟以上持续CoAT超长任务时长,验证了人机、机机、机环三重复合交互能力,体现VLA推理与RL操作优势。
来源:IT之家

2.Google AI Studio更新:功能、工具、VEO 2和Gemini 2.0

本文介绍了Google AI Studio的更新内容,包括重新设计的界面、支持的高级模型(如Gemini 2.0和VEO 2)、新功能(如模型比较工具、Google搜索整合、提示库等)、与Google Colab的集成、灵活的定价套餐等。这些更新旨在提升用户体验,赋予用户更大的控制权和创造力,满足从业余爱好者到企业级开发人员的多样化需求。
来源:AIYUN

3.从搬箱子到分拣!人形机器人工业领域10-20万台市场待启

人形机器人从实验室走向实际应用,工业领域成为其重要应用场景。目前人形机器人在硬件性能、软件数据和成本等方面存在壁垒,如电池续航能力不足、工作效率低、有效数据缺失等。但工业领域和巡检场景仍被看好,市场规模可达10万 – 20万台。
来源:科创板日报

4.Meta Token-Shuffle :自回归模型突破瓶颈,可 AI 生成 2048×2048 分辨率图像

Meta AI 推出 Token-Shuffle 方法,旨在解决自回归模型在生成高分辨率图像时的瓶颈问题。该方法通过合并空间相邻的视觉 token 来降低计算成本,无需改动 Transformer 架构或额外预训练编码器。在基准测试中,Token-Shuffle 展现了强大的性能,尤其是在文本对齐和图像质量方面优于其他模型,为自回归模型在高分辨率图像生成领域开辟了新的可能性。
来源:IT之家

5.澳洲一 AI 虚拟电台主播“上岗”数月,却几乎无人察觉“真实身份”

澳大利亚悉尼的 CADA 电台使用 AI 生成的主持人 Thy 主持《Workdays with Thy》节目数月,未向听众透露其 AI 身份。该节目每天播放四小时音乐,收听人数达 72000 人。澳大利亚配音演员协会副会长批评电台不透明,ARN 首席执行官则表示正在努力辨别真实与虚拟。
来源:IT之家

6.Kimi 与财新传媒达成合作,为你提供更专业、可信的财经内容

2025年4月28日,Kimi与财新传媒正式达成内容合作。今后,Kimi在回答财经问题时,将结合财新传媒的专业报道内容生成答案,为用户提供高质量的财经信息。财新传媒作为知名专业新闻媒体,其优质、深度的报道是了解政经大事、市场动向的可靠信源。此次合作旨在提升AI搜索新闻质量,推动优质内容传播。同时,Kimi上线了专业、权威信源的蓝V徽章,方便用户识别和访问高质量信源。
来源:月之暗面Kimi

7.阶跃星辰开源图像编辑模型Step1X-Edit

2025年4月27日,钛媒体App报道了阶跃星辰开源图像编辑大模型Step1X-Edit的消息。该模型总参数量为19B,具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力,支持11类高频图像编辑任务,性能达到开源SOTA。文章强调内容仅供参考,不构成投资建议。
来源:IT之家

8.中国AI初创企业Manus完成7500万美元融资

北京初创公司Butterfly Effect开发的人工智能服务Manus完成7500万美元融资,估值达5亿美元。Manus能执行复杂任务,如网站开发和房地产研究,但初期表现有不足。Manus由Anthropic PBC的LLM支持,采用计算机使用功能完成多步骤任务。公司推出付费层,与OpenAI的Operator竞争。
来源:AIYUN

9.【字节启动Top Seed大模型人才招募】

字节跳动Seed部门启动2026届Top Seed大模型顶尖人才校招计划,招募约30位应届博士,研究课题涵盖大语言模型、机器学习算法和系统等。我国形成完整人工智能产业体系,专利申请量全球首位。国家能源局支持民营企业投资能源基础设施,湖北推进无人智能装备产业发展,国家能源局推动氢能产业发展,黄仁勋访华希望继续与中国合作。
来源:科创板日报

10.【阿里巴巴AI旗舰应用夸克发布全新“AI相机”】

2025年4月27日,阿里巴巴AI旗舰应用夸克发布全新“AI相机”,新增“拍照问夸克”功能,借助视觉理解和推理模型,实现视觉搜索、多轮问答等功能。此外,财联社报道了多条人工智能、机器人、能源行业等领域的新闻,包括黄仁勋访华希望继续与中国合作、国家能源局支持民营企业投资能源基础设施、湖北推进无人智能装备产业发展等内容。
来源:科创板日报

2025.4.25

1.Adobe发布全新Firefly生成式AI模型

Adobe在伦敦Max创意大会上推出全新Firefly生成式AI模型及一体化网页应用,用于AI辅助创作图像、视频、音频和矢量图。新发布的Firefly图像模型4和4 Ultra提供高质量图像和复杂场景渲染。
来源:AIYUN

2.【文心大模型4.5Turbo发布】

2025年4月25日,百度发布文心大模型4.5 Turbo和文心大模型X1 Turbo。人工智能领域多点开花,Manus母公司蝴蝶效应完成超5亿元融资,中共中央政治局强调加快实施“人工智能+”行动,北京国企加速推进“人工智能+”,柳州市43个项目集中签约,深圳推动人工智能技术与电子产品深度融合,青岛明确算力发展目标。
来源:科创板日报

3.Meta 推 WebSSL 模型:探索 AI 无语言视觉学习,纯图训练媲美 OpenAI CLIP

Meta 公司发布 WebSSL 系列模型,参数规模从 3 亿到 70 亿,基于纯图像数据训练,探索无语言监督的视觉自监督学习。与对比语言 – 图像模型相比,WebSSL 在视觉问答等多模态任务中表现出色,尤其在 OCR 和图表任务中表现突出。
来源:IT之家

4.百度推出通用多智能体协作 App 心响,已上线超 200 个任务类型

2025 年 4 月 25 日,百度在 Create2025 百度 AI 开发者大会上推出通用多智能体协作 App 心响。目前安卓版已上线,iOS 版正在上架。该 App 已上线超 200 个任务类型,涵盖例行任务、城市旅游、AI 相亲等十大场景,未来计划扩展到 10 万以上。
来源:IT之家

5.刚刚,OpenAI推出「轻量级」Deep Research,免费用户也能薅羊毛!

OpenAl推出了「轻量级」版本的 Deep Research,由 04-mini模型支持,免费用户也能使用。该版本响应更简短但能维持深度和质量,且允许更高使用配额。免费版每月提供5个轻量版任务额度,Plus&Team版和 Pr0 版分别提供额外 15 个和 125 个轻量版任务额度。
来源:机器之心

6.Delavande:可估算AI聊天机器人消息消耗电量的工具

Hugging Face工程师Julien Delavande开发了一个工具,可估算AI聊天机器人消息消耗的电量。该工具旨在与Chat UI配合使用,实时估算模型发送和接收消息的能耗,并将其与常见家用电器能耗比较。其估算虽不精确,但提醒人们AI运行有成本,推动开源社区透明度。
来源:cnBeta

7.YouTube 开始在搜索结果中测试新版 AI 概览

YouTube开始在搜索结果中测试新版AI概览,针对某些搜索查询显示新的视频结果轮播,突出显示对搜索查询最有帮助的视频片段。这项实验向美国少数YouTube Premium订阅用户推出,目前仅限于部分英语查询,用户可通过点击三点菜单并选择“赞”或“踩”来提交反馈。
来源:cnBeta

8.腾讯云代码助手CodeBuddy 全面支持 MCP协议

腾讯云代码助手CodeBuddy升级推出软件开发智能体Craft,实现需求理解、任务拆解、代码生成的完整闭环,通过深度学习用户指令自主完成工程上下文分析、多文件代码生成和改写,适配多款IDE,推动软件开发智能化。
来源:钛媒体

9.Adobe推出新工具,助力创作者“签署”数字作品

Adobe发布一款新内容真实性网络应用程序,已进入公开测试阶段。该免费工具允许创作者将不可见的元数据(内容凭证)嵌入图像,即使在转发、截图等情况下也能保持创作者署名。它与LinkedIn合作增加身份验证功能,支持最多50个文件的批量处理,并提供选择不参与AI训练的偏好设置。
来源:AIYUN

10.【美国AI初创企业Perplexity在iOS上发布语音助手应用】

美国AI初创企业Perplexity的AI语音助手已在iOS上线,可在旧设备上使用。人工智能是计算机科学的一个分支,研究包括机器人、语言识别等。近期,湖北省委书记王忠林与百度公司董事长李彦宏座谈,双方将深化在人工智能领域的合作。
来源:科创板日报

11.饿了么推出行业首个骑手AI助手“小饿”

2025年4月25日,饿了么推出国内首个基于大模型技术打造的骑手端智能体——AI“小饿”,旨在通过自然语言处理、多模态交互及实时数据分析能力,为骑手打造专属智能伙伴,提升骑手的效率和体验。目前,“小饿”已在无锡、沈阳、佛山、苏州等城市上线,骑手可通过语音确认完成“接取送达”等操作,其具有语音交互与智能响应、多维度主动服务、个性化智能分析三大核心能力。
来源:新浪科技

12.百度发布高说服力数字人,训练2分钟即可获得专属数字人

2025 年 4 月 25 日,百度在 Create 大会上发布了高说服力数字人。该数字人具有声形超拟真、内容专业、互动灵活等特点,能在电商直播等领域带来超越真人的体验。其超越真人主要得益于百度慧播星的 “剧本生成” 能力,实现了口播脚本与数字人表情、语气、动作的高度融合,以及顺畅的情绪转折和动作切换。
来源:新浪科技

2025.4.24

1.OpenAI 将其最新的图像生成模型引入开发者 API

OpenAI更新了ChatGPT的图像生成功能,采用新模型后一周内超1.3亿用户创建了超7亿张图片。现在OpenAI通过GPT-Image-1 API向开发者提供该模型,支持多种视觉样式、精确图像编辑等功能,开发者可控制审核敏感度、图像质量等参数,图像生成API按token定价,不同输入输出定价不同,感兴趣的开发者可在OpenAI Playground探索,多家公司已使用该API。
来源:cnBeta

2.挑战第一方 Siri:Perplexity 在苹果 iOS 平台推出 AI 语音助手

AI 企业 Perplexity 为苹果 iOS 平台推出 AI 语音助手,该第三方程序可实现类似苹果第一方 Siri 助手的使用体验,通过网页浏览和多应用操作来执行用户语音中的操作,如自动地图搜索、餐厅预订、电子邮件草拟等。
来源:IT之家

3.智谱BigModel开放平台进入亿时代

智谱BigModel开放平台宣布进入“亿”时代,大幅降低模型使用成本。从4月24日起,GLM-4-Plus模型价格直降90%,每亿tokens仅500元,较行业价格低92%。同时,GLM-4-FlashX每亿tokens仅10元,GLM-Z1-Air每亿tokens仅50元,GLM-Z1-AirX每亿tokens仅500元。
来源:智谱

4.OpenAI发布GPT-image-1模型,更强吉卜力版本来啦

2025年4月24日凌晨,OpenAI发布全新图像模型GPT-image-1,并通过API向全球开发者开放。该模型与ChatGPT版本差异大,可控制生成图像的诸多参数,还支持吉卜力模式。Adobe、Figma等企业已将其集成于产品。
来源:凤凰网科技

5.Meta向所有雷朋智能眼镜用户推出实时翻译功能

Meta宣布雷朋智能眼镜推出实时翻译功能,该功能于2024年10月首次亮相,12月小范围推广,现全面覆盖所有市场。用户可与讲英语、法语、意大利语或西班牙语的人交谈,并收听实时翻译。此外,雷朋Meta Skyler镜框推出全新彩色镜片组合。
来源:cnBeta

6.腾讯云推出Craft软件开发智能体

2025年4月24日,腾讯云代码助手CodeBuddy推出Craft软件开发智能体,这是国内首个支持MCP协议的AI编程工具。该消息由钛媒体App报道,引发关注。Craft的推出标志着腾讯云在AI编程领域的创新进展,为软件开发带来新的可能性。
来源:钛媒体

7.华为云将发布盘古行业推理大模型

华为开发者大会HDC 2025将于6月20日至22日在东莞松山湖举办的消息,华为云将在此次大会上发布包括盘古基础大模型、盘古行业推理大模型、昇腾AI云服务基础设施在内的最新进展。
来源:钛媒体

8.WhatsApp推出“高级聊天隐私”:阻止聊天导出、自动媒体下载

WhatsApp推出“高级聊天隐私”功能,增强用户对消息共享和媒体处理的控制。此功能适用于个人和群组聊天,可阻止导出聊天记录和自动下载共享媒体,但不阻止手动转发消息或截屏。用户可结合消失消息功能进一步保护隐私。该功能正在向使用最新版本的Android和iOS用户推出。
来源:AIYUN

9.Nvidia宣布全面推出用于构建AI代理的 NeMo 工具

Nvidia宣布全面推出NeMo微服务工具,助力开发人员构建AI代理。这些工具可帮助创建能自主行动的“数字团队成员”,提高工作效率。NeMo微服务包括Customizer、Evaluator、Guardrails、Retriever和Curator,支持多种流行AI模型,并提供企业级安全性。
来源:AIYUN

2025.4.23

1.英伟达发布 Eagle 2.5 视觉语言 AI 模型:8B 参数媲美 GPT-4o

英伟达推出 Eagle 2.5 视觉语言 AI 模型,参数规模 8B,专注于长上下文多模态学习,擅长处理高分辨率图像和长视频序列。采用信息优先采样和渐进式后训练策略,结合 SigLIP 视觉编码和 MLP 投影层,利用定制数据集 Eagle-Video-110K,模型在多项视频和图像理解任务中表现优异,媲美更大规模模型。
来源:IT之家

2.Character.AI 推出 AvatarFX 模型:AI 实现静转动,让图片角色开口说话

Character.AI 公司于 2025 年 4 月 23 日推出 AvatarFX 模型,该模型可将静态图片转化为能说话、移动且展现情感的动态形象,其技术亮点在于高保真、时间一致性,即使在复杂场景下也能保持高效稳定。不过,此技术存在引发隐私和伦理争议的潜在风险。
来源:IT之家

3.AI 阅读助手“企鹅读伴”正式上线

在世界读书日,腾讯SSV数字支教实验室主导研发的AI阅读助手“企鹅读伴”正式上线。该产品依托腾讯混元大模型与数字支教实验室的实践积累,旨在构建“阅读-思考-创造”的完整学习闭环,填补传统阅读教育的空白。它根据《义务教育语文课程方案和课程标准(2022年版)》设计,内容涵盖多种推荐书目和经典名篇
来源:腾讯混元

4.混元3D生成模型全新升级:建模精细度大幅提升,免费生成额度翻倍

腾讯混元3D生成模型升级至2.5版本,建模精细度大幅提升,实现超高清几何细节建模,有效几何分辨率从标清升级至高清。模型架构全面升级,参数量从1B提升至10B,有效面片数增加超10倍。混元3D AI创作引擎更新至v2.5,免费生成额度翻倍至每天20次,生成API上线腾讯云,面向企业和开发者开放。
来源:腾讯混元

5.xAI 的 Grok 聊天机器人现在可以“看到”周围的世界

xAI 推出 Grok Vision,用户可通过 iOS 版 Grok 应用使用手机对准物体提问。同时,Grok 还推出多语言音频和语音模式下的实时搜索功能,但 Android 版用户需订阅每月 30 美元的 SuperGrok 套餐才能使用。此外,Grok 本月还增加了“记忆”组件和类似画布的工具用于创建文档和应用程序。
来源:cnBeta

6.OpenAI高管表示如果有机会将收购拆分后的Google Chrome浏览器

2025年4月23日,据cnBeta.COM报道,OpenAI高管在Google反垄断审判中表示,若Google的Chrome浏览器出售,OpenAI有兴趣购买。ChatGPT首席执行官尼克·特利称,收购Chrome能让OpenAI提供难以置信的体验,向用户展示人工智能优先的浏览器。此前,法官裁定Google垄断在线搜索市场,司法部要求其剥离Chrome业务。
来源:cnBeta

7.随着HyperCycle推进AI代理互作性,Google推出A2A

Google在Cloud Next 2025上推出Agent2Agent(A2A)协议,旨在标准化不同AI代理间的通信,促进跨平台协作。A2A补充了Anthropic的模型上下文协议(MCP),定义了交互标准消息格式和工作流程。HyperCycle的Node Factory框架与A2A原则一致
来源:AIYUN

8.360旗下纳米AI发布“MCP万能工具箱”

360旗下纳米AI正式发布“MCP万能工具箱”。360集团创始人周鸿祎介绍,万能工具箱基于MCP而生,已接入超过110款工具,覆盖办公协作、学术、生活服务、搜索引擎、金融、媒体娱乐、数据抓取等。
来源:科创板日报

2025.4.22

1.OpenAI 为 macOS 版 ChatGPT App 带来更强大集成功能:能直接搜索、编程

OpenAI 为 macOS 版 ChatGPT App 带来强大集成功能,用户可直接搜索、写作和编程。新版本支持苹果自家 Xcode 及 Visual Studio Code 等第三方 IDE,还涵盖系统自带 Notes 等工具。交互后 ChatGPT 会自动呈现建议摘要,方便回顾。
来源:IT之家

2.天翼 AI 开放平台上线,支持中国电信自研星辰大模型

中国电信天翼 AI 开放平台正式上线,面向公众开放。个人用户可使用自研星辰大模型的多种能力,政府和企业用户可体验开发平台及核心产品,满足多场景需求。星辰大模型是全国产化万亿参数大模型,在语义、语音、视觉和多模态领域实现突破,如支持 50 种方言混合识别、赋能摄像头等。
来源:IT之家

3.AI模型在诊断近视、评估风险因素和预测方面具有巨大潜力

本文主要探讨了人工智能在近视诊断、风险评估和预测方面的应用及其面临的挑战。近视是全球性健康问题,预计到2050年将影响全球近一半人口。人工智能通过机器学习和深度学习技术,可分析医疗数据,辅助近视检测、评估风险因素和预测临床结果。
来源: 网易订阅

4.【生数科技视频大模型Vidu Q1上线】

2025年4月22日,生数科技视频大模型Vidu Q1正式上线,支持生成5秒、1080P高质量视频,并在权威测评基准VBench系列榜单上超越了国内外多个知名模型。同时,抖音一季度封禁了260万个涉水军、欺诈等黑产账号。此外,还有京东方A发布2024年年度报告,净利润同比增长109%等消息。
来源:科创板日报

5.【京瓷和筑波大学开发出AI小憩辅助系统】

京瓷公司与筑波大学开发出辅助小憩的AI系统,使用者佩戴内置血流量传感器的耳机入睡后,AI会在最佳时机唤醒,有望提升日间工作效率。该系统从4月起有偿向企业出租并开始实证试验,计划明年春季商品化。
来源:科创板日报

6.深圳大学成立人工智能学院!构建本硕博一体化人才培养体系

2025年4月21日,深圳大学人工智能学院正式揭牌成立,这是在国家人工智能发展战略引领下,为契合大湾区产业需求而布局的前沿学院。学院汇聚顶尖人才,构建本硕博一体化人才培养体系,涵盖多学科方向。科研上,依托国家级平台,构建独特科研体系,推动科研与产业转化闭环。
来源:深圳大学

7.行业首款,智元发布具身智能一站式开发平台 Genie Studio

智元机器人发布行业首款具身智能一站式开发平台 Genie Studio,具备数据采集、模型训练、仿真评测、模型推理的全链路产品能力,提供覆盖数据全生命周期的解决方案,降低训练门槛,实现算法从云端到真机环境的无缝迁移,助力具身智能规模化落地。
来源:IT之家

2025.4.21

1.讯飞星火 X1 全新升级,整体效果对标 OpenAI o1 和 DeepSeek R1

科大讯飞于2025年4月21日宣布讯飞星火X1大模型全新升级。此次升级使该模型在多项通用任务效果上对标OpenAI o1和DeepSeek R1,且在教育、医疗、司法等重点行业扩大领先优势。同时,首发快思考、慢思考统一模型,简化私有化部署,升级模型定制优化工具链,降低定制门槛。
来源:IT之家

2.字节 Seedream 3.0 登场:文生图跑分超 GPT-4o,生成 1080P 图像仅需约 3 秒

字节跳动推出全新文本生成图像模型 Seedream 3.0,性能出色,超越前代并媲美主流系统。训练数据量翻倍,采用新技术确保高保真输出,支持 2K 分辨率,生成 1K 图像仅需约 3 秒。在基准测试中图像质量评分超 GPT-4o,文本密集型任务表现亮眼,写实肖像领域细节真实。
来源:IT之家

3.SkyReels-V2开源:突破视频生成技术边界,开启无限时长电影生成新时代

昆仑万维SkyReels团队开源SkyReels-V2,这是全球首个使用扩散强迫框架的无限时长电影生成模型。它结合多模态大语言模型、多阶段预训练、强化学习和扩散强迫框架协同优化,突破了视频生成技术边界,解决了现有技术在提示词遵循、视觉质量、运动动态和视频时长协调上的挑战,支持生成30秒、40秒高运动质量、高一致性、高保真视频,还提供多种应用场景,如故事生成、图生视频等
来源:昆仑万维

4.秘塔推出AI学习工具“今天学点啥” 支持多种讲解风格

秘塔科技于2025年4月21日上线了AI学习工具“今天学点啥”,该工具可将网页、学术文献等复杂内容转化为个性化讲解内容,用户输入指定链接或文本后,系统会自动生成适配用户知识水平的讲解幻灯片及音频,且支持多种讲解风格。
来源:凤凰网科技

5.AI眼镜爆发!小米阿里字节跑步入场,AI+AR才是未来?

小米、阿里、字节跳动等企业纷纷跑步入场AI眼镜市场,目前AI眼镜逐渐细分出AI音频眼镜、AI拍摄眼镜、AI+AR眼镜三大类。AI音频眼镜价格低但场景有限,AI拍摄眼镜是当前主流且价格有下降空间,AI+AR眼镜前景广阔但受续航困扰。
来源:凤凰网科技

6.Google演示具有Gemini AI、视觉记忆和多语言功能的Android XR眼镜

Google在TED2025大会上展示了搭载Android XR技术的智能眼镜,这款眼镜配备微型摄像头、麦克风、扬声器和高分辨率彩色显示屏,设计轻巧且支持处方镜片。其亮点在于集成Google Gemini AI助手,可实现按需生成俳句、回忆书名、找寻物品、即时翻译等多种功能,还能提供图表视觉解释、上下文对象识别及平视导航等。
来源: 网易订阅

7.ChatGPT现在将利用其“记忆”来个性化网络搜索

OpenAI升级ChatGPT的“记忆”功能,推出“记忆与搜索”功能,可利用过去对话细节优化网页搜索查询,如将“我附近有哪些我想去的餐馆”重写为“旧金山不错的素食餐厅”。此功能旨在区分ChatGPT与竞争对手,用户可在设置菜单中禁用。
来源: 网易订阅

8.WhatsApp在最新测试版中试验应用内消息翻译功能

WhatsApp在其Android测试版中试验应用内消息翻译功能,旨在增强跨语言交流并保护用户隐私。翻译在本地设备进行,需下载特定语言包,支持多种语言。用户可手动或自动翻译消息,且能反馈以改进功能。此功能在测试阶段,预计完成后向所有用户开放。
来源:AIYUN

9.Figma被曝研发AI应用生成器及网站创建工具

设计协作平台Figma正在研发两款AI驱动的新产品:一款AI应用生成器和一款网站创建工具“Figma Sites”。AI应用生成器整合文本提示、Figma设计文件及图像素材输入,由Claude Sonnet模型支持,可自动生成可交互应用原型,降低应用开发门槛。
来源:AIYUN

10.民生证券:Coze空间 字节通用AI Agent雏形

4 月 18 日晚,字节的 Coze 空间开启内测,民生证券第一时间进行了体验。Coze 空间作为字节通用 AI Agent 的雏形,具备全场景任务自动化、双模式协作、强大的模块化扩展能力等特点,能完成生成研究报告、解决生活难题、制作 PPT 和小游戏等多种任务
来源:科创板日报

11.OpenAI新推理模型被曝产生更多幻觉

2025年4月21日,人工智能领域有诸多动态。OpenAI的o3模型在PersonQA基准测试中幻觉率较高,其强化学习方式可能放大幻觉问题。英伟达CEO黄仁勋与日本首相讨论AI机器人及AI能源需求。
来源:科创板日报

12.中国移动发布移动爱家 AI 拍摄眼镜与 AI 音频眼镜

中国移动智慧家庭运营中心在第五届中国国际消费品博览会上发布了“移动爱家 AI 眼镜”。该眼镜通过深度融入大模型,具备“好耳机”“好相机”“好的智能体”三个技能,可实现智能体视频通话、跨应用联动等功能,并在适老化关怀、辅助教育、办公协作、文旅等四大场景实现体验升级。
来源:IT之家

2025.4.18

1.阿里开源通义万相首尾帧生视频14B模型

本文介绍了阿里通义发布的Wan2.1系列模型,该模型采用先进的DiT架构,在视频压缩和捕捉时空依赖关系等方面实现技术突破,能高效经济地生成高清视频。其首尾帧生视频模型通过特定架构和训练优化,可流畅精准地实现首尾帧变换,且已开源,方便开发者和创作者使用。
来源:通义大模型

2.谷歌首款混合推理Gemini 2.5登场,成本暴降600%!思考模式一开,直追o4-mini

谷歌发布首款混合推理模型Gemini 2.5 Flash,引入了革命性「思考预算」,可灵活控制推理深度,性能一举击败Claude 3.7,比肩o4-mini。而且,关闭思考模式成本直降600%。
来源:新智元

3.OpenAI推出Flex处理API 用于更便宜、更慢的 AI 任务

为了更积极地与Google等竞争对手的人工智能公司竞争,OpenAI 推出了Flex 处理,这是一种 API 选项,它提供更低的人工智能模型使用价格,但响应时间较慢且“偶尔资源不可用”。
来源:cnBeta

4.字节 Seed 开源 UI-TARS-1.5:基于视觉-语言模型构建的多模态智能体

字节跳动开源了基于视觉-语言模型构建的多模态智能体 UI-TARS-1.5,其通过强化学习增强了高阶推理能力,能高效执行虚拟世界任务。该智能体以游戏为载体提升推理能力,具备真实操作电脑和手机系统的能力,可精准进行 GUI 操作,团队在视觉感知增强、推理机制、动作建模和训练范式四个维度进行了技术探索。
来源:IT之家

5.Z基金出资3亿支持全球开源社区

18日讯,为了进一步以实际行动推动开源生态建设,智谱Z基金出资3亿元支持全球范围内的 AI 开源社区发展,任何基于开源模型(不局限于智谱开源模型)的创业项目均可申请。
来源:科创板日报

6.微软发布可在CPU上运行的超高效AI模型BitNet

微软推出全球最大规模的1-bit AI模型BitNet b1.58 2B4T,拥有20亿参数,能在普通CPU如苹果M2上高效运行。模型以仅-1、0、1的极简权重实现高内存和计算效率,在多个推理任务中超越Meta、谷歌等同类模型,速度更快、资源占用更低。惟一限制是需依赖微软自研框架bitnet.cpp,兼容性仍受限。
来源:科创板日报

2025.4.17

1.OpenAI 最强推理模型、能够“思考”图片,o3 和 o4-mini 正式发布

2025 年 4 月 17 日,OpenAI 发布了 o3 和 o4-mini 两款推理模型。它们是 o 系列模型的最新成果,号称 “迄今为止 OpenAI 发布的最智能的模型”,代表了 ChatGPT 能力的重大飞跃。o3 是最强大的推理模型,在多个领域处于前沿,尤其擅长视觉任务;o4-mini 是针对快速、成本效益推理优化的较小模型,性能出色。
来源:IT之家

2.字节跳动发布豆包 1.5 深度思考模型,具备“看图思考”能力

字节跳动在火山引擎 AI 创新巡展杭州站发布了豆包 1.5 深度思考模型。该模型在数学、编程、科学推理等专业领域及创意写作等通用任务中表现出色,采用 MoE 架构,总参数 200B,激活参数 20B,推理成本优势显著,API 服务延迟低至 20 毫秒。
来源:IT之家

3.微信首个AI助手上线 可与“元宝”在聊天框对话

微信首个AI助手今日上线,用户在微信搜索“元宝”,即可找到“聊天”入口。官方介绍,元宝AI是腾讯元宝App入驻微信的AI助手,搭载混元和DeepSeek双模引擎,无缝衔接微信生态。一键解析公众账号介绍号文章和任何图片和文档,短评后奉上秒开详解,支持对解读内容做各种智能互动。
来源:科创板日报

4.Grok新增“记忆”功能,可回复个性化内容

4月17日消息,马斯克旗下xAI宣布Grok新增“记忆”功能,现已能记住用户的会话,用户寻求推荐或建议时会得到个性化的回复。同时,“记忆”也是透明的,用户可以确切地看到Grok知晓的内容,并选择“忘记”什么。
来源:钛媒体

5.在终端就能跑的轻量级推理智能体,OpenAI 发布完全开源 Codex CLI 工具

OpenAI 发布了轻量级终端运行编码智能体 Codex CLI,该工具已在 GitHub 完全开源。它可直接在用户计算机上工作,旨在最大化模型推理能力,即将支持 GPT-4.1 等额外 API 模型。用户可通过命令行获得多模态推理能力,它是一个为开发者设计的聊天驱动开发工具,具有零配置、全自动批准、多模态等特点,支持多种操作系统。
来源:IT之家

6.微软向所有使用Edge浏览器的用户免费提供Copilot Vision

2025 年 4 月 17 日,微软宣布向所有使用 Edge 浏览器的用户免费提供 Copilot Vision,该功能此前仅向 Copilot Pro 订阅用户开放。Copilot Vision 允许用户通过 Copilot 分享网页内容并获得解答,且微软不会存储或使用相关数据进行模型训练。本月初,Copilot Vision 还扩展至移动和 Windows 应用,但 Windows 原生 Copilot 应用目前仅面向 Windows Insiders,未来计划扩大访问权限。
来源:cnBeta

7.微软将 OpenAI o3 和 o4-mini 模型引入 Azure 和 GitHub

2025年4月17日,OpenAI发布最新推理模型o3和o4 – mini,性能显著提升,具备视觉功能,支持图像输入应用。微软将这两个模型引入Azure和GitHub。Azure OpenAI服务还推出新音频模型。GitHub Copilot和GitHub Models也上线了o3和o4 – mini型号,用户可通过相应平台选择使用这些新模型。
来源: cnBeta

8.OpenAI推出Codex CLI 一款用于终端的开源编程工具

OpenAI 推出了开源的 Codex CLI 编程工具,旨在从终端软件本地运行,连接 OpenAI 的模型与本地代码和计算任务。它可让用户在桌面上编写和编辑代码,执行移动文件等操作。OpenAI 还计划向符合条件的软件开发项目提供 100 万美元的 API 奖励,但 AI 编码工具存在无法修复安全漏洞和错误甚至引入漏洞的风险。
来源: cnBeta

9.飞猪上线AI助手“问一问”

2025年4月17日,飞猪上线AI助手“问一问”。该产品集成通义千问多个主力模型,支持多模态输入,通过多智能体分工协作加自主决策方式,提升对复杂旅行需求的识别精度和处理效率。它能像专业旅游服务从业者一样思考、执行任务,基于飞猪专有数据和全网内容,为用户提供真实可用旅行方案。4月17日起,先面向飞猪F5及以上会员开放体验。
来源:钛媒体

10.Gemini Live屏幕共享功能向安卓用户免费开放

谷歌宣布旗下Gemini Live应用的屏幕共享功能向所有安卓用户免费开放。此前该功能仅限Pixel 9和三星Galaxy S25用户使用且需付费订阅。该功能结合AI技术,可识别并回应摄像头及屏幕内容。谷歌收到积极反馈后决定扩大用户群体,功能将通过Gemini应用逐步向所有安卓用户推出
来源:AIYUN

11.据报道,OpenAI正洽谈以30亿美元收购Windsurf,预计本周晚些时候会有消息

OpenAI正洽谈以30亿美元收购Windsurf。若交易达成,OpenAI将与多家AI编码助手提供商竞争。此次收购可能影响OpenAI创业基金信誉,其曾支持过竞争对手Cursor。Windsurf用户收到邮件称本周晚些时候有公告,可选择每月10美元锁定对编码编辑器的访问。
来源:AIYUN

2025.4.16

1.谷歌将视频生成AI模型Veo 2整合至Gemini

4月16日凌晨,据外媒报道,谷歌团队已将的Veo 2视频生成模型全面整合至Gemini,全面开放使用。Veo 2具备强大的视频生成能力,能够产出最高8秒、分辨率达720P的电影级视频。在运镜效果、文本语义还原度、物理模拟精准度以及动作连贯性等方面表现卓越,同时支持基于图片生成视频的功能。
来源:科创板日报

2.字节Seedream 3.0追平文生图SOTA模型GPT-4o,即梦、豆包全量上线

4月16日消息,文生图领域权威的第三方榜单Artificial Analysis竞技场发布消息称,字节跳动Seed团队图像生成模型Seedream 3.0综合性能已追平文生图SOTA模型GPT-4o,稳定超越Recraft V3、Ideogram、Imagen 3、Midjourney V6.1等模型,进入全球第一梯队。
来源:钛媒体

3.微软 Copilot Studio 新增“计算机使用”工具

微软在Copilot Studio中推出“计算机使用”工具,允许客服人员与网站或桌面应用程序交互,无需API编程集成。该工具基于大型语言模型,具备内置推理功能,可自动适应应用和网站变化。它在微软托管的基础架构上运行,确保客户数据安全。该工具能增强机器人流程自动化,实时响应变化、易于使用、智能决策且有完整可见性。微软可能利用OpenAI的Operator技术为其提供支持,感兴趣的组织可申请试用。
来源:cnBeta

4.OpenAI收购Context.ai团队以提升模型评估能力

OpenAI收购了由GV支持的初创公司Context.ai团队,以增强其模型评估能力。Context.ai由前谷歌员工创立,曾获350万美元种子资金,专长于AI模型性能评估。此次收购凸显了在AI开发中,强大评估指标的重要性日益增加,有助于OpenAI在与Anthropic和谷歌等竞争对手的竞争中占据优势。
来源:AIYUN

5.DeepSeek公布推理引擎开源路径,承诺将核心优化注入vLLM生态

DeepSeek在其GitHub库中公布自研推理引擎开源计划,将核心优化成果贡献给开源项目vLLM。因内部引擎与vLLM主线差异大、基础设施强依赖、维护资源有限,未直接开源完整代码库。其合作策略获社区支持,vLLM项目官方账号表示赞同。
来源:凤凰网科技

6.马斯克旗下xAI宣布上线Grok Studio

4月16日消息,马斯克旗下xAI正式发布Grok Studio的首个版本,新增代码执行功能与Google云端硬盘支持。Grok现已支持生成文档、代码、报告及网页游戏。Grok Studio会将用户的内容在独立窗口打开,让用户和Grok可以共同协作处理内容。
来源:钛媒体

7.消息称OpenAI 正在开发自己的类似X的社交媒体平台

据The Verge报道,OpenAI 正在构建自己的类似 X 的社交媒体网络。该项目仍处于早期阶段,但有一个专注于 ChatGPT 图像生成的内部原型,其中包含社交信息流。报告称,目前尚不清楚 OpenAI 是否计划将该社交网络作为独立应用程序推出,或者是否计划将其集成到 ChatGPT 应用程序中。
来源: cnBeta

8.Nature 头条:上海交大开发“盲人 AI 导航眼镜”,探测环境并进行语音和震动提示

上海交通大学团队开发出一款“盲人 AI 导航眼镜”,该设备通过摄像头捕捉画面,利用 AI 解读并结合骨传导耳机语音提示以及手腕处人造皮肤震动提醒,帮助盲人和部分视力障碍者导航。研究还定制了 AI 算法匹配需求,开发可拉伸人工皮肤提高穿戴性,自供电摩擦电智能鞋垫实现用户与虚拟化身对齐,支持训练。
来源:IT之家

9.OpenAI ChatGPT 上线图库功能,更轻松管理 AI 生成图片

OpenAI公司于4月16日宣布ChatGPT上线Image Library图库功能,方便用户管理和查看AI生成图像。该功能已向所有Free、Plus和Pro用户开放,覆盖移动端和网页端。用户点击ChatGPT侧边栏“Library”板块,可进入展示AI生成图像的网格界面,且屏幕底部有悬浮按钮方便随时生成新图像。目前该功能在ChatGPT的iOS应用中上线,网页版功能预计很快推出,对经常生成图片的用户非常实用。
来源:IT之家

10.Anthropic 的 Claude 现在可以阅读你的 Gmail

Anthropic 的 AI 聊天机器人 Claude 现已与 Google Workspace 集成,可搜索引用 Gmail、Google 日历和 Google Docs 内容,首批面向特定订阅用户推出 Beta 版,需管理员启用。此合作旨在提供个性化回复,避免用户重复上传文件或编写详细提示。
来源:cnBeta

11.Cohere发布Embed 4:一款为自主搜索设计的多模态AI模型

人工智能初创公司Cohere Inc.发布最新AI模型Embed 4,专为搜索和检索设计,适用于助手和代理等AI应用。该模型可处理多种内容,支持多语言,具有极大上下文长度,能适应嘈杂现实世界数据,已在金融、医疗和制造等受监管行业中表现出色。其客户Agora利用该模型提升搜索效率。
来源:AIYUN

12.字节AI Lab将全部并入Seed

16日讯,据报道,字节AI Lab即将全部收归Seed团队下。字节AI Lab是Seed成立之前字节主要的AI研发部门,目前由李航管理,自2024年开始向Seed时任负责人朱文佳汇报。今年2月下旬,原谷歌DeepMind副总裁吴永辉入职字节,成为Seed基础研究负责人。此后李航的汇报对象变为吴永辉
来源:科创板日报

2025.4.15

1.快手发布可灵 2.0 视频生成模型及可图 2.0 图像生成模型

本文主要介绍了快手在2025年4月15日举行的“灵感成真”可灵AI 2.0模型发布会。会上宣布基座模型升级,发布了可灵2.0视频生成模型和可图2.0图像生成模型,二者在多个维度性能显著提升。自去年6月发布以来,可灵AI已累计完成超20次迭代,全球用户规模突破2200万,过去10个月月活用户量增长25倍,累计生成超过1.68亿个视频及3.44亿张图片。
来源:IT之家

2.人工智能开发平台 Hugging Face 收购 Pollen Robotics,进军人形机器人市场

人工智能开发平台 Hugging Face 收购了法国人形机器人初创公司 Pollen Robotics,交易金额未公开。Hugging Face 计划销售 Pollen 的人形机器人 Reachy 2,并允许开发者提出改进建议。Pollen 由马修・拉皮埃尔和皮埃尔・鲁安奈于 2016 年创立,旨在将价格实惠的人形机器人引入家庭。此次收购标志着 Hugging Face 在机器人领域的一次拓展,双方此前已有合作。
来源:IT之家

3.魔搭上线最大MCP中文社区,独家首发支付宝、MiniMax等MCP

2025年4月15日,阿里云旗下的AI开源社区魔搭(ModelScope)推出全新MCP广场,上架千余款热门MCP服务,并独家首发支付宝、MiniMax等全新MCP服务。魔搭社区为AI开发者提供丰富的MCP服务、调试工具以及支持第三方平台集成调用,通过开源开放方式加速Agent及AI应用创新落地。魔搭社区秉承“模型即服务”理念,为AI开发者提供一站式服务,目前模型总量超5万个,服务超1300万开发者,是中国最大的AI开源社区。
来源:阿里云

4.推理模型性能比肩世界先进水平,智谱GLM开源模型系列迎来新成员,同时启用全球域名“z.ai”

智谱开源了 32B/9B 系列 GLM 模型,涵盖基座、推理、沉思模型,遵循 MIT 许可协议,通过 Z.ai 平台免费开放体验。推理模型 GLM-Z1-32B-0414 性能媲美 DeepSeek-R1 等顶尖模型,实测推理速度国内最快,且价格仅为 DeepSeek-R1 的 1/30。智谱启用全新域名 Z.ai,整合了 32B 基座、推理、沉思三类 GLM 模型,后续将作为最新模型的交互体验入口。基座模型 GLM-4-32B-0414 性能出色
来源:智谱

5.MiniMax MCP Server 上线:多模态能力,一键触达

MiniMax MCP Server 正式上线,它具备多模态能力,可通过简单文本输入调用视频、图像、语音生成及声音克隆等功能,兼容多种MCP客户端。用户在开放平台获取API Key后,就能无障碍使用MiniMax各模态最先进版本模型,项目已开源,还提供了国内外开放平台链接。
来源:MiniMax

6.猿辅导发布全新小猿AI学习机,搭配智能基座后变伴学机器人

2025年4月15日,猿辅导集团在“小猿AI暨智能硬件战略发布会”上发布了小猿AI学习机。该产品搭配智能基座后可变身为伴学机器人。其基于教育AI基座,底层为数据层,上层为场景层,中间为模型层和逻辑层,模型层由猿力大模型和Deepseek-R1模型矩阵组成。小猿AI学习机有双形态,单独使用是学习平板,搭配智能底座则成为伴学机器人,底座具备自动调节角度拍照、内置打印机和情感交互等功能。
来源:凤凰网科技

7.OpenAI计划逐步从其API中淘汰其最大AI模型GPT-4.5

OpenAI计划在7月14日后停止通过API提供其最大AI模型GPT-4.5,推荐开发者迁移到GPT-4.1。GPT-4.5虽在写作和说服力上有所提升,但运行成本高昂,每百万输入词元成本75美元,输出词元150美元。其代号“猎户座”,训练需强大计算力和数据量,但未达行业前沿水平。GPT-4.5不会退出ChatGPT,仍向付费用户开放。
来源: cnBeta

8.Google推出 DolphinGemma 旨在帮助人们理解海豚的语言的大模型

在推出由 Gemini 2.5 Pro Experimental 提供支持的深度研究几天后,Google再次推出了一个新模型 DolphinGemma。这个大型语言模型旨在帮助科学家“研究海豚如何交流”,并“希望也能了解它们在说什么”。
来源:cnBeta

9.智象未来开源图像生成模型HiDream-I1 与交互编辑模型 HiDream-E1

2025年4月15日,HiDream智象未来团队宣布开源图像生成大模型HiDream-I1与交互编辑模型HiDream-E1。HiDream-I1在权威榜单Artificial Analysis中24小时内登顶,成为首个跻身全球第一梯队的中国自研生成式AI模型
来源:钛媒体

10.上海交通大学智能传感新硬件:用可穿戴AI系统为盲人导航

2025年4月15日,钛媒体App报道,上海交通大学开发了一款智能可穿戴AI系统,用于为盲人和部分视力障碍人士提供导航辅助。该系统利用AI算法处理摄像头图像,通过骨传导耳机和人造皮肤振动信号,为使用者提供听觉和触觉导航,帮助其避开障碍物和抓取物体。
来源:钛媒体

11.OpenAI推出GPT-4.1及两款轻量化模型 计划逐步淘汰旧版本

OpenAI推出GPT-4.1及两款轻量化模型GPT-4.1 Mini和GPT-4.1 Nano,性能显著提升,处理能力达百万标记,价格比GPT-4o降低26%。计划逐步淘汰GPT-4模型,4月30日起不再用于ChatGPT,7月14日停止提供GPT-4.5预览版。GPT-4o更新后新增图像生成功能。未来还将推出o3和o4 mini推理模型。
来源:AIYUN

12.“AI六小虎”中首家:智谱启动上市辅导 3月刚刚获得三地国资投资

智谱于2025年4月14日在北京证监局办理辅导备案,正式开启上市进程,成为“AI六小虎”中首家上市的公司。自2019年6月成立以来,智谱已完成15轮融资,今年3月获得成都、杭州、珠海三地国资投资,合计超18亿元。4月15日,智谱发布新一代开源模型GLM-4-32B-0414系列,其中推理模型GLM-Z1-Air/AirX-0414速度达200 Tokens/秒,为国内迄今最快的商业模型。
来源:科创板日报

2025.4.14

1.消息称字节正自研AI眼镜

4月13日消息,据市场消息,有两位知情人士透露,字节跳动正计划推出自家的AI智能眼镜。据其中一位知情人士透露,字节跳动预计将在其智能眼镜中,提供类似自研模型豆包的AI功能。目前,字节跳动推出这款智能眼镜的时间和销售地区尚未确定。据了解内情的人士透露,字节跳动正在与供应商谈判,确定产品功能、技术规格、成本以及发布时间。
来源:钛媒体

2.我国团队研发,全球首个基因挖掘大模型 SYMPLEX 问世

我国科研团队研发出全球首个基因挖掘大模型 SYMPLEX,其通过融合大语言模型训练、专家知识对齐和生物信息分析,可从海量文献中自动化挖掘功能基因元件并评估其应用潜力。该模型在 mRNA 加帽酶基因挖掘中表现出色,获得的新型加帽酶催化效率远超国际头部企业产品,显著提升 mRNA 疫苗生产效率和成本效益。
来源:IT之家

3.英伟达发布 Llama-3.1-Nemotron-Ultra-253B-v1 模型,推动 AI 高效部署

英伟达发布 Llama-3.1-Nemotron-Ultra-253B-v1 模型,该模型拥有 2530 亿参数,在推理能力、架构效率和生产准备度上实现重大突破,专为商业和企业需求设计,采用仅解码器的密集 Transformer 结构,通过多种优化技术提升性能,降低部署成本,还经过多阶段后训练优化,以确保在基准测试中表现出色。
来源:IT之家

4.字节跳动推出 VAPO 框架:突破 AI 推理极限,Qwen2.5-32B 提分 12 倍超 Deepseek-R1

字节跳动Seed研究团队推出VAPO强化学习训练框架,旨在提升大型语言模型在复杂、冗长任务中的推理能力。该框架通过三项创新技术应对价值模型在长链式推理任务中的三大挑战,使Qwen2.5-32B模型在AIME24基准测试中得分大幅提升,超越DeepSeek R1等,训练过程更稳定,为LLM在复杂推理任务中的应用提供了新方向。
来源:IT之家

5.昆仑万维开源7B和32B最强数学代码推理模型,同规模下性能超越阿里QwQ-32B,对齐DeepSeek-R1

昆仑万维天工团队于2025年4月13日推出全新升级的Skywork-OR1系列模型,涵盖7B和32B参数规模,聚焦数学和代码推理领域,性能在同规模下超越阿里QwQ-32B,对齐DeepSeek-R1。该系列模型全面开源,包括模型权重、训练数据集和完整训练代码,上传至GitHub和Huggingface平台。
来源:昆仑万维

6.3D领域「源神」又开了两个新项目:三维部件编辑与自动绑定框架

国内创业公司 VAST 开源了两个 3D 生成项目 HoloPart 和 UniRig。HoloPart 能为任意三维模型生成完整、可编辑的部件,通过两阶段方法实现部件补全,基于扩散变换器架构与双重注意力机制,可智能重建隐藏几何细节,解锁直观编辑、材质分配等下游应用。UniRig 是通用自动绑定框架,借鉴大型自回归模型
来源:机器之心

7.OpenAI确认GPT-4o将于4月30日起取代GPT-4,AI竞赛愈演愈烈

OpenAI计划于2025年4月30日用GPT-4o取代ChatGPT中的GPT-4,GPT-4o具有多模态能力,能整合文本、视觉和音频输入,支持多种语言,性能更优且成本效益更高,已向用户免费开放,还支持企业客户用专有数据微调。但其曾因“Sky”语音与斯嘉丽·约翰逊声音相似而受争议,后禁用了该语音。
来源:AIYUN

8.海南:开展“人工智能+”行动 推动人工智能赋能产业链供应链协同发展

中共海南省委办公厅、海南省人民政府办公厅发布《打造新质生产力重要实践地》的意见,意见指出,加快产业数智化转型。推动数字技术与实体经济深度融合,加快推动企业“上云用数赋智”,培育壮大智能网联新能源汽车、具身智能等新兴产业。
来源:科创板日报

9.OpenAI本周将发布大量新产品

4月14日电,OpenAI创始人兼首席执行官山姆・奥特曼在社交平台上发文表示,在接下来的这一周,将发布很多精彩的产品,从明天就开始(即北京时间周二)。
来源:科创板日报

2025.4.11

1.Canva新增多项AI功能 涵盖图像生成、代码开发与表格处理

Canva公司于2025年4月11日宣布在其平台新增一系列AI功能,包括AI助手、代码开发工具Canva Code、图像编辑工具以及电子表格功能Canva Sheets。AI助手可执行生成图像、提供设计思路、撰写文案等任务;Canva Code能创建迷你应用程序并集成到设计中;图像编辑工具可修改照片元素和生成背景
来源:AIYUN

2.马斯克 xAI 推出 Grok 3 / Mini 的 API 接口:百万词元输入 3 美元,输出 15 美元

马斯克旗下xAI公司推出Grok 3及其精简版Grok 3 Mini的API接口,Grok 3每百万词元输入/输出定价3美元和15美元,加速版为5美元和25美元;Grok 3 Mini定价0.3美元和0.5美元,加速版为0.6美元和4美元。Grok 3 API目前支持最大上下文窗口为131072词元,与宣称的百万词元处理能力有差距。
来源:IT之家

3.商汤日日新 SenseNova V6 多模态融合大模型发布

2025 年 4 月 10 日,商汤科技发布“商汤日日新 SenseNova V6”多模态融合大模型。该模型具备最长 64K 思维链、数理分析、多模态深度推理、全局记忆等能力,支持 10 分钟的视频推理及深度推理。日日新是商汤科技的大模型体系,包括自然语言处理模型“商量”、文生图模型“秒画”和数字人视频生成平台“如影”等。
来源:IT之家

4.ChatGPT有了完整记忆!像朋友一样记住所有聊天记录,回复更加私人订制

OpenAI发布ChatGPT新能力,支持参考过去所有对话内容,为用户提供更私人订制的体验。这一能力从2025年4月11日起已为Plus和Pro用户提供,但其稳定性有待考量,存在一些问题,如产生幻觉、不能逐字引用和提供对话具体日期等。用户可通过对话修改ChatGPT的记忆,也可选择禁用该功能。
来源:量子位

5.YouTube 为创作者推出免费 AI 音乐制作工具

YouTube 即将推出一项新功能,允许创作者使用 AI 技术生成自定义乐器背景音乐,并将其添加到视频中。该公司在本周发布于Creator Insider 频道的更新中表示,其 Creator Music 市场即将推出一项更新,允许创作者使用 AI 提示生成新曲目。
来源: cnBeta

6.IC-Light的视频版本来了,RelightVid:强光动态环境下的视频光照编辑神器

本文介绍了RelightVid,这是IC-Light的视频版本,由复旦大学、上海交通大学、浙江大学、斯坦福大学等机构的学者共同开发。RelightVid是一种用于视频光照编辑的时序一致性扩散模型,能够在强光动态环境下实现高质量的视频光照编辑,保持光照随时间的连续变化。
来源:机器之心

7.OpenAI或于近期发布多款新AI模型,包括GPT-4.1

OpenAI计划推出多款新AI模型,包括GPT-4.1及其简化版GPT-4.1 mini和nano。此外,还有o3推理模型的完整版和o4 mini版本。这些新模型最快可能在下周亮相。然而,由于容量问题,OpenAI此前曾推迟新模型发布。目前,OpenAI尚未对这些消息作出正式回应。
来源:AIYUN

8.中国移动发布AI眼镜

在2025中国移动云智算大会期间,中国移动发布了深度定制的AI眼镜,该产品搭载中国移动灵犀智能体,提供演讲提词、会议总结、日程安排等功能,提供听译、对话翻译等实时语音翻译服务,覆盖40种语言,识别90种口音,适用于适配商务差旅、跨国协作等场景。(记者 张洋洋)
来源:科创板日报

9.悠船V7震撼登场!新一代图像生成王牌来袭

悠船V7模型于2025年4月7日正式上线,此次更新重点提升了图像生成质量,包括人物肤色、面部细节、材质纹理和光影效果等方面,同时在场景理解与融合、视角与风格表现以及一致性优化上也取得了显著进步。用户可通过简单操作使用V7版本,并且团队提供了使用提示和未来更新计划,目前V7计费与V6一致,部分功能后续会改进,还期待用户反馈以持续优化。
来源: 悠船助手

10.谷歌 Veo 2 升级可生成更具电影感视频,文本、音频 AI 同步升级

谷歌为其视频 AI 模型 Veo 2 推出新功能,可通过谷歌云的 Vertex AI 平台预览,同时文本转图像生成器 Imagen 3 和音频相关 AI 模型也进行了更新。Veo 2 新增修复、外扩、插值等功能,可移除背景干扰元素、扩展画面、创建视频过渡。更新还允许用户结合电影拍摄技巧预设和文字描述生成画面。
来源:IT之家

11.大模型“自动修 bug”能力将提升,豆包团队开源首个多语言代码修复基准 Multi-SWE-bench

豆包大模型团队开源了首个多语言代码修复基准 Multi-SWE-bench,旨在提升大模型的“自动修 Bug”能力。该基准覆盖 Python 之外的 7 种主流编程语言,数据来源于 GitHub issue,历时近一年构建。它引入任务难度分级机制,涵盖不同复杂度的开发挑战,并确保样本具备清晰问题描述、正确修复补丁及可复现运行测试环境,推动自动编程技术迈向多语言、具备真实问题解决能力的通用型智能体。
来源:IT之家

12.谷歌宣布支持Anthropic的MCP协议

当地时间4月10日,谷歌DeepMind CEO哈萨比斯在X表示,谷歌将在Gemini和SDK中添加对Anthropic模型上下文协议(MCP)的支持。哈萨比斯写道:“MCP是一个很好的协议,它正在迅速成为AI代理时代的开放标准。期待与MCP团队以及其他业内人士一起进一步开发它。”
来源:科创板日报

13.OpenAI开源BrowseComp 重塑Agent浏览器评测

今日凌晨,OpenAI开源了专门用于智能体浏览器功能的测试基准——BrowseComp。这个测试基准非常有难度,连OpenAI自己的GPT-4o、GPT-4.5准确率只有0.6%和0.9%几乎为0,即便使用带浏览器功能的GPT-4o也只有1.9%。但OpenAI最新发布的Agent模型Deep Research准确率高达51.5%,在自主搜索、信息整合、准确性校准方面非常优秀。
来源:科创板日报

2025.4.10

1.Google最新发布的Gemini 2.5 Flash AI模型更加注重效率

Google正在发布一种新的人工智能模型,旨在提供强大的性能并注重效率。该模型名为 Gemini 2.5 Flash,即将在Google的 AI 开发平台 Vertex AI 上推出。该公司表示,该模型提供“动态且可控”的计算能力,允许开发人员根据查询的复杂性调整处理时间。
来源:cnBeta

2.WordPress.com 推出基于AI的免费网站构建器

托管平台 WordPress.com 周三推出了一款全新的 AI 网站构建器,任何人都可以使用 AI 聊天式界面创建功能齐全的网站。该公司表示,该功能将免费向 WordPress 用户开放,主要面向企业家、自由职业者、博主以及其他需要打造专业在线形象的人士。
来源:cnBeta

3.Adobe将推出面向Photoshop和Premiere Pro的AI代理工具

Adobe正为Photoshop和Premiere Pro开发AI代理工具,以提升创作效率。Photoshop的“创意代理”可通过浮动操作面板提供智能编辑建议,如自动移除背景人物等,并将支持自然语言指令交互。Premiere Pro的AI代理基于媒体智能分析技术,未来可用于生成视频粗剪版本等,还将扩展至镜头选择、色彩校正等环节。
来源:AIYUN

4.谷歌 AI 编程助手 Gemini Code Assist 新增“代理”功能,可多步骤完成复杂任务

谷歌在 Cloud Next 大会上宣布 AI 编程助手 Gemini Code Assist 新增“代理”功能,可多步骤完成复杂编程任务,如依产品规格创建应用、转换代码语言等,还支持多种编程环境,包括 Android Studio。此次升级或为应对 GitHub Copilot 等竞争对手。
来源:IT之家

5.alphaXiv推出Deep Research一秒搜遍arXiv,研究效率直接爆表

alphaXiv 推出「Deep Research for arXiv」功能,可协助研究人员在 arXiv 平台高效检索与阅读学术论文,显著提升文献检索及研究效率。用户输入相关问题,系统能迅速生成文献综述或热门论文详细回答,将文献搜索过程缩短至几秒。此前,alphaXiv 还推出过自动为 arXiv 论文生成博客风格概述的功能。
来源:机器之心

6.首个基于开源鸿蒙的机器人操作系统M-Robots OS发布

2025年4月9日,中国软件国际及其旗下公司深开鸿共同发布了全国首个基于开源鸿蒙的分布式异构多机协同机器人操作系统M-Robots OS 1.0。该系统以开源鸿蒙操作系统为核心引擎,依托国产多种架构芯片构建硬件底座,面向多形态异构机器人或群体机器人协同场景,打造机器人操作系统统一底座
来源:凤凰网科技

7.火山引擎发布企业数据智能体Data Agent

火山引擎宣布推出一款名为Data Agent的企业数据智能体。基于大模型的推理、分析和调用工具等能力,Data Agent能够深度理解业务需求,自动化完成撰写深度研究报告、营销活动设计等任务。
来源:钛媒体

8.谷歌推出 Firebase Studio 云端集成开发环境:AI 助你秒建应用

谷歌发布 Firebase Studio,这是一款基于云端、人工智能驱动的集成开发环境(IDE)。用户只需输入提示词,AI 就能迅速生成完整的应用程序。该工具支持多种编程语言和框架,简化了开发流程,用户无需自行编写全部代码,也无需借助外部工具,可直接在云端 IDE 中调整和优化。
来源:IT之家

9.联影发布“元智”医疗大模型,推出10余款医疗智能体

在2025中国国际医疗器械展览会(CMEF)期间,联影发布“元智”医疗大模型(简称“uAI NEXUS”),这是一款基于数千万级医疗影像数据和数十万级医疗级精细标注数据训练打造的医疗影像大模型。
来源:钛媒体

10.谷歌重申今年750亿美元资本支出计划 加倍押注生成式AI

谷歌母公司Alphabet周三重申,今年将斥资约750亿美元建设数据中心容量,加倍押注生成式人工智能,尽管回报尚不明朗,而且全球贸易战可能会提高成本。Alphabet首席执行官桑达尔·皮查伊在谷歌云计算部门的年会上表示
来源:科创板日报

11.百度:文心大模型 4.5 Turbo 4 月 25 日见

百度文心大模型 4.5 Turbo 将于 4 月 25 日的 Create 大会上亮相。Create 2025 百度 AI 开发者大会将在武汉举办,围绕多个热点话题设置分会场,还有主旨会议、生态大会、AI 公开课和展区。文心大模型 4.5 是百度首个原生多模态大模型,性能优于 GPT4.5,API 调用价格低;文心大模型 X1 性能对标 DeepSeek-R1,支持多模态调用,价格也较有优势。
来源:IT之家

2025.4.9

1.亚马逊推出全新 AI 语音模型 Nova Sonic,叫板 OpenAI 和谷歌

亚马逊发布新一代生成式 AI 模型 Nova Sonic,可原生处理语音并生成自然流畅语音,在速度、语音识别、对话质量等关键指标上可媲美 OpenAI 和谷歌的前沿语音模型。该模型通过 Bedrock 开发者平台提供,价格比 OpenAI 的 GPT-4o 便宜约 80%,且在语音识别错误率、多语言支持、双向对话等方面表现出色,是亚马逊构建人工通用智能战略的一部分。
来源:IT之家

2.孪生世界动态仿真新突破!北大发布RainyGS:降雨/洪涝/风速精准可控

北京大学陈宝权教授团队提出RainyGS技术,通过结合物理模拟和3D高斯泼溅渲染框架,实现了真实场景中动态雨效的高质量仿真与呈现,为自动驾驶仿真、灾害推演等场景提供像素级可信的动态孪生。该技术基于高精度表面表达,统一构建孪生世界的几何重建、高效渲染、准确仿真及精准交互,奠定了以高质量表面表达为核心的孪生世界动态场景生成新范式。
来源:新智元

3.2 个月 10 万台,增速 300%,「AI硬件」闯出一匹黑马

2025年,一款名为“小智AI”的开源AI硬件项目在短短两个月内设备接入量增长10万台,增速达300%,成为现象级项目。其语音助手以台湾腔、反应迅速、声音拟人等特点引发大量关注和传播,吸引了众多电子爱好者、AI从业者和编程小白参与,他们通过自行组装硬件或在电商平台上售卖成品,推动了“小智AI”的发展。
来源: 极客公园

4.谷歌展示AR眼镜原型:Gemini加持,支持实时翻译

谷歌在温哥华TED大会上展示了AR眼镜原型,该眼镜结合微型显示屏与Gemini人工智能助手,能实时翻译语言、扫描书籍等,且与手机配合使用,保持轻巧并访问手机应用。谷歌还展示了与三星合作的混合现实头显,利用视频透视技术融合现实与数字世界。不过,生产成本高、电池续航能力不足等问题限制了这类设备的普及,未来需降低成本、优化续航以推动广泛应用。
来源:凤凰网科技

5.Google推出Gemini 2.5 Pro深度研究 表现优于ChatGPT

Google的Gemini 2.5 Pro模型在深度研究功能上表现出色,优于ChatGPT。该模型可创建高质量多页报告,支持Web、Android和iOS平台。测试显示,其生成的报告更受人工评分者青睐,具有更强的分析推理能力。用户可在150个国家免费试用相关模型。
来源:cnBeta

6.阶跃星辰发布多模态推理模型Step-R1-V-Mini

4月8日消息,阶跃星辰正式发布多模态推理模型Step-R1-V-Mini,支持图文输入、文字输出、有良好的指令遵循和通用能力,能够高精度感知图像并完成复杂推理任务。
来源:钛媒体

7.Deep Cogito携混合AI推理模型正式亮相

Deep Cogito公司于2025年4月9日宣布推出自主研发的混合AI推理模型系列Cogito 1,该模型系列可在推理模式与非推理模式间切换,融合两种技术架构以平衡计算效率与问题解决能力。其参数规模从30亿至700亿不等,未来还将推出更大版本
来源:AIYUN

8.AI新工具能评估多发性硬化症疗效

英国伦敦大学学院团队开发出一款新型人工智能(AI)工具MindGlide,可帮助解释和评估多发性硬化症(MS)患者的治疗效果。团队在1000多名MS患者的14000多张图像上测试了MindGlide的有效性。
来源:科创板日报

2025.4.8

1.亚马逊的AI视频模型Nova Reel现在可以生成长达数分钟的片段

亚马逊升级了其 AI 视频模型 Nova Reel 至 1.1 版本,该版本能够生成长达两分钟的“多镜头”视频,且各镜头风格一致。用户可提供最多 4000 个字符的提示来生成由六秒镜头组成的视频。Nova Reel 1.1 还新增了“Multishot Manual”模式,可参考图像及最多 512 个字符的提示生成最多 20 个镜头的视频。
来源:cnBeta

2.Kimi开放平台:下调模型推理服务和上下文缓存价格

Kimi开放平台今日宣布,基于MoonshotAI一年来的技术积累和性能优化,已经在北京时间2025年4月7日0点对Kimi开放平台提供的模型推理服务进行价格调整,具体调整方案如图所示;同时下调上下文缓存的价格。
来源:钛媒体

3.谷歌AI模式新增图像识别与搜索功能

谷歌为其AI模式聊天机器人新增图像识别与搜索功能,将定制版Gemini AI与Lens图像识别技术结合,允许搜索图片并提供丰富回复。该功能采用发散式查询技术,能识别图像内容并优化推荐,已向美国数百万实验室用户开放,不再限于付费高级订阅用户。
来源:AIYUN

4.通义大模型开源发布3D数字人大模型

通义大模型宣布,开源发布超写实3D数字人大模型(LAM),可单图秒级生成超写实3D数字人,基于生成的3D数字人搭建了完整的实时交互对话工程链路,包括LLM、ASR、TTS和数字人模块,即输入一张图片、即可与这张图片所生成的数字人化身进行低延迟的实时对话,应用于客服、教育、陪伴等场景。
来源:科创板日报

5.2025 商汤技术交流日 4 月 10 日举行,日日新 6.0“强推理”模型首秀

2025年4月10日,商汤科技将举办“2025商汤技术交流日”,推出主打“强推理”的日日新6.0 AI模型。去年7月,商汤发布了日日新5.5大模型体系及国内首个所见即所得模型“日日新5o”,其采用混合端云协同架构,拥有6000亿参数,基于超过10TB tokens高质量训练数据,推理速度达109.5字/秒。
来源:IT之家

6.Riverbed推出新AI功能增强平台可观测性

Riverbed Technology LLC宣布对其可观测性平台进行重大升级,新增AI工具以助力企业快速解决技术问题。此次升级包括IQ Assist工具,可直观展示技术问题并提供修复建议,还能与外部应用程序同步事件数据;Predictive AI工具可提前发现并解决潜在技术问题;Agentic AI功能可自动化处理部分故障排查手动工作。
来源:AIYUN

7.中国科学院青藏高原研究所、阿里云联合发布水能粮多模态推理大模型“洛书”

中国科学院青藏高原研究所与阿里云联合发布了水能粮多模态推理大模型“洛书”,该模型集成了科学模型“思源”、千问推理模型 QwQ-32B 以及多模态模型 Qwen2.5-VL,能够精准分析和预测特定区域在不同时间尺度的来水量和来源,助力调节水资源管理中供水、发电与粮食生产需求的动态平衡,预测准确率已达 98%(SOTA 级别),未来将逐步应用于多个能源场景。
来源:IT之家

2025.4.7

1.OpenAI 测试 ChatGPT-4o 图像生成模型的水印

OpenAI正在为ChatGPT 4o模型中的图像生成部分测试新的“水印”。此前,ChatGPT图像生成模型仅限付费用户使用,现已向所有用户推广。目前,OpenAI开始为免费用户生成的图像添加水印,而付费用户可保存无水印图像,但其水印添加计划是否持续尚不确定。该图像生成模型训练于大量图像和文本,生成的图像美观实用,且OpenAI正在开发ImageGen API供开发者使用。
来源:cnBeta

2.亚马逊Kindle的新功能利用AI来生成系列图书的摘要

亚马逊为 Kindle 用户推出了一项新的“Recaps”功能,帮助他们在阅读系列丛书的最新一期之前回忆故事情节和人物介绍。虽然该公司关于这项新功能的新闻稿中没有提到人工智能,但亚马逊证实,Recaps 是由人工智能生成的。
来源:cnBeta

3.微软为Copilot添加多项新功能 增强竞争力

在庆祝成立50周年之际,微软宣布对其AI助手Copilot进行重大更新,新增多项功能以提升用户体验,使其功能更接近ChatGPT和Claude等竞争对手。此次更新中,Copilot整合了多种OpenAI模型,新增功能包括记忆功能、个性化设置、基于网页的操作、播客创建、摄像头和屏幕分析、深度研究等。
来源:AIYUN

4.Meta发布两款Llama 4人工智能模型

Meta公司近日宣布推出Llama 4系列人工智能模型,这些新模型目前为Meta AI助手提供支持,包括网页版及WhatsApp、Messenger和Instagram等应用中的版本。两款新模型Llama 4 Scout和Llama 4 Maverick已可通过Meta或Hugging Face平台下载。
来源:AIYUN

5.谷歌迄今最贵 AI 模型:Gemini 2.5 Pro API 定价公布,每百万输入 tokens 1.25 美元起

谷歌公布 Gemini 2.5 Pro API 定价,其价格高于其他前沿 AI 模型,如 OpenAI 的 o3-mini 和 DeepSeek 的 R1。尽管价格昂贵,但在严格速率限制下可免费使用。目前,顶级 AI 模型定价呈上涨趋势,谷歌、OpenAI 等公司高端模型价格不断上升。谷歌 CEO 表示 Gemini 2.5 Pro 是公司目前最受开发者欢迎的 AI 模型,本月使用量增长 80%。
来源:IT之家

6.重庆邮电大学朱浩教授团队研发采茶机器人:2 秒采摘一片叶

重庆邮电大学朱浩教授团队研发的山地采茶机器人在重庆市永川区茶叶研究基地首发亮相。该机器人主要用于解决采茶工短缺问题,团队攻克诸多难题,实现采茶检测、识别、定位、采摘、回收一体化,采摘速度达人工水平,保证采摘标准一致性。
来源:IT之家

7.全球首个1型糖尿病专病大模型发布

全球首个1型糖尿病专病大模型日前在安徽医科大学“西递科学论坛”上发布。据介绍,该大模型以“权威知识中枢”“动态感知网络”“决策支持引擎”三大技术支柱为核心,集成65个专科场景临床路径、135部诊疗指南和2000万份真实病例数据,构建全球最大的1型糖尿病知识图谱
来源:科创板日报

8.广西高速公路启用AI治理拥堵

清明节前夕,由广西交通投资集团计算中心打造的“路网先知”智慧交通大模型全面启用,通过“预测—调度—处置”全链路数字化管理,为公众打造智慧出行新体验。与传统人力巡查形成鲜明对比的是,此次清明出行保障还启用了“空天地”协同治堵。不但在南宁东、长塘收费站等关键区域部署了无人机机场;还在崇左、钦州等易堵路段,部署车载无人机,实现全域巡查覆盖
来源:科创板日报

2025.4.4

1.Midjourney 发布 AI 图片生成模型 V7,可“吟唱”生图

Midjourney公司宣布旗下AI图片生成模型开启V7版本alpha测试,主要更新了“草图模式”。V7版本增强了文本理解能力,升级了细节纹理质感,提升了人物肢体等连贯性,并默认启用“个性化模型”功能。全新的“草图模式”在耗时与资源消耗方面仅为标准模式的50%,支持语音识别生成功能和指令扩展,可用中文进行语音识别生图
来源:IT之家

2.微软推出全新Copilot Search 挑战Google AI 模式

上个月,随着 AI 概览功能的扩展,Google还宣布了Google搜索中的新 AI 模式实验。借助 AI 模式,用户可以获得 AI 驱动的响应,并通过后续问题和相关网络链接进一步探索他们的查询。Google提到,AI 模式对于涉及更深入的探索、推理或比较的查询很有用。
来源:cnBeta

3.联合国预计2033年AI市场规模将达到4.8万亿美元 比肩德国经济

联合国贸发会议发布《2025年技术与创新报告》。报告指出,2033年人工智能市场规模预计将达到4.8万亿美元,大约相当于德国经济的规模,其收益仍然高度集中,人工智能成为数字化转型的重要力量。报告称,人工智能基础设施和专业知识的获取仍然集中在少数几个经济体,仅100家公司(主要在美国和中国)就占了全球企业研发支出的40%。
来源:科创板日报

4.ChatGPT会员北美大学生全免费,持续一个月,AI帮你过期末考试

OpenAI 为北美大学生提供免费 ChatGPT Plus 会员一个月,旨在帮助学生应对期末考试,提供大文件上传等全套福利,使用 SheerID 验证学生身份。此举是 OpenAI 在教育领域的重要举措,其在教育领域已活跃近一年,此前推出 ChatGPT Edu 并与多校合作。
来源:机器之心

5.微软CTO预测到2030年AI将生成95%的代码

本文主要探讨了人工智能在编程领域的应用及其对软件开发的深远影响。微软首席技术官凯文·斯科特预测到2030年,95%的编程代码将由人工智能生成,但强调这不会取代人类软件工程师,而是会改变他们的工作方式,使他们更多地成为人工智能的协调者。尽管目前人工智能系统存在局限性,但斯科特认为未来工具将更加个性化和情境感知。
来源:cnBeta

2025.4.3

1.百度飞桨框架 3.0 正式版发布,五大特性专为大模型设计

百度飞桨框架 3.0 正式版发布,专为大模型设计,具备五大特性:实现从底层硬件适配到顶层开发体验的全面进化,提出“动静统一自动并行”技术降低开发训练成本;“训推一体”理念打破训练与推理割裂状态,支持多款主流大模型高性能推理;在科学智能领域提升微分方程求解速度,适配主流开源科学计算工具
来源:IT之家

2.元鼎智能完成近10亿元融资,携手Fluidra加速全球市场布局

元鼎智能完成近10亿元人民币战略融资,投资方为全球泳池巨头Fluidra等。此次合作使元鼎智能打通全球泳池专业渠道,实现从线上到全渠道突破。元鼎智能凭借核心技术优势,已成全球销量前二品牌。与Fluidra合作将重塑行业格局,加速泳池机器人行业规模化、品牌化、全球化发展。
来源:元鼎智能Aiper

3.飞书多维表格上新DeepSeek-V3-0324版本

4月3日消息,钛媒体APP独家获悉,飞书多维表格 AI 字段捷径已正式上线 DeepSeek-V3-0324 模型,DeepSeek-V3-0324 在推理性能、前端开发能力、中文写作与搜索质量等方面进行了优化。接入DeepSeek-V3-0324 后,飞书多维表格AI字段捷径提供全网最高 500 万初始 TPM,批量运行依旧可以保持流畅体验。
来源:钛媒体

4.马斯克脑机接口公司 Neuralink 病患登记现已向全球开放

Neuralink公司宣布病患登记向全球开放。其PRIME研究旨在评估植入物和手术机器人的安全性及BCI的初始功能,帮助四肢瘫痪者通过思想控制外部设备。该研究涉及在大脑运动区域植入小型设备,解释神经活动以实现操作。马斯克计划今年完成20到30次植入,且其设备获FDA“突破性设备”认定,加速研发和上市。
来源:IT之家

5.DeepResearcher:交大、SII发布首个真实环境强化学习「AI研究者」模型

上海交通大学与SII联合发布了DeepResearcher模型,这是首个在真实网络环境中通过强化学习训练的AI研究模型。该模型通过强化学习扩展在真实网络环境中训练,展现出自主规划研究步骤、动态调整搜索策略、交叉验证不同来源信息等复杂行为模式。
来源:机器之心

6.腾讯混元多模态理解模型升级,元宝支持同时处理10张图片

腾讯升级了混元多模态理解模型,并在元宝平台上线新功能,使其能同时处理10张图片。该模型融合多种信息模式,深入理解图像元素关联,为语言模型推理提供丰富数据。用户现可在元宝平台多图上传,提升处理效率和体验,尤其在理清结构、提炼重点等场景下,元宝能给出更完整准确的理解与回答。
来源:AIYUN

7.OpenAI GPT-4.5成功通过图灵测试

2025年4月3日,一项研究预印本显示OpenAI的GPT-4.5在三方版本图灵测试中表现优异,被误认为人类的概率高达73%,远超随机猜测的50%。该研究还评估了其他模型,如Meta的LLaMa 3.1-405B、OpenAI的GPT-4o及早期聊天机器人ELIZA。
来源:AIYUN

8.谷歌 AI 笔记应用 NotebookLM 新增“发现资料”功能,可自动检索相关网络资源

谷歌旗下人工智能笔记应用NotebookLM推出“发现资料”功能,借助Gemini技术自动搜索网络资料,用户输入具体需求后,应用会筛选出最多10个相关资料并附摘要,还能像往常一样使用资料,该功能已向所有用户推出,预计一周内全面上线,目前未出现信息“幻觉”问题。
来源:IT之家

9.浙江大学与阿里云共建人工智能通识课

财联社4月3日电,浙江大学与阿里云联合宣布共建人工智能通识课,在“AI+行业”课程方面,从产、学、研角度,双方共同围绕教育、法律、设计、金融、人文和艺术等多个重点学科方向,将真实产业案例深度融入浙江大学人工智能通识课程体系。
来源:科创板日报

2025.4.2

1.Meta新款AI眼镜或年底发布:创新采用单目显示屏 适配AI聊天机器人

Meta计划于2025年底推出代号为Hypernova的AI眼镜,售价1000至1400美元,定位中端产品。该眼镜创新采用单目显示屏,仅在佩戴者右眼前方显示信息,具备APP运行、图像显示等功能,可通过手势控制和触摸操作。配备进阶摄像头和适配AI聊天机器人。
来源:科创板日报

2.代码显示谷歌正在开发儿童版 Gemini:能编故事,还能辅导作业

谷歌正在开发儿童版 Gemini,其能编故事、解答问题和辅导作业。该版本针对青少年用户设有“更严格”的内容政策和默认保护措施,其数据管理方式也备受关注,将按谷歌隐私政策及 Gemini 应用隐私声明处理。
来源:IT之家

3.阿里通义千问登顶全球开源模型榜首

全球最大的AI开源社区Hugging Face更新了大模型榜单,阿里通义千问近期开源的端到端全模态大模型Qwen2.5-Omni登上总榜榜首,DeepSeek-V3-0324和群核的SpatialLM-Llama-1B紧随其后,杭州公司霸榜全球开源模型榜单前三。
来源:科创板日报

2025.4.1

1.一张照片生成连贯全片!Runway Gen-4深夜发布,终于捅破AI视频多年的天花板

Runway Gen-4发布,实现AI视频关键突破。此前AI视频面临角色形象连贯性、情感表达细腻度等难题。Gen-4具世界一致性,保持人物、场景和物体连贯性,无需额外精调。还有参考图能力、场景覆盖、物理效果等亮点,能生成高质量视频片段。
来源:凤凰网科技

2.国家天文台联合阿里云发布国际首个太阳大模型

国家天文台联合阿里云发布了国际首个太阳大模型——“金乌”。“金乌”基于阿里通义千问系列开源模型打造,目前在M5级太阳耀斑预报上准确率超91%,为该级别太阳预报最高水平。
来源:科创板日报

3.北师大:训练出“AI太炎”古汉语大语言模型,能够高质量完成古典文献释读

北京师范大学在教育部新闻发布会上介绍了其在人工智能领域的成果。该校全方位建设关键领域语料库,全流程自主研发大语言模型“AI太炎”,该模型能高质量完成古典文献释读等任务,处于国际领先地位。
来源:凤凰网科技

4.刚刚,OpenAI 罕见宣布将开源推理模型!DeepSeek 给逼的

OpenAI CEO Sam Altman 宣布将在未来几个月内推出一款开放权重语言模型,这是自 GPT-2 以来的首次。开放权重介于完全闭源和开源之间,用户可基于权重修改并重新分发。OpenAI 将对模型进行评估以确保安全性和可靠性
来源: APPSO

5.亚马逊推出 Nova Act:可操控网页浏览器的 AI 智能体

亚马逊于 2025 年 4 月 1 日发布通用人工智能智能体 Nova Act,它能操控网络浏览器执行简单网络任务,还推出配套 SDK 帮助开发者构建智能体应用原型。Nova Act 由亚马逊 AGI 实验室研发,未来将为 Alexa + 提供关键功能支持。
来源:IT之家

6.OpenAI 宣布完成 400 亿美元超大规模融资,估值达 3000 亿美元

2025 年 4 月 1 日,OpenAI 宣布完成 400 亿美元私募融资,估值达 3000 亿美元。此次融资由软银集团领投,微软等公司参与。新资金将用于推动人工智能研究、扩大计算基础设施,约 180 亿美元用于 “星门” 基础设施项目,该项目旨在建立人工智能数据中心网络。
来源:IT之家

7.一些好莱坞电影公司通过 YouTube 上的虚假 AI 电影预告片赚钱

一些好莱坞电影公司通过 YouTube 上的虚假 AI 电影预告片赚钱,这违背了代表演员的工会的意愿。据Deadline报道,华纳兄弟、Discovery、派拉蒙和索尼影业将广告收入转移到自己身上,而不是执行版权保护并关闭广受欢迎的 Screen Culture 和 KH Studio 预告片账户。
来源:cnBeta

8.中金公司:AI玩具行业正逐步向“情感服务终端”变革

中金公司发布研报称,AI玩具以“人机共情”与“IP生态矩阵”为核心,实现线下场域内的“AI陪伴”,打造“沉浸式陪伴”新范式。其观察到当前国内外已有多家厂商入局,各项科技
来源:科创板日报

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...