2024年12月AI快讯

0 51

2024.12.31

1.Sam Altman确定OpenAI新产品，AGI、Agents、成人模式

12月31日消息，今天凌晨3点30，Sam Altman公布了2025年OpenAI即将发布的技术产品。分别是：AGI（通用人工智能）、Agents（智能体）、更好的GPT-4o升级版、更好的记忆存储、更好的上下文窗口、成人模式、深度研究特色功能、更好的Sora、更好的个性化定制。
来源：钛媒体

2.NVIDIA 完成对AI基础设施初创公司 Run:ai 的收购

英伟达（NVIDIA）完成了对以色列初创公司Run:ai的收购，Run:ai是一家帮助管理和优化人工智能硬件基础设施的公司。作为并购的一部分，Run:ai表示，其软件目前仅适用于NVIDIA的产品，但将开放源代码，这意味着NVIDIA的竞争对手（如AMD和英特尔）将能够为其硬件进行调整。
来源： cnBeta

3.“意图经济”来袭：新研究称 AI 工具将操纵用户在线决策

本文讨论了人工智能（AI）工具可能被用于操纵在线用户的决策的问题，剑桥大学的研究人员指出，AI工具将基于“意图经济”理解、预测甚至操纵人类意图，并将这些信息出售给企业以牟利，可能影响购物选择、投票对象等。研究人员警告，如果不加以监管，这种趋势可能对自由公正的选举、新闻自由和市场竞争产生重大影响。
来源：IT之家

4.可灵AI API新增【虚拟试穿V1.5】&【对口型】

可灵AI API宣布升级，推出虚拟试穿V1.5模型和对口型功能。虚拟试穿V1.5支持服装组合输入，并能生成试衣视频。对口型功能实现视频人物口型与配音同步，适用于电商、广告营销和泛娱乐领域。
来源：可灵AI

5.通义千问视觉模型直降80%，处理1700张图片仅需1块钱

12月31日，阿里云宣布本年度第三轮大模型降价，通义千问视觉理解模型全线降价超80%。其中Qwen-VL-Plus直降81%，输入价格仅为0.0015元/千tokens，创下全网最低价格；更高性能的Qwen-VL-Max降至0.003元/千tokens，降幅高达85%。按照最新价格，1块钱可最多处理约600张720P图片，或1700张480P图片。
来源：36氪

6.百川智能与北京市海淀区卫健委共建多模态医疗大模型

百川智能与北京市海淀区卫健委签署战略合作，共同打造“AI医生-真人医生双医协同”的基层医疗服务模式。双方将构建1个医疗领域的多模态大模型，该模型将具备疾病诊断、辅助决策、预后预测、慢病管理等能力，并且能够通过执业医师考试、中高级职称考试。
来源：科创板日报

7.孟晚舟发布华为新年致辞：人工智能的潮水正在涌入各行各业的生产系统

华为轮值董事长孟晚舟在新年致辞中指出，人工智能正广泛渗透至各行业生产系统，如钢铁、制造、铁路等，并通过5G新通话技术改善通信体验。她还强调了操作系统的重要性，提到华为在新能源建设、开源社区建设、产业链重构、大模型算力需求等方面的进展和成就，展望智能化浪潮带来的行业变革。
来源：科创板日报

2024.12.30

1.央视新闻首台 AIGC 晚会今晚举行，完整节目单公布

央视新闻首台AIGC晚会《AI奇妙夜》将于今晚播出，节目单公布，包括歌曲、舞蹈、AI数字人短片等丰富内容。晚会技术支持由快手的可灵AI提供，将在多个新媒体平台直播。
来源：IT之家

2.灵初智能发布首个基于强化学习的端到端具身模型 Psi R0

灵初智能发布了首个基于强化学习的端到端具身模型Psi R0，该模型支持双灵巧手协同进行复杂操作，能够完成长程灵巧操作任务，并具备跨物品、跨场景级别的泛化能力。Psi R0利用海量仿真数据训练智能体，并在业界率先完成开放环境中的长程任务，展现了较强的泛化能力和鲁棒性。
来源：IT之家

3.支付宝“扫一扫”推出新一代 AI 视觉搜索产品“探一下”

支付宝推出新一代AI视觉搜索产品“探一下”，基于自研多模态大模型技术，提供生成式搜索服务。用户可通过摄像头识别花草宠物、查询商品药品详情等，还能趣味解读萌宠照、宝宝照等。该产品已在支付宝首页上线，标志着蚂蚁AI战略的持续提速。
来源：支付宝

4.PixVerse V3.5 正式上线，模型全面升级，10秒极速生成

PixVerse V3.5版本今日上线，提供极速视频生成、动漫效果提升和首尾帧功能，旨在提高AI视频创作效率和质量，激发创作灵感。
来源：爱诗科技

5.X-ORIGIN-AI完成数千万元天使轮融资，打造具身智能陪伴机器人

12月30日消息，深圳玄源科技有限公司(以下简称X-ORIGIN-AI)近日完成数千万元天使轮融资，本轮融资由阿尔法公社领投，多名产业投资人跟投，仁辰资本担任独家财务顾问。融资资金将主要用于技术研发、人才招聘和市场拓展。X-ORIGIN-AI致力于打造伴随人类生命周期的全场景消费级AI机器人产品，其首款产品为面向儿童的AI陪伴机器人。
来源：钛媒体

6.Meta AI机器人即将建立Facebook账户并开始与人类用户互动

据英国《金融时报》报道，Meta 公司正计划推出人工智能机器人，可以像真人一样在 Facebook 上与用户互动。这些账户将可以生成内容，并拥有自己的 Facebook 个人主页。
来源：cnBeta

2024.12.27

1.可图 1.5 图像模型来啦！全新「AI模特」功能上线～

可灵AI发布了1.5版本的图像模型，重点升级包括画面质量提升、AI试衣新增AI模特功能、尾帧生成支持以及对口型功能音色和情感选择的增加。这些升级旨在增强用户体验，使AI技术在服装展示和视频制作中更加实用。
来源：可灵AI

2.腾讯发布全球首个重症医疗大模型：5秒总结病情 1分钟写病历

腾讯与迈瑞医疗联合发布了全球首个重症医疗大模型——启元重症大模型，该模型参数量达到万亿级，覆盖98%医学知识。它在浙江大学医学院附属第一医院ICU试点应用，能实时监测生命体征，5秒总结病情，1分钟生成病历，准确率达95%，极大提升诊疗效率。
来源：凤凰网科技

3.中工互联发布智工·工业大模型4.0

12月27日消息，中工互联发布新一代智工·工业大模型4.0产品，包括：工业知识管理引擎“知语”，AI-SCADA“智控”，以及训推一体化工控机“智脑”。发布会现场，中工互联董事长智振透露，该工业大模型产品已顺利通过网信办的大模型备案审核。
来源：钛媒体

4.OpenAI微软「秘密协议」首次曝光：盈利超过1000亿美元就是AGI！

OpenAI与微软的秘密协议将AGI定义为能产生至少1000亿美元利润的AI系统。目前OpenAI仍处亏损状态，预计2029年首次盈利。协议规定微软2030年前可获得OpenAI技术，但之后可能不行。OpenAI的AGI定义可能影响其与微软的合作，同时面临马斯克等的法律挑战。OpenAI转型为营利性公司，对AGI定义的影响尚不明确。
来源：新智元

5.国产大模型 DeepSeek-V3 开源：6710 亿参数自研 MoE

DeepSeek-V3是国产大模型，拥有6710亿参数，性能与GPT-4o相当。该模型在知识、长文本、代码、数学和中文等领域取得显著进步，特别是在算法代码和数学方面表现突出，生成速度提升至60TPS，是V2.5的3倍。官方提供了FP8权重和BF16转换脚本，并调整了API服务价格，同时为新模型设置了45天的优惠价格体验期。
来源：IT之家

6.联想新一代智能体系统“天禧 AS”发布，明年 Q2 落地 AI PC、AI 手机、AI 平板等

联想在2024年天禧生态伙伴大会上发布了新一代智能体系统“天禧 AS”，该系统将在2025年第二季度应用于联想的AI PC、AI手机、AI平板等产品中。天禧 AS 强调跨平台能力、个性化AI助理服务，并与火山引擎合作升级AI桌面助手。联想目标是活跃终端数量突破1亿，月活用户突破3亿。
来源：IT之家

7.ChatGPT、Sora又宕机 OpenAI：由上游提供商引起仍在修复

OpenAI的聊天机器人ChatGPT、视频生成模型Sora和API因上游提供商问题出现宕机，故障始于美国东部时间12月26日下午，超过1.5万名用户报告问题，主要涉及ChatGPT。微软作为独家云提供商报告其数据中心出现电源问题，影响北美地区。OpenAI正着手恢复服务，ChatGPT日活跃用户已超2亿。
来源：科创板日报

2024.12.26

1.洛图科技预计：到 2025 年，AI 功能在智能眼镜市场的销量渗透率将突破 60%

洛图科技的报告预测，到2025年，AI功能在智能眼镜市场的销量渗透率将超过60%。随着技术进步，智能眼镜在交互体验和情境感知能力上将有显著提升，可能不再依赖外部算力，实现主动服务模式。目前，AI功能产品在中国智能眼镜市场中占比不到20%，且存在交互限制。
来源：IT之家

2.联想集团与火山引擎达成合作，为 AI 桌面助手“如意”植入豆包大模型

联想集团与火山引擎合作，为其AI桌面助手“如意”植入豆包大模型，推出AI搜索、AI写作、AI聊天三大新功能，旨在提升用户体验，满足办公、学习、休闲娱乐等多样化场景需求。
来源：IT之家

3.智谱AI宣布开源GLM-PC的基座模型CogAgent-9B

智谱技术团队宣布开源GLM-PC的基座模型CogAgent-9B，旨在推动大模型Agent生态发展。CogAgent-9B是基于GLM-4V-9B训练的Agent任务模型，能够通过屏幕截图预测GUI操作，适用于多种GUI交互场景，并支持中英文屏幕截图和语言交互。相较于旧版，新模型在多个方面有显著提升。
来源： GLM大模型

4.阶跃星辰图像生成模型全新升级：支持「图生图」，一键风格迁移！

阶跃星辰的图像生成模型Step-1X-Medium全新升级，性能提升30%，增强了理解能力和图文一致性，支持“图生图”功能，一键风格迁移，优化中国风内容创作，并能呈现英文文案。目标是成为创作者得力助手，提供精准的创意输出。
来源：阶跃星辰

5.小米正搭建GPU万卡集群，将对AI大模型大力投入

小米正在构建自己的GPU万卡集群，以加大对AI大模型的投入。团队成立时已拥有6500张GPU资源，雷军在其中扮演领导角色。小米AI实验室大模型团队已组建，任命栾剑为负责人。小米在AI领域耕耘多年，正在研发轻量化、本地部署的大模型技术，部分场景效果已接近云端大模型。
来源：财联社

6.理想同学AI大模型APP抢鲜体验：识物精准、语音交互流畅

理想汽车在2024年12月26日宣布，其AI助手“理想同学”将扩展至手机端，APP计划于12月27日上线。该应用能够实时回答问题、识别物体，并提供流畅的语音交互体验。理想同学基于Mind GPT大模型，旨在为理想汽车用户及家庭成员提供一致的人工智能体验。
来源：快科技

7.有色金属行业首个人工智能大模型“坤安”在北京发布

2024年12月26日，中国有色金属工业协会和中铝集团联合发布了有色金属行业首个人工智能大模型“坤安”。该模型集成了百亿级数据和专业知识，具备自然语言处理、图像处理、预测和科学求解器等多项能力，旨在通过AI技术重塑有色金属行业的地质勘探、矿产开采、冶炼加工和再生利用等全场景业务流程，推动行业高质量发展。
来源：钛媒体

8.腾讯研究院发布DRT-o1系列模型，革新文学作品翻译

腾讯研究院发布DRT-o1系列模型，引入长思维链技术，显著提升文学作品翻译质量，特别是在处理比喻和隐喻等复杂修辞手法时。该模型通过多智能体框架和迭代优化提升翻译质量，GPT-4o润色确保流畅性。性能表现上，DRT-o1系列模型在BLEU分数和CometScore上均有显著提升，标志着文学作品翻译领域的重要革新。
来源：AIYUN

2024.12.25

1.OpenAI正着手开发人形机器人

据报道，OpenAI最近开始尝试自研人形机器人，报道引用两位知情人士的话称，本年度OpenAI陆续投资了人形机器人软硬件初创公司，如Figure和Physical Intelligence，并重启了四年前解散的内部机器人软件团队。现在，OpenAI可能正加速这一动作，该公司最近考虑开发一种类人机器人。
来源：钛媒体

2.QQ音乐上线14.0版本，发布首个AI大模型音效

36氪获悉，QQ音乐14.0版本正式上线。同时，发布了首个AI大模型音效，智能匹配听歌音效。此外，QQ音乐14.0版本还推出更多个性化功能，复古风、横屏播放器任用户挑选等。
来源： 36氪

3.Qwen开源视觉推理模型QVQ，更睿智地看世界！

Qwen开源了名为QVQ的视觉推理模型，该模型基于Qwen2-VL-72B构建，旨在提升人工智能的视觉理解和复杂问题解决能力。QVQ在视觉推理任务中表现出色，尤其在需要复杂分析思维的领域。尽管模型在视觉推理方面有所提升，但仍存在语言混合、递归推理和安全伦理等局限性。
来源：魔搭社区

4.中国信通院华东分院发布2024大模型场景落地应用报告

中国信通院华东分院今日发布《2024大模型价值新视界：场景落地应用全景洞察图谱》，图谱内容聚焦五大重点领域（科学智能、具身智能、自动驾驶、智能终端、在线新经济）和六大行业（教育、文化传媒、金融、医疗、城市治理、智能制造）。
来源：科创板日报

5.消息称谷歌正为 Chrome 浏览器引入“Glic”AI 功能

谷歌正在Chrome浏览器中测试名为“Glic”的AI功能，基于Gemini Live大模型构建。该功能将后台运行，具备独立设置页面，并需获取麦克风和位置权限。用户可通过浮动面板或侧边界面调用AI，以获取网页见解和查询信息。谷歌此举并非首创，微软Edge已嵌入Bing Chat。
来源：IT之家

2024.12.24

1.宇树科技 B2-W 工业轮足机器狗天赋觉醒：上山入水，还能驮着人跑

IT之家 12 月 24 日消息，宇树科技昨日（12 月 23 日）发布微博，宣布旗下的 Unitree B2-W 工业轮足机器狗在发布量产 1 年后，觉醒了更多极限天赋技能。
来源：IT之家

2.智能眼镜竞争愈演愈烈：Meta将为雷朋眼镜添加显示屏

据金融时报报道，Meta 计划最早于明年为其雷朋智能眼镜添加显示屏，因为这家美国科技巨头正加快打造轻量级耳机的计划，以取代智能手机成为消费者的主要计算设备。
来源：凤凰网科技

3.斯坦福研究员进驻白宫，特朗普AI班底集结！

斯坦福HAI的研究员Michael Kratsios，被任命为白宫科技政策办公室主任，及特朗普政府的总统科技助理。从马斯克、AI沙皇到HAI研究员，这几轮任命彰显出：美国开始在国家层面推动科技政策发展，大力发展AI。
来源：新智元

4.马斯克旗下xAI公布60亿美元融资部分投资者名单，含贝莱德、英伟达等

12月24日消息，埃隆·马斯克旗下的人工智能初创公司xAI在社交平台X上公布60亿美元融资部分投资者名单，a16z、贝莱德和英伟达参与了公司C轮融资。其它投资者包括富达、Kingdom Holdings和摩根士丹利。
来源：钛媒体

5.微软计划在365 Copilot中整合非OpenAI模型以降低成本

据路透社报道，微软公司正致力于减少在生产力软件市场对OpenAI的依赖。这一举措主要聚焦于微软旗下的Microsoft 365 Copilot产品。该产品是一款人工智能助手，与同名生产力套件一同推出。目前，Copilot由OpenAI的技术提供支持，但微软正计划将自定义和开源的人工智能模型整合进该助手。
来源：AIYUN

2024.12.23

1.OpenAI 12天12场发布会讲了啥？12条重要发布速览

OpenAI在12天内举办了12场直播发布会，针对不同用户群体推出了多项重要更新和新功能。包括完整版o1模型、Sora正式版、新一代推理模型o3的发布，ChatGPT集成进苹果系统，新增打电话和应用协作功能，以及对高级语音模式和ChatGPT搜索的升级。这些更新旨在提升用户体验和智能交互能力。
来源：钛媒体

2.百川智能发布全链路领域增强金融大模型Baichuan4-Finance

12月23日，百川智能发布全链路领域增强大模型Baichuan4-Finance。据介绍，通过行业首创的领域自约束训练方案，Baichuan4-Finance实现了金融能力和通用能力同步提升的效果，极大提高了金融场景的整体可用性。
来源：36氪

3.星动纪元端到端原生机器人大模型ERA-42发布

近期，星动纪元端到端原生机器人大模型ERA-42正式发布，即“纪元原生机器人大模型”。据介绍，ERA-42是世界范围内首个真正的五指灵巧手具身大模型。公司展示了其与自研五指灵巧手星动XHAND1结合后的灵巧操作能力，已学会使用不同工具完成100多种复杂灵巧的操作任务
来源：科创板日报

4.阶跃星辰完成数亿美元B轮融资，上海国有资本与腾讯投资入股

12月23日消息，国内大模型创业公司阶跃星辰宣布完成B轮融资，总额达数亿美元，本轮核心投资方包括上海国有资本投资有限公司及其旗下基金，战略与财务投资人包括腾讯投资、五源资本、启明创投等。该轮融资将继续投入基础大模型研发，强化多模态与复杂推理能力，通过产品和生态加大覆盖C端应用场景。
来源：钛媒体

5.xAI 正在为其 Grok 聊天机器人测试独立的 iOS 应用

埃隆-马斯克（Elon Musk）的人工智能公司 xAI 正在为其聊天机器人 Grok 测试独立的 iOS 应用程序。该应用目前已在澳大利亚和几个国家上线，处于测试阶段，可以访问来自网络和 X 的实时数据，并提供生成式 AI 功能，如改写文本、总结长段落、少量问答，还可以根据文本提示生成图片。
来源：cnBeta

6.奥利奥母公司引入新型 AI 工具，可用来研发新口味零食

亿滋公司开发了一种新型AI工具，用于研发新口味零食并缩短研发周期。这款工具已应用于70多种产品，包括“无麸质金色奥利奥”和更新趣多多饼干配方。AI根据指定特征优化感官因素，并考虑成本、环境影响及营养成分等参数。
来源：IT之家

2024.12.20

1.OpenAI活动第十一弹：扩展ChatGPT桌面应用功能，新增多项应用集成

OpenAI在其“12 Days of OpenAI”活动中宣布，ChatGPT桌面应用新增了对Apple Notes、Notion、Quip等应用的支持，并扩展了对多种编程环境的集成。此次更新旨在提升用户体验，使ChatGPT能够执行更多任务，并保护用户隐私。OpenAI还计划在2025年分享更多关于智能体转型的信息。
来源：AIYUN

2.Instagram将推AI视频编辑功能，用户可轻松修改视频元素

Instagram计划推出基于Meta的Movie Gen AI模型的视频编辑功能，允许用户通过文本指令修改视频元素。该功能旨在简化视频编辑过程，使创作者无需专业技能即可实现创意。尽管预览效果流畅自然，但实际效果还需等待正式发布后验证。
来源：AIYUN

3.Grammarly 收购 AI 公司 Coda，将为企业推出大模型 LLM 助手 / 语法检查工具

本文报道了Grammarly收购AI公司Coda的消息，旨在将Grammarly转型为全面的AI生产力平台，为企业推出大模型LLM助手和生产力工具。Coda的首席执行官Shishir Mehrotra将接任Grammarly的新CEO，而现任CEO Rahul Roy-Chowdhury将卸任转任顾问。
来源：IT之家

4.快手可灵 1.6 模型发布：文本响应度、画面美感及运动合理性均有“明显提升”

快手发布了可灵1.6模型，该模型在文本响应度、画面美感及运动合理性方面有明显提升，支持标准和高品质视频生成模式。高品质模式下，官方宣称效果比1.5模型提升195%。新模型在动态质量、画面质量方面显著提升，但部分功能如首尾帧、运动笔刷等暂不支持。
来源：IT之家

5.国家电网发布国内首个千亿级多模态电力行业大模型，并与阿里巴巴达成AI合作

12月19日，国家电网有限公司在京发布光明电力大模型，由阿里巴巴等提供大模型及开发平台等技术支持。据介绍，光明电力大模型是面向电力行业的千亿级多模态大模型。此次“光明电力大模型”发布，阿里巴巴提供了从基础大模型到AI开发平台“百炼专属版”等全栈技术支持。
来源：36氪

6.Perplexity 完成了一轮 5 亿美元的融资

人工智能搜索引擎Perplexity完成了5亿美元融资，估值达到90亿美元。融资由Institutional Venture Partners领投。在AI搜索领域竞争加剧的背景下，Perplexity面临OpenAI的ChatGPT搜索和Google的AI功能竞争。Perplexity在应对版权诉讼的同时，收购了Carbon公司，以增强其AI系统连接外部数据源的能力。
来源： cnBeta

7.谷歌发布首个AI推理模型

谷歌发布实验性的“Gemini 2.0 Flash Thinking”模型，这是谷歌首个AI推理模型。该模型能明确展现自己的思考过程，来解决复杂的问题，推理能力更强。该模型目前已在Google AI Studio和Vertex AI平台上线。谷歌表示，这只是推理之旅的第一步，未来这些推理能力可能会集成到Gemini 2.0系列主要模型中。
来源：科创板日报

8.国内首款量产AI拍摄眼镜来了这些公司参与

国内首款量产AI拍摄眼镜——闪极AI拍拍镜由闪极科技发布，目标年出货量超50万台，销售金额超6亿。该产品已完成超亿元A轮融资，支持数十家大模型接入，并与多家企业合作打造技术与硬件。CEO张波强调，产品将专注于语音UI，未来可能增加AR显示模块。产业链面临的挑战包括超轻量化和长续航问题。
来源：科创板日报

9.掘金东南亚，AI译制成主流，短剧如何撬动全球百亿市场？

本文探讨了中国短剧在全球市场的发展趋势，特别是东南亚市场的潜力。随着国内短剧市场的增长放缓，海外市场尤其是东南亚显示出巨大的增长空间。短剧出海策略从本土化制作转向译制剧，以降低成本并提高产能。
来源：凤凰网科技

10.先一步用上AI的跨境人，已经赢在路上

本文探讨了人工智能（AI）在跨境电商领域的应用，强调了AI在提升品牌竞争力、精细化运营和品牌建设中的关键作用。亚马逊推出的AI工具如Amelia、Rufus和Gen AI，以及Open AI的AI视频工具Sora，均旨在提高效率和降低成本。AI工具的应用覆盖了跨境电商的全链路工作，帮助卖家提升运营效率和品牌影响力。
来源：凤凰网科技

2024.12.19

1.OpenAI活动第十弹：推出ChatGPT电话及WhatsApp服务

OpenAI在“Shipmas”活动中推出了ChatGPT的新服务，允许用户通过电话或WhatsApp与AI助手进行交互。美国用户可免费通话15分钟，全球用户可通过WhatsApp进行文本交流。服务旨在降低AI使用门槛，扩大ChatGPT的覆盖范围。
来源：AIYUN

2.Odyssey创业公司开发AI工具，可将文本或图像转为3D渲染

Odyssey创业公司开发了名为Explorer的AI工具，能够将文本或图像转化为3D渲染效果，特别擅长创建逼真场景。该工具使用高斯溅射技术，可加载到多种创意工具中进行编辑，有望应用于实景电影、超逼真游戏等领域。尽管存在局限性，如生成速度慢、分辨率低，Odyssey致力于与创意专业人士合作，而非取代他们。
来源：AIYUN

3.免费版 GitHub Copilot 上线，VS Code 每月补全 2000 次代码

微软宣布GitHub Copilot Free免费订阅服务，允许全球1.5亿开发者在VS Code中免费体验AI辅助编程。该服务提供每月2000次代码生成和补全，以及50次聊天信息调用，以回答编程问题、解释代码、排查BUG等。用户可选择Anthropic的Claude 3.5 Sonnet或OpenAI的GPT-4o模型，并支持第三方智能体。
来源：IT之家

4.消息称苹果正在与腾讯、字节谈判，以将其人工智能功能整合到在中国销售的iphone中

12月19日消息，消息人士称，苹果正在与腾讯、字节跳动谈判，以将其人工智能功能整合到在中国销售的iphone中。
来源：钛媒体

5.图森未来正式更名为CreateAI

今日，图森未来（TuSimple）正式启用全新品牌CreateAI，并发布多项在生成式AI领域的重大进展：获著名武侠IP《金庸群侠传》正版授权，将开发一款大型武侠开放世界RPG游戏；并将与动画导演河森正治及动画制作公司株式会社白组展开合作，利用AIGC技术推动创作者在展示宏大宇宙文明方面实现更多突破。
来源：科创板日报

6.字节即梦 AI 图片模型 2.1 上线，号称“一句话生成海报”

字节跳动旗下即梦AI推出2.1版本图片模型，该模型能够通过简单的指令控制文字颜色和位置等元素，实现“一句话生成海报”的功能。官方提供了艺术风格、画面主体描述和文字排版描述的常用提示词模板，以辅助用户快速生成中英文图像海报。
来源：IT之家

2024.12.18

1.OpenAI活动第九弹：发布o1推理模型API及多项开发者更新

OpenAI在“12天发布”活动的第九天宣布了面向开发者的多项更新，包括o1推理模型API的开放、新版本的GPT-4o模型、实时API功能增强、微调API的偏好微调功能，以及Go和Java的软件开发工具包。o1模型新增视觉能力，提升了AI的实用性和可及性，对企业而言，这些更新意味着现在是探索新功能的好时机。
来源：AIYUN

2.OpenAI暂无计划推出Sora视频生成模型API

OpenAI宣布目前无计划推出Sora视频生成模型的API，尽管面临谷歌和亚马逊等竞争对手已推出类似API服务的竞争压力。OpenAI的决策可能与当前容量问题有关，需要时间解决高访问量带来的挑战。
来源：AIYUN

3.字节发布豆包视觉理解、3D 生成等新模型，豆包音乐模型可生成 3 分钟作品

字节跳动在火山引擎Force大会上发布豆包视觉理解模型和3D生成模型，提供多模态大模型能力，价格低廉。豆包大模型旗下多款产品更新，包括通用模型pro、音乐模型和文生图模型2.1版本。明年春季将推出视频生成模型1.5版和端到端实时语音模型，解锁新能力。
来源：IT之家

4.微信公众号新增“作者朗读音色”功能：可生成作者音色全文音频

微信推出“作者朗读音色”功能，允许公众号文章通过作者音色生成全文音频，提升阅读体验。作者需通过“公众号助手”App录制例句以复刻语气和情感，每个公众号可创建多个音色。此功能目前处于灰度测试阶段，将逐步开放。此外，微信还新增了“AI 配图”功能。
来源：IT之家

5.人工智能初创公司Databricks获100亿美元新融资，估值达620亿美元

12月18日消息，人工智能初创公司Databricks在新一轮融资中筹集了高达100亿美元，估值达到620亿美元。本轮融资获得了超额认购，由Thrive Capital领投，并吸引了包括Andreessen Horowitz、DST Global、GIC、Insight Partners和WCM Investment Management在内的投资者参与。
来源：钛媒体

6.Pika 2.0横扫Sora惊艳全网，一键颠覆广告业！上传自拍秒变好莱坞大片，和明星同框不是梦

斯坦福天才少女开发的Pika 2.0 AI视频编辑软件引发全网关注，其强大的场景元素功能、文本对齐和物理学理解使其在AI视频编辑领域脱颖而出。Pika 2.0不仅提升了视频制作的效率和质量，还降低了广告制作的成本，为广告行业带来革命性变化。
来源：新智元

2024.12.17

1.OpenAI 向所有用户免费开放 ChatGPT 搜索功能，新增实时搜索和高级语音

OpenAI宣布向所有用户免费开放ChatGPT搜索功能，并进行了算法优化，支持实时内容获取和高级语音搜索对话。用户可以在移动端更高效地使用搜索功能，ChatGPT集成了地图功能，提供地理位置信息和路线规划。搜索模型基于GPT-4o，利用合成数据生成技术进行训练，直接向用户提供所需信息。
来源：IT之家

2.谷歌发布 AI 图像生成新工具 Whisk，支持上传多张图片以图生图

谷歌发布了AI图像生成工具Whisk，该工具支持用户上传多张图片以图生图，无需长文本提示。Whisk允许用户指定图像的主题、场景和风格，并通过骰子图标自动填充图像提示。谷歌强调Whisk旨在快速视觉探索，而非精细编辑，并使用Imagen 3图像生成模型。
来源：IT之家

3.Meta的智能眼镜获得实时AI和翻译功能

Meta为其雷朋智能眼镜新增实时AI和翻译功能，通过内置摄像头实现所见即所得的对话，并理解上下文以提供连续服务。新增的实时翻译功能支持英语与西班牙语、法语、意大利语之间的互译。此外，眼镜还能通过Shazam识别歌曲。这些功能目前向美国和加拿大的Meta眼镜用户开放。
来源： cnBeta

4.谷歌版Sora来了，4K高清暴击OpenAI！视频生图新卷王，更理解物理世界

谷歌发布Veo 2视频生成模型，超越OpenAI的Sora，以4K分辨率和对物理世界深刻的理解领先。同时推出Imagen 3图像生成模型和Whisk工具，后者允许用图像而非文本作为提示生成图像。谷歌在AI视频和图像生成领域缩小与OpenAI的差距，为内容创作者提供新的可能性。
来源：新智元

5.图森未来正式发布图生视频大模型“Ruyi”

12月17日消息，今日，图森未来宣布正式发布图生视频大模型“Ruyi”，并将Ruyi-Mini-7B版本正式开源，用户可以从huggingface上下载使用。据介绍，Ruyi是一个基于DiT架构的图生视频模型
来源：钛媒体

6.Meta AI与斯坦福大学联合推出Apollo视频多模态模型

Meta AI与斯坦福大学联合发布了Apollo视频多模态模型，旨在推动视频理解的边界。Apollo通过规模一致性、高效视频采样技术、双重视觉编码器等创新，提供了处理长达一小时视频的能力，并在多个基准测试上超越了规模更大的模型。Apollo系列为视频问答、内容分析和交互式系统等应用提供了实用的解决方案。
来源：AIYUN

7.MidJourney AI图像生成器推出新功能，强化用户个性化体验

MidJourney AI图像生成器新增功能，包括受Pinterest启发的“灵感板”和支持多个性化配置文件，旨在提升用户个性化体验。新功能通过分析上传图片创建风格配置文件，并允许用户创建多个定制版本，同时简化了自定义模型设置流程，提高了图像排序速度，降低了新用户的使用门槛。
来源：AIYUN

8.智谱完成30亿元融资：新战投和国资加入总估值超200亿元

12月17日消息，大模型独角兽智谱宣布近期完成新一轮30亿元融资。新的投资方包括多家战投及国资，君联资本等老股东继续跟投。据了解，本轮融资将用于智谱GLM大模型系列的进一步研发，从回答问题到解决复杂推理、多模态任务，更好地支撑行业生态发展。
来源：科创板日报

2024.12.16

1.Kimi又上新！抢先实测视觉思考模型k1，甚至比o1更聪明

月之暗面科技有限公司发布的视觉思考模型k1，基于强化学习技术，支持端到端图像理解和思维链技术，能力覆盖数学、物理、化学等基础科学领域，并在基准测试中超越全球标杆模型。k1模型在图像理解、复杂场景处理、端到端推理能力上表现出色，并展现出古代文献分析等涌现能力。
来源：机器之心

2.无问芯穹开源全球首款端侧全模态理解模型 Megrez-3B-Omni，支持图像、音频、文本理解

无问芯穹宣布开源全球首款端侧全模态理解模型Megrez-3B-Omni，该模型支持图像、音频、文本理解，具备高精度的图像、文本和语音理解能力，并在多轮对话场景中表现出色。Megrez-3B-Instruct作为其纯语言模型版本，在推理速度上显著领先同精度模型。
来源：IT之家

3.阶跃星辰推出国内首个千亿参数端到端语音大模型“ Step-1o”

阶跃星辰发布了国内首个千亿参数端到端语音大模型“Step-1o”，该模型通过一体化语音理解与生成，提升了信息传输效率和情感表达，支持语音、文本混合输入输出，并具备快速反应和打断能力。Step-1o能深度理解并模仿声音特征，通过自学优化回复质量，提供专业建议和情感陪伴。模型即将接入跃问App，提供实时语音通话服务。
来源：腾讯网

4.360gpt2-o1 上线：“会思考”的国产大模型，探索 AI 推理新极限

360公司推出了自研AI大模型360gpt2-o1，该模型在数学和逻辑推理任务上表现出色，通过合成数据优化、模型后训练和“慢思考”范式实现了技术突破，并在多项权威评测中取得了优异成绩。
来源：IT之家

5.DeepSeek-VL2开源，AI视觉模型新突破：MoE架构引领新潮流！

DeepSeek-VL2模型的开源标志着AI视觉领域的新突破，其采用MoE架构，训练数据量翻倍，并引入多项新能力如梗图理解、视觉定位等，支持动态分辨率图像处理。该模型有效降低训练成本，提升性能，适用于科研、数据分析等多个领域，现已开放下载和使用。
来源：搜狐网

6.Meta推出Video Seal神经水印系统，助力AI生成视频版权保护

近日，Meta宣布成功研发并推出一款名为Video Seal的新型神经水印系统，该系统专为识别和保护经过编辑的人工智能生成视频而设计。水印在视频中完全隐形，但可通过特定检测手段验证视频的原始来源，有效防止视频被恶意篡改或盗用。
来源：AIYUN

7.微信正式发布多模态大模型POINTS1.5

微信发布了多模态大模型POINTS1.5，该模型在性能上超越了其他业界领先的模型，并在多个benchmark测试中表现惊艳，尤其在数学相关领域。模型沿用LLaVA架构，更新了视觉编码器，并采用NaViT风格处理任意分辨率图像。POINTS1.5还增强了双语支持，特别是在中文预训练和指令微调数据集的构建上
来源：网易

2024.12.13

1.OpenAI技术直播第六弹：ChatGPT“睁眼看世界” AI陪伴/AI教育新标杆？

OpenAI技术直播第六弹展示了ChatGPT的新功能，包括高级语音模式、实时视频通话、屏幕共享和图像上传。这些功能使ChatGPT能够更自然地与用户互动，提供情绪价值，并在教育和陪伴工具方面展现出巨大潜力。
来源：科创板日报

2.Meta 发布 Motivo AI 模型，打造更逼真元宇宙体验

Meta公司近日推出了Meta Motivo人工智能模型，旨在通过控制类人数字智能体的动作来提升元宇宙体验。该模型基于行为训练，使用无监督强化学习算法，能够执行类似人类的行为，无需额外训练或规划。
来源：IT之家

3.Adobe 上线“Project See Through”修图功能，利用 AI 模型充当 CPL 偏振镜消除照片窗户反射

Adobe 推出“Project See Through”功能，利用 AI 技术消除照片中的窗户反射，类似于数字CPL偏振镜。该功能已在Adobe Camera Raw上线测试，并计划未来集成至Lightroom。Adobe强调，尽管AI模型经过数千张图片训练，但效果并非完美，物理CPL偏振镜仍是完全消除反射的首选。
来源：IT之家

4.北京大学携手字节跳动，共建“豆包大模型联合实验室”

北京大学与字节跳动公司合作成立“豆包大模型联合实验室”，旨在推动大模型技术的研发与应用。合作将提升大模型性能，培养实践能力，为AI领域输送人才，并巩固字节跳动在AI领域的领先地位。
来源：AIYUN

5.微软在研究预览计划中首次推出全新生成式AI模型 Phi-4

微软发布了其Phi系列的最新AI模型Phi-4，该模型在数学问题解决等方面有显著改进，得益于训练数据质量的提升。Phi-4目前仅在Azure AI Foundry平台上可用，且限于研究用途。微软将Phi-4的性能提升归功于高质量合成数据集和后期训练改进。Phi-4的推出标志着微软在小型语言模型领域的进一步发展。
来源： cnBeta

6.工信部决定成立部人工智能标准化技术委员会

36氪获悉，工业和信息化部决定成立部人工智能标准化技术委员会，编号为MIIT/TC1，主要负责人工智能评估测试、运营运维、数据集、基础硬件、软件平台、大模型、应用成熟度、应用开发管理、人工智能风险等领域行业标准制修订工作。
来源：36氪

7.豆包概念引爆调研潮机构“踏破”上市公司门槛

人工智能（AI）题材再次火热于A股。这一次，豆包概念股成为继Kimi概念股、智谱概念股之后，市场上“最靓的仔”。伴随着行情的升温，具有豆包概念的相关上市公司也被机构“踏破了门槛”。近日，中科蓝讯、乐鑫科技、中科创达、海天瑞声等多只抖音豆包概念股获得了上百家机构调研。
来源：e公司

2024.12.12

1.谷歌推出Gemini 2.0 称其为代理时代的新人工智能模型

谷歌CEO桑达尔·皮查伊宣布推出Gemini 2.0，这是谷歌在代理时代推出的新人工智能模型，具备多模态功能，如图像和音频输出。Gemini 2.0将被应用于谷歌的产品中，包括搜索功能，以解决更复杂的主题和多步骤问题。该模型建立在定制硬件上，如谷歌的第六代TPU——Trillium，为Gemini 2.0的训练和推理提供支持。
来源：新浪财经

2.OpenAI活动第五弹：ChatGPT与Siri实现深度整合上线

OpenAI在“ship-mas”活动中宣布了ChatGPT与Apple Intelligence的深度整合，该功能已在iOS和macOS平台上线。Siri现在能够提供由ChatGPT生成的回复，并附带链接查看完整答案。macOS用户获得文档分析功能，iPhone 16用户新增相机按钮以直接访问ChatGPT视觉功能。
来源：AIYUN

3.OpenAI回应“宕机”：ChatGPT、Sora流量已基本恢复

12日消息，OpenAI更新事故报告称，API、ChatGPT和Sora流量已基本恢复，“我们正在监测这一情况，以确保问题得到全面解决”。今日稍早时候，OpenAI证实其聊天机器人ChatGPT经历全球范围宕机，ChatGPT、Sora及API均受到影响。
来源：科创板日报

4.MidJourney 上线 Patchwork：用户化身“造物主”，AI 构造故事宇宙

Midjourney公司推出“Patchwork”叙事工具，旨在通过AI技术帮助用户构建沉浸式故事世界。该工具适用于小说作者、游戏开发者和艺术家等，支持创建角色、风格、背景故事等元素，并通过Web应用程序实现实时协作和共享。
来源：IT之家

5.全球首个“AI 程序员”Devin 全面开放：可独立开发 / 修复 bug

全球首个“AI 程序员”Devin全面开放，月费500美元。Devin能独立开发、修复bug，并通过AI公司面试。与传统自动编程工具不同，Devin能理解复杂的编程上下文，并根据需求主动调整解决方案。
来源：IT之家

6.巨人网络发布“千影”有声游戏大模型，加码“游戏+AI”赛道

36氪获悉，巨人网络在2024年度中国游戏产业年会上发布“千影 QianYing”有声游戏生成大模型，加码“游戏+AI”赛道。“千影 QianYing”包含游戏视频生成大模型YingGame、视频配音大模型YingSound，实现了有声可交互游戏视频生成的新突破。
来源：36氪

7.中关村科金发布得助大模型平台2.0，已联合构建200＋大模型场景应用

中关村科金在2024大模型技术与应用创新论坛上发布了得助大模型平台2.0，该平台具备算力调度、模型训练和应用构建三大核心能力，已与合作伙伴构建200多个大模型场景应用。总裁喻友平提出“三级引擎战略”，认为大模型行业已进入精细化落地阶段，平台+应用+服务是企业大模型落地的最佳路径。
来源：钛媒体

8.谷歌发布实验性AI代码代理Jules，助力开发者高效编码

谷歌推出了名为“Jules”的实验性AI代码代理，旨在帮助开发者修复代码错误，提高编码效率与质量。Jules具备多步计划制定能力，支持Python和Javascript，并能自动准备拉取请求。谷歌CEO表示，公司超过四分之一的新代码由AI生成，Jules将处理错误修复等耗时任务，让开发者专注于核心构建。
来源：AIYUN

2024.12.11

1.OpenAI发布会Day4：Canvas终于免费可用，改稿写论文，代码调试，可视化，GPTs也能用了

OpenAI在第四天的发布会上宣布Canvas平台免费开放，与GPT-4深度集成，支持Python代码运行和自定义GPT。Canvas旨在提高写作、编程和数据可视化的效率，通过现场演示展示了其在创作、文章修改、代码调试和自定义AI助手方面的应用。
来源：凤凰网科技

2.消息称字节跳动提升即梦产品优先级，尝试打造“AI 时代的抖音”

字节跳动提升即梦产品优先级，旨在打造“AI时代的抖音”，以更视觉化的用户体验和更低的使用门槛超越当前的AI对话类产品。内部分析认为，基于文本的对话类产品可能不是最理想的产品形态，且付费订阅模式在中国难以实现，广告空间受限。
来源：IT之家

3.LG 发布 EXAONE 3.5 开源 AI 模型：长文本处理利器、独特技术有效降低“幻觉”

LG人工智能研究院发布了EXAONE 3.5开源AI模型，包含三个不同参数的版本，旨在提升长文本处理能力并降低“幻觉”现象。该模型在基准测试中表现优异，特别是在实际可用性、长文本处理和编码数学方面。LG计划在2025年扩展模型的上下文窗口并发布大型动作模型以增强AI能力。
来源：IT之家

4.iOS 18.2和iPadOS 18.2正式发布新增Genmoji和更多Apple Intelligence功能

苹果公司发布了iOS 18.2和iPadOS 18.2版本更新，引入了多项Apple Intelligence功能，包括Genmoji、ChatGPT集成和Image Playground。更新还涉及照片、邮件、Safari等应用的改进，并扩展了功能的国际覆盖范围
来源： cnBeta

5.清华系AI公司面壁智能完成新一轮数亿元融资，CEO李大海公布全员信

清华系AI公司面壁智能完成数亿元新一轮融资，由多家知名投资机构领投和跟投，万甲资本担任财务顾问。公司计划加速端侧AI大模型的商业化，提供高性能、低能耗的AI技术。CEO李大海在全员信中强调大模型竞争进入新阶段，感谢投资方支持。
来源：钛媒体

6.DeepSeek AI发布新版模型，实现人工智能领域重大突破

DeepSeek AI发布了DeepSeek-V2.5-1210模型，这是人工智能领域的重大突破。该模型在数学、编程、写作和推理方面性能卓越，提升了解决复杂问题的能力，并改善了用户体验。DeepSeek AI团队将继续推动AI技术的创新和应用。
来源：AIYUN

7.YouTube AI自动配音功能扩展至数十万知识频道，未来将覆盖更多内容

YouTube宣布AI自动配音功能扩展至数十万知识频道，支持英语与其他八种语言的相互转换，为全球内容共享提供便利。该功能自动生成配音视频，节省创作者时间，同时YouTube承诺持续提升技术以提高配音自然度和准确性。
来源：AIYUN

2024.12.10

1.OpenAI正式推出AI视频生成模型Sora 会员无需额外付费

12月10日消息，OpenAI宣布正式向用户开放人工智能(AI)视频生成模型Sora，该系统可以根据文本提示生成逼真的视频，这距离OpenAI首次公开预览这款产品已过去了10个月时间。
来源：凤凰网科技

2.字节跳动豆包电脑版上线视频生成功能，内测用户每日可免费生成十支视频

字节跳动的PixelDance视频生成模型在豆包电脑版开启内测，用户每日可免费生成十支视频。该模型于9月底首次发布，旨在帮助创作者和企业客户提升视频创作效率和表现力。豆包负责人表示，将持续优化功能，以更好地服务用户。
来源：IT之家

3.Reddit测试对话式AI搜索工具快速找到感兴趣的帖子内容

随着越来越多的人工智能公司开始利用 Reddit 的数据来开发自己的聊天机器人，这个流行的在线论坛网站已经开始测试自己的一项新的人工智能对话功能。该公司周一宣布，这项名为”Reddit Answers”的功能允许访问者提出问题，并接收整个平台上相关回复和主题的策划摘要。
来源：cnBeta

4.小米系首家具身大模型公司小雨智造完成亿元A轮融资

12月10日消息，据报道，小米投资的首家大模型机器人公司，北京小雨智造科技有限公司（以下简称小雨智造）完成亿元A轮融资。本轮融资由北京信息产业发展投资基金独家投资
来源：钛媒体

5.谷歌发布突破性量子计算芯片“Willow”

谷歌量子计算实验室近日宣布了一项重要里程碑。该公司透露，其最新研发的量子计算芯片“Willow”能够在不到五分钟的时间内完成一项计算挑战，而谷歌表示，世界上最快的超级计算机完成同一任务需要约10万亿亿年，这个时间远远超过了宇宙的年龄。
来源：AIYUN

6.用AI解决“哑巴英语” OpenAI投资的初创公司估值达到10亿美元

AI语言学习平台Speak在完成7800万美元融资后，估值达到10亿美元，成为独角兽企业。Speak专注于提升用户英语口语能力，其服务基于OpenAI的AI模型和语音技术。公司计划扩大源语言数量以增加潜在用户，并提供企业服务。Speak不绑定任何语言考试，而是旨在提高用户在真实世界中的交流能力。
来源：科创板日报

2024.12.9

1.马斯克X平台Grok聊天机器人向免费用户开放

埃隆·马斯克的人工智能公司xAI推出的AI聊天机器人Grok，现已对所有X用户免费开放。用户无需再支付X Premium费用，即可使用Grok的AI聊天服务。根据最新的更新，X用户每两小时可以获得10次免费提示，同时还能生成最多10张图片。
来源：钛媒体

2.智谱首个免费多模态模型 GLM-4V-Flash 上线

12 月 9 日消息，继 8 月语言模型 GLM-4-Flash 免费后，智谱 AI 在今天上线第一款免费的多模态模型 —— GLM-4V-Flash。GLM-4V-Flash 不仅基于 4V 系列模型的各项优秀能力，更在图像处理上实现了精确度的提升。
来源：IT之家

3.备战 DALL・E 3：谷歌“最强文生图模型”Imagen 3 正式上线

谷歌宣布其高级图片生成模型Imagen 3正式上线，该模型能够理解长文本内容并生成“照片级”图片，同时具备图片编辑和定制化功能。为避免版权争议，谷歌引入了多项安全技术，包括数字水印和安全过滤器。
来源：IT之家

4.X公司推出新AI图像生成器Aurora，逼真度大幅提升

据报道，X公司为Grok提供了一款名为“Aurora”的新型AI图像生成模型，该模型能够创造出比Grok以往图像生成器更为逼真的图像。根据TechCrunch的报道，Aurora似乎对生成内容类型的限制较少，与Grok的其他模型类似。这款新工具位于“Grok 2 + Aurora测试版”选项中，用户在尝试几次后将遇到X Premium订阅付费墙的限制。
来源：AIYUN

5.Meta发布700亿参数Llama 3.3，支持多语言

Meta公司发布了700亿参数的大型语言模型Llama 3.3，该模型在关键性能上与4050亿参数的Llama 3.1相当，但效率更高，能在标准工作站上运行。Llama 3.3支持8种语言，采用自回归架构和优化的Transformer架构，并通过SFT和RLHF微调以符合人类偏好。
来源：AIYUN

6.广电总局再发管理提示规范AI“魔改”短视频

广电总局发布《管理提示（AI魔改）》，规范AI技术在短视频领域的应用，要求短视频平台清理AI“魔改”视频，严格审核AI内容，并显著提示AI生成内容。同时，国内人工智能领域发展迅速，包括机器人、AI医院、AI云建设等项目，展现了人工智能技术的多元化应用。
来源：科创板日报

2024.12.6

1.OpenAI 活动首日：完整版 o1 推理 AI 模型登场、月费 200 美元的 ChatGPT Pro 订阅亮相

OpenAI启动了为期12天的“shipmas”新品发布周期，首日推出完整版o1推理AI模型和月费200美元的ChatGPT Pro订阅服务。o1模型将向ChatGPT Plus和Teams用户开放，随后扩展至Enterprise和Edu用户。ChatGPT Pro订阅服务提供无限使用OpenAI的o1、GPT-4o及Advanced Voice模式，并独家享有特别版本的o1模型，即o1 pro模式。
来源：IT之家

2.iOS 18.2即将发布大量AI功能值得关注

iOS 18.2候选发布版本带来多项AI功能，包括Apple Intelligence在文本编辑和图像生成中的应用，Siri与ChatGPT的集成，以及iPhone 16系列的视觉智能功能。更新还涉及邮件应用的分类功能和FindMy的改进。预计12月初全面发布。
来源：cnBeta

3.可读取屏幕内容的微软AI工具Copilot Vision推出预览版

微软发布了AI工具Copilot Vision的预览版，该工具能分析屏幕上的内容并提供帮助以完成各种任务。目前仅向美国Copilot Pro用户开放，适用于Microsoft Edge浏览器和部分网站。微软强调，Copilot Vision不收集或存储用户数据，会话结束后删除所有相关数据，旨在提供辅助信息，不涉及付费网站信息和用户行动代表。
来源：cnBeta

4.京东公布10款 AI 营销应用产品，目前已训练最高810亿参数大模型

京东云言犀智能营销平台发布10款AI营销应用产品，包括言犀小智2.0、智能混剪平台等，旨在提升商家与用户的智能交互效率和转化率。京东云强调大模型需“实干派”落地，避免价格战，以实现健康的商业模式。京东云已训练30亿至810亿参数的AI模型，适配不同场景需求，并在营销领域实现规模实践。
来源：钛媒体

5.马斯克密友空降白宫！特朗普官宣首位AI和加密货币「沙皇」人选

特朗普任命David Sacks为首位AI和加密货币领域的负责人，即「沙皇」。Sacks是马斯克的密友，曾任PayPal COO，将以特殊政府雇员身份任职，每年最多工作130天。他将负责制定相关政策，保护网络言论自由，构建加密货币法律框架，并领导总统科技顾问委员会。
来源：新智元

6.马斯克的xAI获得约60亿美元股权融资

12月6日消息，马斯克旗下xAI公司当地时间5日表示，已筹集了约60亿美元的股权融资。此次融资正值xAI希望通过扩建田纳西州孟菲斯市的超级计算机来容纳至少一百万个图形处理单元，从而扩大其在人工智能行业的影响力。
来源：钛媒体

7.天工AI推出彩页功能，聚焦AI阅读质感+创作效能

天工AI推出新功能“天工AI彩页”，旨在提升阅读体验和创作效率。该功能支持一键生成彩页，提供6大功能模块和11种排版组合，拥有70个主题和500多个文本样式，满足不同创作需求。自上线以来，平台新增彩页超过32万个，日均新增超1万个，包括许多高赞、高评论、高转载的优质作品。
来源：量子位

8.黄仁勋投了越南首富的公司英伟达在AI医疗再落一子

英伟达与越南政府合作建立AI研究中心，推进当地AI发展，并收购了越南Vingroup集团投资的医疗AI技术公司Vinbrain，深化在医疗行业的AI应用。Vinbrain专注于AI技术在医疗领域的应用，如影像分析和智能诊断。英伟达在AI医疗领域的布局不断扩大，预计到2030年全球智能医疗市场将达到6000亿美元。
来源：科创板日报

2024.12.5

1.OpenAI官宣：圣诞大礼包连更12天！满血版o1、Sora确认亮相

12月5日起，OpenAI将开始连续12天的圣诞马拉松。根据外媒The Verge的内部消息，满血版o1和Sora会正式发布。消息一出，网友们沸腾了。奥特曼也提前预热，称AGI将在2025年实现
来源：新智元

2.DeepMind发布Genie 2 一款可以生成可玩3D世界的AI模型

Google DeepMind发布了Genie 2，这是一款能够根据单个图像提示生成可玩3D世界的AI模型。该工具旨在训练和测试人工智能代理，允许它们与动态环境进行交互。Genie 2具备动作控制、记忆世界部分、即时创建新内容、模拟复杂交互、反事实模拟和真实世界图像提示等功能。
来源： cnBeta

3.阿里巴巴将在美国推出人工智能电子商务工具“PIC COPILOT”

市场消息：阿里巴巴将在美国推出人工智能电子商务工具“PIC COPILOT”。
来源：36氪

4.8 分钟预测 15 天：谷歌 GenCast AI 模型登场，树立天气预报新标杆

谷歌DeepMind团队发布AI气象模型GenCast，该模型能提前15天提供快速、精准的天气预报，准确度超越了欧洲中期天气预报中心的ENS系统。GenCast利用扩散模型技术，结合历史气象数据训练，能在8分钟内生成15天的预测，且在多个测试中表现出色，尤其在预测极端天气和台风路径方面。
来源：IT之家

5.A股收评：三大指数集体上涨，AI应用板块爆发

2024年12月5日，A股市场三大指数集体上涨，成交额达14986亿元。AI应用板块因OpenAI新产品直播展示而爆发，多股涨停。机器人、互联网电商、培育钻石等板块涨幅领先，而食品加工、猪肉养殖等板块跌幅居前。市场整体呈现涨多跌少的态势，3823只股票上涨，1407只股票下跌。
来源：钛媒体

6.豆包支持带有指定文字的图片生成，App已开启测试

近日，字节跳动旗下智能AI助手豆包升级文生图能力，支持一键生成指定文本。用户可以在生图提示词中加入文本要求，如“一张带有「新年快乐」的图”，即可生成带有指定文字的图片。目前该功能已经在豆包APP开启测试，即梦也已小范围测试。
来源：机器之心

7.Poolside与AWS合作推出定制化AI编码辅助工具

Poolside与公共云服务提供商Amazon Web Services (AWS) 建立了合作关系。此次合作意味着通过亚马逊的Bedrock服务平台，用户能够获取到由Poolside提供的基础模型和生成式AI助手。
来源：AIYUN

8.花旗分析师：人形机器人未来25年或创造7万亿美元的市场

花旗全球洞察分析师Rob Garlick和Wenyan Fei指出，虽然机器人技术已有一定历史，但近期的一系列技术突破，尤其是人工智能的进步，为人形机器人产业注入了新的活力。预计未来25年，人形机器人市场规模将达到惊人的7万亿美元。
来源：科创板日报

9.OpenAI每周活跃用户数量已达3亿

《科创板日报》5日讯，当地时间12月4日，OpenAI联合创始人兼首席执行官Sam Altman在一场活动上透露，OpenAI的每周活跃用户数量飙升至3亿。
来源：科创板日报

2024.12.4

1.字节跳动 AI 助手豆包上线图片理解功能，上传图片即可“读图”

字节跳动的AI助手豆包新增图片理解功能，用户可通过上传图片识别内容并查询相关信息。豆包在市场影响力和用户活跃度方面表现良好，但功能丰富度和用户体验有待提升。
来源：IT之家

2.亚马逊宣布推出Nova多模态AI模型系列

亚马逊网络服务（AWS）在re:Invent 2024大会上宣布推出Nova多模态AI模型系列，包括四种基于文本的模型（Micro、Lite、Pro、Premier）和两个生成模型（Nova Canvas和Nova Reel）。
来源： cnBeta

3.文心一言上线“深度写作”专业版功能

百度AI的文心一言推出“深度写作”功能，允许AI在创作时主动搜索引用参考资料，增强文章细节和针对性。用户可上传本地资料或从网盘导入素材，AI将根据项目重点完善内容。此外，AI还能动态管理素材库，提供多种写作模板，并在双十二期间推出特惠活动。
来源：百度AI

4.谷歌推出Veo视频生成模型，并开放Imagen 3图像生成技术

谷歌在Vertex AI平台上推出了Veo视频生成模型，并开放了Imagen 3图像生成技术。Veo能将文本或图像转化为高质量视频，而Imagen 3则用于生成逼真图像。这些技术将推动创意工作流程的革新，降低成本，并配备SynthID水印技术以保障AI技术的安全性。
来源：AIYUN

5.OpenAI从谷歌DeepMind挖角三名高级工程师专注于多模态AI研发

12月4日消息，OpenAI宣布，已从竞争对手谷歌DeepMind聘请三位高级计算机视觉与机器学习工程师：Lucas Beyer、Alexander Kolesnikov和Xiaohua Zhai。这三人将加入OpenAI在瑞士苏黎世新设立的办公室，专注于多模态人工智能的研发。
来源：科创板日报

2024.12.3

1.联合李少红、贾樟柯等名导中国首个AIGC导演共创计划作品即将推出

快手今日宣布，“可灵 AI”导演共创计划作品将于 12 月 6 日上线。据介绍，该计划由快手视频生成大模型产品“可灵 AI”，联合李少红、贾樟柯、叶锦添、薛晓路、俞白眉、董润年、张吃鱼、王子川、王卯卯共 9 位导演共同发起。题材涵盖奇幻、志怪、亲情、动画等多元类型。
来源：凤凰网科技

2.百度宣布12月4日发布Apollo开放平台10.0，基于自动驾驶大模型ADFM重构算法

12 月 3 日消息，百度宣布将于明日（12 月 4 日）10:30 正式发布 Apollo 开放平台 10.0，并将同步推出相关技术公开课。据介绍，Apollo 开放平台 10.0 基于自动驾驶大模型 ADFM 重构算法，框架、模块、系统全面升级，技术应用更高性能、更低成本、更安全。
来源：凤凰网科技

3.腾讯大模型上线文生视频并宣布开源

12月3日消息，今日，腾讯混元大模型宣布文生视频功能上线，一句话就能生成视频。此次开源的视频生成大模型，参数量130亿，是当前最大的视频开源模型。目前，该模型已在Hugging Face平台及Github上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费使用和开发生态插件。
来源：快科技

4.Arc浏览器背后的公司正在开发一款新的AI产品名为Dia

Arc浏览器公司正在开发一款名为Dia的AI产品，这是一款旨在通过人工智能工具简化日常互联网任务的网络浏览器，计划于2025年初推出。Dia具备从互联网获取事实、提供创意、总结信息等功能，并能执行复杂任务，如自动添加商品到购物车或发送个性化信息。公司强调AI将是一个全新的环境，建立在网络浏览器之上。
来源：cnBeta