2024年11月AI快讯

0 40

2024.11.29

1.中国石油发布 700 亿参数昆仑大模型，与中国移动、华为、科大讯飞联手打造

昆仑大模型在人工智能领域取得重大进展，参数量从330亿升级至700亿，提升了自然语言处理、语音视觉识别等能力。中国石油与中国移动、华为、科大讯飞合作，展示了43个专业和通用应用创新场景。昆仑大模型成为中国能源化工行业首个备案的大模型，标志着中国石油在智能化发展和产业升级方面迈出坚实步伐。
来源：中国石油报

2.张军：腾讯混元大模型 12 月 3 日将上线视频生成能力

腾讯公司宣布其混元大模型将于12月3日上线视频生成能力，用户可通过腾讯元宝App申请试用，企业客户可通过腾讯云接入。该模型参数量达130亿，并将开源。腾讯混元大模型2.0版本已发布，新增AI应用板块和功能，包括AI搜索、阅读等。腾讯混元Turbo模型采用MoE架构，推理效率提升100%，成本降低50%。
来源：IT之家

3.欧盟推出多语言AI模型Teuken-7B 支持24种官方语言

近日，一款名为Teuken-7B的语言模型已在Hugging Face平台上线，该模型出自欧盟的OpenGPT-X研究项目，并以开源形式提供。这款模型的独特之处在于其对欧洲联盟24种官方语言的支持，而不仅仅是英语。Teuken-7B的设计初衷即为平衡多语言处理能力，大约50%的训练数据来源于非英语的欧洲语言。
来源：AIYUN

4.SoftBank拟15亿美元收购OpenAI员工股份

SoftBank旗下的Vision Fund 2提出以每股210美元的价格，从OpenAI员工手中收购价值15亿美元的股份，这一报价与OpenAI 1570亿美元的估值相匹配。员工需在12月24日前做出决定。
来源：AIYUN

5.我去华强北走了一圈，发现这里正被另一种AI包围

华强北，中国电子制造的核心地带，正逐渐被AI技术所包围。从AI翻译机到AI吉他、AI手机壳等产品，AI已成为华强北的新潮流。尽管AI硬件大战充满不确定性，华强北以其完备的硬件链条和强大的组装能力，为AI软件开发者提供了一个巨大的硬件备选池，成为AI硬件创新的爆发地。
来源：硅星人Pro

6.智谱清言插件上线AutoGLM功能支持数十个网站的“无人驾驶”

29日消息，今日，大模型独角兽智谱CEO张鹏宣布，即日起智谱清言插件上线AutoGLM功能，支持搜索、微博、知乎、Github等数十个网站的“无人驾驶”。在现场demo演示里，智谱清言插件自动完成了“搜索芒果tv，打开小巷人家，播放最新一集，发弹幕结局打卡”，全程没有人的干预。
来源：科创板日报

2024.11.28

1.阿里推出QwQ-32B模型，挑战OpenAI推理技术

阿里巴巴的Qwen团队发布了QwQ-32B-Preview，一个拥有325亿参数的AI模型，支持32,000词输入提示，在某些基准测试中性能超越OpenAI模型。该模型在逻辑谜题和数学问题解决上表现优异，但存在局限性，如语言切换和常识推理不足。
来源：AIYUN

2.Kimi 联合清华大学等机构，开源共建大模型推理架构 Mooncake

月之暗面科技有限公司与清华大学等机构联合发布了开源项目Mooncake，旨在构建以KVCache为中心的大模型推理架构，以提升推理效率、降低成本和响应延迟。该项目通过以存换算的创新理念减少算力开销，提升推理吞吐量，并已在GitHub开源。
来源：Kimi 开放平台

3.GPT-4o 系列 AI 模型加持，微软 LlamaParse 文档解析能力全面升级

微软宣布在其文档解析器LlamaParse中集成Azure OpenAI端点，利用GPT-4o系列AI模型提升非结构化数据提取和多模态文档解析能力，并与Azure AI Search向量数据库无缝衔接，构建检索增强生成（RAG）工作流程。
来源：IT之家

4.埃隆·马斯克的xAI或将发布一款面向消费者的应用程序

据报道，埃隆-马斯克的人工智能公司 xAI 正准备发布一款独立的消费者应用程序。据《华尔街日报》报道，即将推出的应用程序将类似于 OpenAI 的 ChatGPT 应用程序，允许用户通过个人设备访问 xAI 的 Grok 聊天机器人。
来源： cnBeta

5.Ai2发布OLMo 2：全面开源的语言模型新版本

近日，AI研究机构Ai2推出了其开源语言模型系列中的最新成员——OLMo 2。与LLama、Gemma等流行的开源权重模型不同，OLMo（全称Open Language Model）不仅提供模型权重，还包含了开发工具、数据集、训练指南等全套资源，实现了全方位的开源。
来源：AIYUN

6.360上线“纳米搜索”App，周鸿祎将与百度上演“AI 搜索大战”

360集团研发的全新生成式 AI 搜索产品“纳米搜索” App日前已上架到苹果App Store和应用宝等安卓应用商店，直接对标百度、阿里夸克、秘塔AI、Perplexity AI等多个 AI 搜索类产品。
来源：钛媒体

2024.11.27

1.Hugging Face发布SmolVLM：轻量级视觉语言模型，推动AI普及化

Hugging Face推出了SmolVLM，一个20亿参数的视觉语言模型，旨在解决性能与资源需求之间的平衡问题，特别是在资源受限的设备上。SmolVLM以其优化的架构和高效的令牌吞吐量，在笔记本电脑和消费级GPU上展现出色性能，同时保持准确性和输出质量，推动了AI的普及化。
来源：AIYUN

2.Anthropic的Claude AI现在可以用各种语言风格回答问题

Anthropic 宣布其 Claude 人工智能（AI）聊天机器人现在可以用多种风格做出回应，以更好地匹配用户的沟通偏好、语气和结构，可以选择的新风格包括正式、简洁和解释，此外也可以自定义风格。
来源： cnBeta

3.摩托罗拉海外推出 Moto AI 首次公测，双击手机背部即可随时访问

摩托罗拉推出Moto AI全球公测，包括Motorola Razr 50 Ultra等设备用户可通过双击手机背部访问AI功能，如信息摘要、会议记录、数字备忘录等，提升用户体验。
来源：IT之家

4.推动发射智能化，火箭院“航天超脑”AI 大模型平台亮相

中国运载火箭技术研究院（火箭院）推出了“航天超脑”AI大模型平台，旨在推动航天发射智能化。该平台集成了航天领域60多年的数据资源，提供数字专家、智能运维、排故助手等服务，覆盖设计到运维的全方位需求，并已在远程测控大厅应用，计划进一步推广和深化功能。
来源：IT之家

5.昆仑万维“天工大模型4.0”o1版（Skywork o1）正式启动邀请测试

11月27日，昆仑万维正式推出具有复杂思考推理能力的系列模型——“天工大模型4.0” o1版（Skywork o1）。据介绍，Skywork o1是由昆仑万维集团发布的具有慢思考推理能力的系列模型，这是国内第一款中文逻辑推理能力的o1模型。
来源：36氪

6.OpenAI“后院失火”？ Sora疑遭恶意泄露因内测人员“破防”：报酬太少

OpenAI的视频生成大模型Sora内测版本疑似被泄露，泄露者为参与内测的艺术家，他们自称“Sora PR Puppets”，并公开了一封控诉信，指责OpenAI未给予足够的报酬并要求他们编造正面叙述。泄露后，OpenAI关闭了所有艺术家对Sora的早期访问权限，并强调Sora仍处于研究预览阶段，公司致力于在创造力与安全措施间取得平衡。
来源：科创板日报

2024.11.26

1.英伟达发布音频生成模型 Fugatto，可对声音进行修改

英伟达发布了名为Fugatto的音频生成模型，该模型能够根据文本或音频请求创建和转换音乐、声音和音效。Fugatto集成了多种功能，包括文本生成音乐、修改乐器音色和音乐片段编辑等，旨在为创意专业人员提供自动化工具和无限创意可能。该技术展示了人工智能模型向多任务处理发展的趋势，未来可能应用于广告、教育等多个领域。
来源：品玩

2.IMAX 开启 AI 翻译 / 配音新时代：支持 140 种语言，打破语言壁垒、开启全球观影新体验

IMAX与迪拜AI初创公司Camb.AI合作，推出AI语言翻译技术，旨在将IMAX原创内容和纪录片翻译成140种语言。该技术通过DubStudio平台实现快速、高效且情感表达准确的高质量翻译，提升翻译效率和质量，打破语言壁垒，促进全球优质娱乐资源共享，为独立电影提供本地化方案。
来源：IT之家

3.吴恩达开源大模型套件：11 个模型平台一种方式调用，已获星标超 1.2K

吴恩达开源的大模型套件aisuite集成了11家知名大模型平台，提供统一接口以简化不同模型的调用过程，显著提升开发效率，已获超1.2K星标。该套件目前专注于聊天功能，未来将扩展其他用例。
来源：IT之家

4.OpenAI为苹果“快捷指令”应用添加SearchGPT选项

OpenAI在其ChatGPT应用程序中新增了”打开 SearchGPT”选项，允许用户通过iPhone和iPad上的“快捷指令”应用启动ChatGPT并执行网络搜索。SearchGPT旨在提供更优的网络搜索体验，包括链接和上下文信息，并支持后续问题。目前，ChatGPT Plus和ChatGPT Teams用户可以使用该功能，未来将扩展至免费用户。
来源：cnBeta

5.Anthropic推出可将AI系统直接连接到数据集的工具

Anthropic发布了一款名为模型上下文协议（MCP）的开源工具，该工具能够将AI系统直接连接到所需数据源，以提高性能并简化开发人员为AI模型创建数据集代码的工作。MCP支持跨所有AI系统和数据源工作，已有编码软件开始使用MCP构建AI代理以执行任务，这可能促进AI系统与多个数据源的连接。
来源： cnBeta

6.Luma AI推出高性能图像生成模型，Dream Machine全面升级

Luma AI宣布推出高性能图像生成模型Dream Machine，该模型基于文本提示创建图像和视频，现已向创作者和营销人员开放。Dream Machine支持详细提示和图像提示，提供新的用户界面和个性化功能，以及新的Photon Image Model，面向不同用户群体提供多种订阅服务。
来源：AIYUN

2024.11.25

1.中国铁塔发布经纬大模型：可服务于山水林田湖草沙等空间治理领域

中国铁塔在科技创新大会上发布了“经纬大模型”，这是一个服务于空间治理领域的人工智能模型。该模型基于大量图像训练，拥有180亿参数，提升了目标检测的精确率和召回率。它还具备2000亿参数的多模态能力，支持目标检测、零样本开放检测、图文问答及推理功能，有望在多个行业得到应用。
来源：IT之家

2.人工智能辅助诊断列入国家医保局立项指南，AI产业链迎发展良机

人工智能辅助诊断技术被国家医保局纳入立项指南，标志着AI技术在医疗领域的应用得到官方认可和支持。此举旨在促进成熟的AI技术进入临床，减轻患者负担，并为AI产业链上市公司带来发展机遇。
来源：钛媒体

3.Magiclab开发第三代人形机器人，正与字节旗下豆包大模型洽谈合作

钛媒体独家报道，MagicLab正在开发第三代人形机器人，旨在提升流水线作业能力，并与字节跳动的豆包大模型探讨合作。公司计划进行新一轮融资，以支持产品的规模化落地应用。MagicLab由追一控股全资拥有，成立于2023年12月。
来源：钛媒体

4.主流AI硬件缺一个爆款 AI玩具先卖断货了

本文探讨了AI玩具市场的兴起和潜力。尽管主流AI硬件尚未出现爆款，AI玩具却已在市场上取得显著成功。特斯拉机器人玩具、字节跳动的AI陪伴玩偶“显眼包”和“BubblePal”等产品销量强劲，显示出AI技术在提升玩具体验和刺激消费需求方面的潜力。
来源：钛媒体

5.“谷子经济”为何在A股爆火？泡泡玛特打样二次元文化联动AI

A股市场“谷子经济”概念股因二次元文化和AI技术的应用而爆火。泡泡玛特作为行业示范，通过自主IP打造和渠道建设，推动了业绩增长。谷子经济涉及动漫、游戏IP的授权、制作、销售，与AI技术结合，增强产品设计、营销和IP授权能力。预计2023-2029年，中国二次元产业规模将增长至5900亿元。
来源：科创板日报

6.aiOla发布Whisper-NER：引领语音识别技术的开源AI模型

aiOla发布了Whisper-NER，一个开源AI模型，它结合了语音转录和命名实体识别（NER），提高了转录准确性和隐私保护。该模型基于OpenAI的Whisper架构，使用Transformer技术实时识别关键实体，适用于医疗、客户服务和法律等领域，减少了工作流程中的步骤，提高了效率。
来源：AIYUN

2024.11.22

1.OpenAI 首席产品官：ChatGPT 网页端本周引入高级语音模式

OpenAI首席产品官宣布，ChatGPT网页端将引入高级语音模式，该功能基于GPT-4o模型，能处理原生音频并模仿情绪。付费用户可通过点击语音图标启动此功能，但有使用量上限。OpenAI正优化交互方式以减少打断感，并计划未来对免费用户开放此功能。
来源：IT之家

2.超九成 AI 厂商选择在B站和用户沟通，AIGC 相关内容观看量突破 300 亿次

B站董事长兼CEO陈睿在2024年世界互联网大会乌镇峰会上发表演讲，强调B站作为中国AI最强社区的地位，拥有超过7000个兴趣圈层，每月8000万用户观看AI相关内容，AIGC内容观看量突破300亿次。他提出兴趣是学习的最佳动力，对年轻人的培养至关重要，认为这将为行业带来无限可能。
来源：IT之家

3.谷歌Gemini突发试验版模型，重回竞技榜第一！新版GPT-4o只领先了1天

谷歌发布了最新试验版模型Gemini-Exp-1121，迅速超越OpenAI的GPT-4o，重回竞技榜第一。该模型在代码能力、推理能力和视觉理解能力上均有显著提升，特别是在视觉能力方面。同时，OpenAI在ChatGPT测试版本中被发现有“实时摄像”功能代码，预示着可能的语音和视觉识别功能上线。
来源：量子位

4.OpenAI考虑推出浏览器，挑战Chrome业务面临被剥离的谷歌

11月22日消息，据报道，OpenAI正在考虑推出一款新型浏览器，并将其与ChatGPT聊天机器人紧密结合，让用户在网上搜索信息时更加方便快捷，且OpenAI还在和一些做旅行、食物、房地产和购物网站的公司谈合作，想要给他们的网站加上这种智能搜索功能。
来源：钛媒体

5.Brave搜索引擎新增AI聊天模式让后续查询更智能

Brave 最近宣布，它正在通过一种新的人工智能聊天模式改进其搜索服务。该功能允许用户根据他们的初始搜索提出后续问题，从而更容易深入研究主题，而无需从头开始。它现在免费向全球所有用户开放。
来源：cnBeta

6.YouTube Shorts的梦幻屏幕功能现在可以生成AI视频背景

YouTube 周四宣布其Shorts短视频梦幻屏幕功能现在可以让创建人工智能生成的视频背景。到目前为止，梦幻屏幕只能创建图像背景。这项新功能的实现得益于 Google DeepMind 的人工智能视频生成模型 Veo的集成，它可以创建各种电影风格的 1080p 视频剪辑。
来源： cnBeta

7.首个可保留情感的音频LLM！Meta重磅开源7B-Spirit LM

Meta最近开源了一个7B尺寸的Spirit LM的多模态语言模型，能够理解和生成语音及文本，可以非常自然地在两种模式间转换，不仅能处理基本的语音转文本和文本转语音任务，还能捕捉和再现语音中的情感和风格。
来源：新智元

8.IDEA团队发布DINO-X通用视觉大模型

2024年 IDEA大会上，IDEA团队发布了DINO系列最新的DINO-X通用视觉大模型，拥有真正的物体级别理解能力，实现开放世界（Open-world）目标检测。与此同时，IDEA团队还推出行业平台架构，通过一个大模型基座，结合通用识别技术结合，让模型不需重新训练，就可边用边学，支撑多种多样的B端应用需求。
来源：36氪

2024.11.21

1.OpenAI 发布更新版 GPT-4o 模型夺回聊天机器人基准测试头名

OpenAI 发布了改进后的 GPT-4o 模型，该模型在创意写作能力上进行了显著提升，能提供更自然、吸引人的写作，并优化了文件处理能力。新模型在全球范围内可供 ChatGPT 用户使用，并在 Chatbot Arena 基准测试中夺回第一名，超过 Gemini-Exp-1114 模型，得分从 1365 上升到 1402
来源： cnBeta

2.消息称 AI 创企边塞科技被蚂蚁集团收购：公司会独立运营，投资人已退出

蚂蚁集团收购了AI初创公司边塞科技，后者将独立运营，创始人吴翼加入蚂蚁集团担任首席科学家。边塞科技估值8000万美元，但收购价低于估值，导致投资人亏损。边塞科技专注于大语言模型和强化学习，旨在提供更好的智能体验。
来源：IT之家

3.世界最大AI Agent生态系统！微软推出全新“自主AI智能体”

微软推出了全球最大的AI智能体生态系统，改变企业AI工作流程。超过10万家公司使用Copilot Studio创建AI智能体，提高效率和生产力。微软宣布企业可在智能体中使用Azure目录中的1800个LLM模型，减少对OpenAI独家模型的依赖。
来源：凤凰网科技

4.李彦宏：百度将于2025年初发布新版大模型

1月21日消息，百度2024年第三季度财报电话会上，百度创始人、董事长兼首席执行官李彦宏透露，百度将于2025年初发布文心大模型的新版本，以巩固在基础模型上的领先优势。
来源：钛媒体

5.扣子OpenAPI突进智能语音战场！点满低延时、定制化、随时打断和音色克隆技能

扣子Coze OpenAPI是一款集成了低延时、定制化、随时打断和音色克隆等功能的智能语音对话工具，它不仅能够实现智能体生态的整合，还能通过AI技术让用户在电脑上体验无限游戏。该工具支持多种应用场景，如查询天气、新闻、口语练习等，并且可以被集成到微信小程序、应用或游戏中。
来源：机器之心

6.埃隆·马斯克的xAI融资50亿美元，估值跃升至500亿美元

埃隆·马斯克的人工智能公司xAI在最新一轮融资中筹集了50亿美元，使得公司估值翻倍至500亿美元。这笔资金将用于增加AI模型的英伟达芯片数量，提升训练效率和性能。xAI的Colossus 100k H100训练集群被誉为世界上最强大的AI训练系统，将进一步扩大规模
来源：AIYUN

2024.11.20

1.推理模型 DeepSeek-R1-Lite 预览版上线，号称媲美 OpenAI o1-preview

DeepSeek-R1-Lite推理模型预览版上线，该模型使用强化学习训练，推理过程包含反思和验证，思维链长度可达数万字。在数学、代码和复杂逻辑推理任务上，DeepSeek-R1-Lite取得了与OpenAI o1-preview相媲美的推理效果，并公开了完整的思考过程。
来源：IT之家

2.“乐坛 ChatGPT”歌曲生成平台 Suno 发布 v4 版本，引入 AI 歌词生成助手

AI歌曲生成平台Suno发布了v4版本，该更新在音质、歌词精准度和歌曲结构上进行了显著提升。新版本引入了“Remaster”功能以提升旧曲目音质，以及“AI歌词助手ReMi”以增强歌词创作。此外，还升级了个性化封面设计和Covers、Personas功能，以增强音乐创作的个性化和连贯性。
来源：IT之家

3.大模型六小龙第一起分拆：零一万物计划独立 AI 游戏公司

零一万物计划分拆成立AI游戏公司“绿洲”，由副总裁马杰领导，估值数千万美元。分拆旨在专注AI搜索应用和to B服务，同时减轻零一万物负担，让绿洲独立融资。此举反映了大模型公司从追求技术突破到注重商业化和财务指标的转变。
来源：晚点LatePost

4.引进零一万物联创，「闪极科技」完成数千万元A轮融资

「闪极科技」宣布完成数千万元人民币A轮融资，由光远投资领投，未来光锥前沿科技基金、云天励飞跟投。资金将用于新品“闪极AI拍摄眼镜”的市场拓展、技术研发及人才建设。该产品预计12月19日发布，主打持久续航、高清拍摄和AI能力。AI眼镜市场竞争激烈，「闪极科技」通过引入前谷歌大脑工程师潘欣加强AI研发
来源：智能涌现

5.“清华AI医院”上线：首批42位AI医生亮相，诊断覆盖300余种疾病

紫荆智康开发的“紫荆AI医生”系统上线，首批42位AI医生覆盖21个科室，诊断能力覆盖300余种疾病。该系统由清华大学智能产业研究院孵化，旨在提供低廉、便捷和优质的医疗服务，预计2025年上半年向社会开放。
来源：钛媒体

6.昆仑万维推出“天工大模型4.0”4o版（Skywork 4o）

11月20日消息，昆仑万维今日正式推出“天工大模型4.0”4o版（Skywork 4o），以及新产品“实时语音对话助手Skyo”。据介绍，Skyo作为一个智能语音互动产品，具备快速响应、多语言对话能力，它能够主动发起对话
来源：钛媒体

2024.11.19

1.Mistral 发布 Pixtral Large 多模态 AI 模型：登顶复杂数学推理，图表 / 文档推理超过 GPT-4o

Mistral AI公司发布了具有1240亿参数的多模态AI模型Pixtral Large，该模型基于Mistral Large 2，擅长处理文本和图片。Pixtral Large在多个多模态基准测试中表现优异，特别是在MathVista中准确率达到69.4%，超越了GPT-4o等竞争对手。模型具备强大的视觉数据处理和复杂推理能力，适用于研究、教育和商业用途。
来源：IT之家

2.北大清华等联合发布 LLaVA-o1：首个自发性视觉 AI 模型，推理计算 Scaling 新思路

北京大学、清华大学等机构联合发布了首个自发性视觉AI模型LLaVA-o1，该模型拥有110亿参数，基于Llama-3.2-Vision-Instruct模型开发，具备自主多阶段推理能力。LLaVA-o1在多模态推理基准测试中性能提升8.9%，特别是在数学和科学视觉问题的推理领域表现突出，填补了文本和视觉问答模型间的空白。
来源：IT之家

3.Qwen2.5更新百万超长上下文，推理速度4.3倍加速，网友：RAG要过时了

Qwen2.5-Turbo，国产大模型的最新更新，支持百万超长上下文处理，推理速度提升4.3倍，成本效益显著。该模型在长文本任务中表现出色，超越GPT-4o-mini，且在短文本任务中保持性能，未受上下文扩展影响。目前提供在线Demo体验，API服务已上线阿里云大模型服务平台。
来源：量子位

4.Perplexity的AI搜索引擎现在可以代替用户选购商品

Perplexity公司推出了新功能，允许Pro版用户通过其AI搜索引擎直接购买产品，享受免运费服务。非Pro用户也能体验AI购物功能，如产品卡片展示和评论摘要。Perplexity还计划推出“Snap to Shop”搜索工具，类似于Google Lens，仅对Pro用户开放。此外，公司也在为商家提供新的购物工具，帮助他们了解趋势并增加产品曝光机会。
来源：cnBeta

5.银河通用机器人完成5亿元战略融资

11月19日消息，北京银河通用机器人有限公司宣布完成5亿元战略轮融资，投资方包括：上汽集团恒旭投资、香港投资公司HKIC、上海人工智能产业基金、北京机器人产业基金、深创投、建银国际、智友科学家基金、容亿投资、金景资本等，同时老股东IDG、经纬、蓝驰、北京人工智能产业基金等继续大幅追加投资。
来源：钛媒体

6.ElevenLabs推出构建对话式AI机器人的新功能

周一，提供AI语音克隆和文本转语音API的初创公司ElevenLabs，正式发布了构建对话式AI机器人的能力。该公司宣布，用户现在可以在ElevenLabs的开发者平台上构建完整的对话代理，包括可定制的变量，如语调、回应长度等。
来源：AIYUN

7.蜜雪冰城首次成立AI技术公司！今年已布局两家智慧供应链

蜜雪冰城成立了AI技术公司雪王爱智慧科技（郑州）有限公司，注册资本5000万人民币，经营范围包括人工智能理论与算法软件开发等。此外，蜜雪冰城今年还布局了两家智慧供应链子公司，均涉及人工智能领域。蜜雪冰城在全球拥有超3.6万家门店，是中国第一、全球第二的现制饮品企业。
来源：科创板日报

8.LiveBench发布最新榜单：阶跃星辰Step-2位列中国大模型第一

国际榜单 LiveBench 官网公布了最新的语言大模型测评结果，阶跃星辰自研的万亿参数语言大模型 Step-2 的技术表现位列中国基座大模型第一，成绩逼近 OpenAI 的 o1-mini-2024-09-12，超越 gpt-4o-2024-08-06 、gemini-1.5-pro-002 等国际主流模型
来源：科创板日报

2024.11.18

1.Kimi发布新一代推理模型，数学能力对标OpenAI o1系列

Kimi发布了新一代数学推理模型k0-math，其数学能力在中考、高考、考研等数学基准测试中超越了OpenAI的o1-mini和o1-preview模型。k0-math在更高难度的竞赛级别测试中也表现出色，接近o1-mini的最高成绩。Kimi创始人杨植麟透露，k0-math模型和Kimi探索版将在未来几周内上线网页版和智能助手APP。
来源：钛媒体

2.快手可灵 AI API 能力升级：支持 V1.5 输出 1080P 高清视频、开放 V1.0 视频延长功能

快手的可灵AI宣布API能力升级，免费提供1080P高清视频输出的V1.5模型，相比V1.0模型在画面质量、动态效果和文本响应度上有显著提升。同时开放V1.0模型的视频延长功能，支持视频续写至最长3分钟，实现更流畅的场景转换。官方强调API效果与平台一致，用户可根据需求选择套餐购买。
来源：IT之家

3.夸克推出“学术搜索”，每次 AI 回答可引用超 10 篇文献内容

夸克推出“学术搜索”AI产品，与维普、知网等合作，建立亿级学术文献库，提升学术工作效率。AI技术可引用超10篇文献，提供学术大纲和PPT制作，增强信息归纳和知识整理能力。夸克“灵知”学习大模型在考研数学题上表现优异，同时升级“AI搜题”产品，支持题目讲解和用户提问。
来源：IT之家

4.天工大模型4.0 O1版（英文名：Skywork O1）将于11月27日启动邀测

昆仑万维集团宣布，其自研的天工大模型4.0 O1版（Skywork O1）将于11月27日启动邀测。该模型是国内首款具有中文逻辑推理能力的o1模型，采用4千亿级参数MoE混合专家模型，并将开源。天工大模型4.0 O1版在推理能力上有显著提升，代表了昆仑万维对AI大模型的持续投入和追求AGI的决心。
来源：昆仑万维

5.PixVerse 视频生成技术服务全球开放

爱诗科技宣布其PixVerse视频生成技术服务全球开放，旨在推动AI视频大模型的多元化应用发展。用户可通过扫码填写申请表以评估业务需求并期待合作，共同探索AI视频技术的潜力。
来源：爱诗科技

6.抖音上马“V项目”，上线AI分身功能

抖音正在推进名为“V项目”的计划，旨在通过虚拟互动和游戏化玩法提升用户体验。项目核心为AI分身功能，基于豆包大模型算法，允许用户与创作者的AI分身全天24小时互动。AI分身功能包括互动空间、群聊、私信、评论和直播回复等，旨在增强用户互动并可能在社交领域对其他平台构成威胁。
来源： Tech星球

7.闲鱼：注册用户过6亿 AI技术已应用于闲置交易场景

在中国角边会上，闲鱼CTO陈举锋公布了平台注册用户数已突破6亿的消息，并展示了“闲鱼AI智能体”这一闲鱼式的AI模型，这也是业内首次将AI技术运用于闲置交易场景中。
来源：环球网

8.网易云音乐创始人再创业、全灵完成千万美元 Pre-A 轮融资，称将发布全球首个 AI 游戏生成平台

全灵SEELE宣布完成千万美元Pre-A轮融资，由百度战投领投，旨在通过SEELE AI简化游戏开发流程，将创意转化为3D互动。公司海外产品已积累近百万用户，计划升级游戏多模态大模型，构建AI游戏生成平台。
来源：IT之家

2024.11.15

1.阿里通义代码模式上线：号称即便不懂编程，也能大白话一键生成应用

阿里通义宣布推出通义代码模式，该模式基于Qwen2.5-Coder模型，允许用户即使不懂编程也能通过自然语言描述需求，一键生成网站、数据图表和小游戏等应用。预置了个人简历、2048小游戏、答案之书等热门应用，用户可通过官网直接使用。
来源：IT之家

2.国家级法律 AI 基座模型发布：可大大降低公共法律服务门槛

本文报道了最高人民法院发布的国家级法律AI基座模型“法信基座大模型”，该模型通过大数据训练，具备法律语言理解、文本信息抽取、逻辑推理和文本生成能力。它能够理解非专业诉求表述，并提供专业水平的回答和法律策略建议，降低公共法律服务门槛，提高法官的工作效率。
来源：IT之家

3.桌面版ChatGPT向Windows用户开放支持拍照识别、语音交流

OpenAI宣布桌面版ChatGPT向所有Windows 10/11用户开放，支持拍照识别和语音交流功能，提升用户体验。该应用还集成了GPT-4o、OpenAI o1-preview模型，并与DALL-E 3合作生成图像。此外，ChatGPT与编程工具如Xcode、VS Code等协作，简化开发人员工作流程，反映了AI行业对用户体验和实用性的重视。
来源：科创板日报

4.豆神教育、智谱AI等成立智创科技公司注册资本5亿元

《科创板日报》15日讯，11月12日，北京豆神智创科技有限公司成立，法定代表人为赵伯奇，注册资本5亿人民币，经营范围含云计算装备技术服务、人工智能应用软件开发、人工智能基础资源与技术平台、5G通信技术服务、人工智能公共服务平台技术咨询服务等。
来源：科创板日报

5.TikTok全球开放生成式AI视频创作平台Symphony Creative Studios

近日，字节跳动旗下的短视频平台TikTok宣布了一个重大消息：其创新的生成式人工智能视频创作平台——Symphony Creative Studios，现已正式向全球所有广告商全面开放。此举被视为TikTok在广告业务领域的又一次重要布局，旨在通过人工智能技术为广告商提供更加高效、智能的创作解决方案。
来源：AIYUN

6.腾讯重磅推出AI搜索ima：不只搜全网还打通微信公众号

腾讯近日推出了AI智能工作台ima.copilot（简称ima），该产品具备搜索、回答问题、创作文字和生成图片的功能。ima不仅整合了全网信源，还特别整合了微信公众号文章资源，提升了信息获取效率。此外，ima能够处理本地文件，总结内容、提炼要点并生成脑图，支持多语言翻译
来源：凤凰网科技

7.字节即梦 AI 视频生成模型更新 P / S 2.0 Pro 双版本，全量开放使用

字节跳动旗下即梦AI宣布两大视频生成模型S2.0 Pro和P2.0 Pro全量上线。S2.0 Pro在图生视频场景下保持首帧一致性，色彩等细节还原；P2.0 Pro具有高提示词遵循能力，支持复杂提示词下的多镜头切换和组合，保持视频风格一致性。
来源：IT之家

2024.11.14

1.腾讯大模型 App 元宝发布 2.0 版本：基于新一代大模型混元 Turbo，内置 AI 搜索

腾讯混元推出的元宝App 2.0版本正式上线，带来界面、模型、体验的全面升级。新版本支持历史对话资产沉淀，新增AI应用板块，并整合微信视频号、QQ音乐等资源，提供智能搜索服务。混元模型架构升级，性能提升，支持更高分辨率图片理解分析。元宝2.0还将融入腾讯文档等生态产品，实现AI写作与文档编辑的无缝衔接。
来源：IT之家

2.讯飞星火多模态交互大模型上线，数字人、语音、视觉支持一键调用

科大讯飞宣布讯飞星火多模态交互大模型正式上线，该模型将语音交互扩展至音视频流实时多模交互，新增多模态、超拟人和个性化能力，实现语音、视觉、数字人交互三合一，并支持一键调用。该技术通过统一文本、语音和表情实现跨模态语义一致性，提升情感表达的真实连贯性，并支持多模态视觉交互，提高任务理解的精准度。
来源：IT之家

3.字节即梦将在Sora发布前上线视频生成模型PixelDance

字节跳动的视频生成模型PixelDance即将在即梦AI平台上线，并向公众开放使用，其上线时间将早于Sora。同时，豆包视频生成模型也计划在本月底上线。这些模型基于DiT架构，能够实现大幅度运动画面的流畅性，并在生成效率上有显著优势，Seaweed模型能在60秒内生成5秒高质量视频。
来源：新京报

4.不走Transformer路线，彩云科技推出通用大模型云锦天章

彩云科技推出了基于DCFormer架构的通用大模型云锦天章，该模型在虚构世界观基础上赋予小说人物编程、数学等能力，并能进行文本扩写、缩写和风格更换。DCFormer架构通过改进注意力矩阵，提升算力智能转化率至Transformer的1.7到2倍，降低成本，加速AI时代到来。
来源：凤凰网科技

5.DeepL推出实时语音翻译功能，拓展至音频领域

德国AI翻译服务公司DeepL推出实时语音翻译功能DeepL Voice，支持13种语言，实时将语音翻译成另一种语言。该功能主要面向B2B市场，目前仅微软Teams支持其字幕功能。DeepL Voice的推出标志着DeepL在音频翻译领域的拓展，预示着未来翻译服务的新方向。
来源：AIYUN

6.苹果发布Final Cut Pro 11，引入AI功能及多项更新

苹果公司发布了Final Cut Pro 11，引入了AI功能和多项更新。新版本的核心在于AI技术的应用，包括Magnetic Mask、Transcribe to Captions以及对苹果Vision Pro头戴设备的支持。Final Cut Pro 11还优化了工作效率和视频流播放能力，并且推出了iPad版本。老用户可以免费升级，新用户需支付300美元。
来源：AIYUN

7.国产文生视频大模型 Vidu 发布 1.5 版本更新：可保证多不同视角下的一致性

国产文生视频大模型Vidu发布1.5版本更新，实现了技术突破，包括复杂主体的精准控制、人物面部特征和动态表情的自然一致性以及多主体一致性。新版本提升了视频模型的可控性，并能实现多角度、多主体、多元素的一致性生成。
来源：IT之家

8.OpenAI计划推出代号为“Operator”的AI Agent产品

据报道，OpenAI 正准备推出一款代号为“Operator”的全新AI Agent产品，可以自动执行各种复杂操作，包括编写代码、预订旅行、自动电商购物等。根据内部员工爆料，OpenAI领导层预计将在2025年1月发布该产品，同时会为开发人员开放API接口。
来源：科创板日报

2024.11.13

1.全球首个！英伟达与软银试运行“AI+5G” 电信行业迎来重大突破

英伟达与软银集团合作试运行全球首个AI和5G电信网络，标志着电信行业的重大突破。该技术将促进自动驾驶和机器人控制等应用，同时为电信运营商带来新的收入来源，并降低电力消耗。预计到2030年，商业AI将为全球经济贡献19.9万亿美元。
来源：科创板日报

2.上海完成首例脑机接口产品临床试验植入手术

2024年11月13日，上海完成首例脑机接口产品NEO的临床试验植入手术，由博睿康医疗科技与清华大学洪波教授团队合作开发。该产品是首款进入创新医疗器械特别审查程序的脑机接口产品，标志着脑机接口产业化的重要进展。
来源：科创板日报

3.与英伟达正面交锋，亚马逊宣布向研究人员免费开放 Trainium AI 算力

亚马逊云计算部门宣布向研究人员免费提供AI算力，挑战英伟达的市场地位。AWS推出基于Trainium的Amazon EC2 Trn1实例，提供价值1.1亿美元的云数据中心使用信用额度，并计划发布芯片指令集架构文档，以吸引大客户并提高性能降低成本。
来源：IT之家

4.零一万物与华为启动合作，将基于昇腾硬件底座开发原生大模型应用

北京零一万物信息技术有限公司与华为技术有限公司签署合作协议，共同开发基于昇腾硬件底座的原生大模型应用。合作将覆盖金融、政务等多个行业，旨在发挥双方产业和技术优势，推动AI智能体及行业大模型产品的产业落地和应用推广。
来源：IT之家

5.直面消费者，智能体正在成为新“官网”

本文讨论了智能体在AI时代对企业品牌和营销方式的影响。智能体作为新“官网”，通过实时互动、全天候服务、精准信息匹配和个性化内容，提升用户体验和业务增长。智能体技术的发展和应用正在改变企业与用户的交互方式，预示着营销行业的质变。
来源：凤凰网科技

6.人工智能公司诺比侃向港交所递交上市申请

港交所文件显示，11月12日，诺比侃人工智能科技（成都）股份有限公司向香港交易所递交上市申请。中金公司为独家保荐人。招股书显示，该公司专注于人工智能技术和数字孪生等技术在AI+交通、AI+能源及AI+城市治理等领域的产业化应用。
来源：36氪

7.钉钉AI重磅更新：深入业务场景，上线工单等场景AI助理

钉钉于2024年11月13日进行了重大更新，推出了深入业务场景的“精选AI助理”，包括工单助理、Excel助理、法务助理等六大AI助理，旨在加速AI在企业业务场景中的应用。同时，钉钉与生态伙伴合作发布了覆盖多个行业的AI解决方案，并推出了AI大模型一体机，以满足大企业混合云和私有化部署的需求
来源：机器之心

8.OpenAI联合创始人兼前总裁布罗克曼宣布正式回归

11月13日消息，OpenAI联合创始人兼前总裁格雷格·布罗克曼（Greg Brockman）当地时间12日在社交媒体平台X发文，宣布正式重返OpenAI。布罗克曼表示：“我人生中最长的假期结束了，重新开始建设@OpenAI。
来源：钛媒体

9.Anysphere收购Supermaven强化Cursor AI代码编辑器

Anysphere收购了AI编码助手Supermaven以增强其AI驱动的代码编辑器Cursor。此次收购旨在推出新版Tab AI模型，提高长代码序列处理能力。Supermaven将继续维护其插件，而Cursor将成为核心产品。收购背景是Anysphere获得高估值和AI编码工具市场的快速增长。
来源：AIYUN

2024.11.12

1.阿里通义千问开源 Qwen2.5-Coder 全系列模型，号称代码能力追平 GPT-4o

阿里通义千问宣布开源Qwen2.5-Coder全系列模型，其中Qwen2.5-Coder-32B-Instruct模型在多个代码生成基准上取得最佳表现，官方声称其代码能力与GPT-4o相当。此次开源包括0.5B、3B、14B、32B四个尺寸，覆盖六个主流模型尺寸，均采用Apache 2.0许可证，3B模型使用Research Only许可。
来源：IT之家

2.阿里在海外推出对话式 AI 搜索引擎 Accio，面向全球商家开放

阿里巴巴在海外推出对话式AI搜索引擎Accio，旨在作为个人采购代理，通过供货商、价格、销量等信息筛选，为全球商家提供匹配的商家和商品。Accio已覆盖亿级商品量，并支持五种语言，移动端产品正在开发中。
来源：IT之家

3.前谷歌、字节、腾讯AI核心人物加入闪极，打造AI眼镜端“今日头条”

本文报道了前谷歌大脑研究软件工程师、前字节跳动AI平台负责人潘欣加入闪极科技，担任合伙人并负责AI技术研发。潘欣将领导团队开发基于多模态AI交互和实时场景分析的智能拍摄眼镜，旨在提供个性化信息推荐服务。这一举措预示着AI技术与硬件融合的新趋势，有望推动内容推荐和消费的变革。
来源：凤凰网科技

4.Google推出面向教育的AI工具”Learn About” 包含更多的可视化和互动元素

Google发布了一款名为”Learn About”的教育型AI工具，基于LearnLM AI模型，强调教育研究和互动元素。与聊天机器人不同，它提供的答案包含更多可视化和互动内容，以及教育格式。测试显示，Learn About在回答“宇宙有多大？”时，更注重教育网站内容和学习重点，同时提供背景信息和词汇定义，以辅助学习。
来源：cnBeta

5.加速国产GPU开发！摩尔线程开源高性能计算库MUTLASS

摩尔线程宣布开源高性能线性代数模板库MUTLASS，旨在帮助开发者更高效地针对国产GPU进行编程，加速算子开发和算法创新。MUTLASS基于CUTLASS优化，提供C++模板组件，支持多种数据精度，允许开发者灵活复用和定制化算子，以提升性能并尝试算法创新。
来源：快科技

6.月之暗面几位出海产品负责人据悉离职创业

11月12日消息，月之暗面几位出海产品负责人已于近期离职创业。今年9月，月之暗面决定停止更新两款已上线的出海产品——Ohai和Noisee，暂时收缩了出海to C应用。月之暗面回复称，做这两款产品只是尝试，并未正式立项，所以很快做出了调整；月之暗面更加聚焦Kimi的开发。
来源：钛媒体

7.AlphaFold3开源了，诺奖AI工具人人可用，开启生物分子设计新时代

AlphaFold3，由谷歌DeepMind开发的AI工具，已开源，允许科学家免费下载代码用于非商业应用。这一举措有望推动生物分子设计进入新时代，尽管存在挑战，如在无序区域可能产生错误结构和无法预测分子运动。AlphaFold3的开源被视为人工智能科学的重要进步，预计将在药物发现和分子生物学等多个领域产生深远影响。
来源：机器之心

8.百度推出零代码AI开发平台“秒哒”

百度计划在2025年1月推出零代码AI开发平台“秒哒”，该平台通过图形化界面和自然语言指令，使非技术人员无需编程技能即可构建和部署软件应用。平台支持多智能体协作和工具API调用，适用于企业自动化、教育软件开发及个人项目开发，旨在降低对专业程序员的依赖。
来源：AIYUN

9.百度发布小度AI眼镜，定位全球首款中文大模型原生设备

百度在2024年世界大会上发布了小度AI眼镜，全球首款搭载中文大模型的原生AI设备。该眼镜轻量化设计，重量仅45克，配备1600万像素超广角摄像头和AI防抖算法，支持第一视角拍摄。续航能力强，待机时间56小时，连续聆听时间超5小时，支持快速充电。
来源：AIYUN

10.苹果将首次进军智能家居网络摄像头市场

本文汇总了近期科技和金融领域的重大新闻，包括苹果计划进军智能家居摄像头市场、合成生物产业的发展、日本政府推动国内芯片产业、央行引导金融资本投向硬科技、国家航天局编制中长期发展规划、第三家个人征信机构获批、商业航天进入产业化阶段以及跨境支付体系的健全。
来源：财联社

11.百度李彦宏：智能体是AI应用的最主流形态即将迎来爆发点

百度创始人李彦宏在百度世界2024大会上发表演讲，强调智能体是AI应用的最主流形态，并预测其即将迎来爆发点。他发布了两项AI技术：检索增强的文生图技术（iRAG）和无代码工具“秒哒”，旨在提升大模型图片生成的实用性和让非程序员也能快速开发应用。
来源：人民网

2024.11.11

1.社交平台 X 正测试向用户免费开放 AI 聊天机器人 Grok

社交平台X（原Twitter）正在测试将AI聊天机器人Grok免费开放给更多用户。新西兰用户已能免费使用Grok，但存在使用限制。xAI可能通过此举扩大用户基础，加快产品反馈循环，以与市场上其他AI模型竞争。
来源：IT之家

2.AI 初创公司推出 Nous Chat 聊天机器人，底层基于 Meta Llama 3.1 打造

AI初创公司Nous Research推出基于Meta Llama 3.1微调模型“Hermes 3-70B”的Nous Chat聊天机器人，具备长脉络记忆、多轮对话等功能，并在Hugging Face开放模型预览。同时预告了基于Mixtral 8x7B和Mistral架构的其他模型，旨在提供多角色体验和对话自然性。
来源：IT之家

3.suno发布V4版本音乐生成模型音频演示视频

Suno发布了其AI音乐生成模型V4版本的首批音频样本，展示了在自然音效、多样性和一致性方面的改进。尽管官方尚未透露技术细节，但Suno新增的“角色”功能有助于保持音乐风格的一致性。
来源：品玩

4.字节豆包通用图像编辑模型SeedEdit开启测试

11月11日，字节在豆包大模型团队官网上公布最新通用图像编辑模型SeedEdit。据了解，SeedEdit支持一句话轻松改图，包括修图、换装、美化、转化风格、在指定区域添加删除元素等各类编辑操作，通过简单的自然语言即可驱动模型编辑任意图像。
来源：36氪

5.昆仑万维SkyReels AI短剧平台将于12月10日在美国正式上线

昆仑万维的AI短剧平台SkyReels将于12月10日在美国上线，标志着公司在全球AI娱乐市场的扩张。SkyReels通过集成视频和3D大模型，颠覆视频内容创作流程，降低创作门槛，提升用户体验。平台在剧本、角色、分镜、视频生成等方面取得突破，新增3D交互编辑等特色功能，旨在与北美创作者合作，丰富内容，提升市场覆盖。
来源：昆仑万维

6.这个双十一，用AI的卖家领先了么？

本文探讨了AI在电商领域的应用及其对商家的影响。数据显示AI在电商中的普及迅速，尤其在内容生成、营销、翻译等方面显著提高了效率和降低了成本。然而，也存在对AI效果的质疑，特别是在推荐准确性和沟通智能性方面。文章通过商家案例分析了AI在不同业务模式中的实际效果，指出AI并非万能，其效果取决于业务模式和人机结合的方式。
来源：凤凰网科技

7.OpenAI押注的1X解锁新场景人形机器人化身大厨煎牛排

OpenAI支持的1X Technologies公司推出了家庭用人形机器人NEO Beta，该机器人在厨房场景中展示了煎牛排的能力。NEO Beta在远程操作下完成了烹饪任务，尽管存在失误，但成功完成了挑战。1X团队计划在确保安全后，将NEO Beta的功能扩展至更多家庭任务。
来源：钛媒体

8.创始人被前投资人提起仲裁月之暗面回应：不具备事实基础

有消息称，月之暗面创始人杨植麟、联合创始人兼CTO张宇韬，近日被创业循环智能时期的投资人在香港提起仲裁。对此，月之暗面通过其代理律师回应《科创板日报》记者称：该事项既缺乏法律依据，也不具备事实基础，将依法提出抗辩。
来源：科创板日报

2024.11.8

1.告别“默片”：智谱发布新清影，可生成 10 秒 4K60 帧 / 自带音效视频

智谱技术团队发布了最新版本的视频模型CogVideoX v1.5，并开源。该模型在视频生成质量、美学表现、运动合理性及复杂语义理解方面显著提升，支持生成10秒4K60帧超高清视频，并能生成与画面匹配的音效。新版本将上线至“清影”平台，并结合CogSound音效模型。
来源：IT之家

2.60秒内生成5秒AI视频，豆包视频生成模型Seaweed上线即梦AI

11月8日消息，字节跳动旗下的AI内容平台即梦AI宣布，即日起，由字节跳动自研的视频生成模型Seaweed面向平台用户正式开放。用户登陆后，在“视频生成”功能下，视频模型选择“视频S2.0”即可体验。
来源：钛媒体

4.视觉中国参与智谱B6轮股权融资，出资3000万元

视觉中国宣布参与北京智谱华章科技有限公司B6轮股权融资，出资3000万元，与海南智桥共同投资盐城智华创业投资基金合伙企业，推动人工智能技术在视觉内容领域的应用，提升用户体验。
来源：凤凰网科技

5.百度等入股AI设计公司水母智能

杭州水母智能科技有限公司近期发生工商变更，新增HSG Seed II Holdco U, Ltd.和北京百度网讯科技有限公司为股东，注册资本增加。公司成立于2020年，业务涵盖人工智能公共服务平台技术咨询、信息咨询等。此次变更后，公司由多家公司共同持股。文章强调内容仅供参考，不构成投资建议。
来源：钛媒体

6.Google AI视频工具”Vids”现已面向企业推出

Google AI视频工具”Vids”面向企业用户推出，利用AI模型双子座创建营销视频等。用户可根据提示生成故事板，编辑视频草稿，选择模板和配音。Vids界面简单，支持实时协作和安全共享。特定版本的Google Workspace用户将默认启用Vids，2025年12月31日前免费提供AI功能，之后将实施使用限制。
来源：cnBeta

7.苹果备忘录将上线三项AI功能：涂鸦变画、文字生图、精准撰写

苹果计划在iOS 18.2更新中为备忘录应用引入三项AI功能：图像魔杖将草图转化为高质量插图；增强AI写作工具，通过提示生成原创文本；新增“创建图像”功能，从文本生成原创图像。同时，国产GPU独角兽摩尔线程准备上市，2024国家工业软件大会聚焦工业智能领域热点问题。
来源：科创板日报

8.AMD推出首个完全开源10亿参数大型语言模型AMD OLMo

AMD推出了其首个完全开源的10亿参数大型语言模型AMD OLMo，该模型在AMD硬件上预训练，并具备强大的推理和对话能力。AMD通过开源数据和代码，旨在提升其在AI行业的地位，并使开发者能在个人设备上部署AI模型。AMD OLMo在基准测试中表现出色，与同类模型相比具有竞争力，并在负责任AI基准测试中表现不俗。
来源：AIYUN

2024.11.7

1.阿里测试AI创作工具“Animode”，试水动漫智能创作

阿里正在测试名为“Animode”的AI视频创作工具，该工具能够将现实世界视频一键转换为二次元风格视频，并具备多种样式和动作捕捉功能。Animode的推出预示着AI技术在动漫创作领域的应用，能够大幅缩短视频制作周期，提高创作效率。
来源：搜狐科技

2.快手“可灵 AI”独立应用上线苹果 App Store，支持生成视频与图片

快手公司推出了“可灵 AI”独立应用，该应用在苹果App Store上线，旨在加强移动端AI内容创作。该应用基于快手自研的大模型，提供视频与图片生成编辑功能，支持“图生视频”和“文生视频”模式。用户可通过简单操作生成AI视频或图片，但目前功能相对基础，未来有望更新完善。
来源：IT之家

3.消息称 Perplexity AI 搜索公司正融资 5 亿美元，市值将破 90 亿美元

Perplexity AI，一家利用AI技术提供精准搜索服务的初创公司，即将完成5亿美元的融资，预计市值将达到90亿美元。本轮融资由IVP领投，且IVP将派高层入驻董事会。公司估值自1月份B轮融资后增长三倍，得益于AI技术在搜索领域的创新和市场需求增长。
来源：IT之家

4.字节跳动AI助手豆包开启视频生成内测

11月7日消息，据悉，字节跳动旗下大模型AI助手豆包正式推出视频生成内测，意味着继快手、商汤、Minimax等公司后，字节跳动正式杀入AI视频生成领域。豆包官网称，豆包视频生成，支持图片文字一键成片，“能将信息转化为生动逼真的视频内容。支持酷炫的动态和运镜，多镜头保持一致，风格比例随意挑选。”
来源：钛媒体

5.特朗普回归美国AI解禁！马斯克变身全球首富，硅谷科技圈颠覆在即

2024年美国总统选举结果揭晓，特朗普再度当选，硅谷科技圈面临巨变。特朗普承诺废除拜登的人工智能行政命令，放松对科技企业的监管，特别是AI领域。此举将加速技术进步，但具体政策细节不明。同时，芯片法案可能变动，特朗普倾向于对外国芯片制造商征收关税。
来源：凤凰网科技

6.Meta AI视频生成技术新突破：AdaCache加速高质量视频生成

本文介绍了Meta AI和Stony Brook大学合作开发的AdaCache技术，这是一种无需额外训练即可加速视频扩散变换器处理的技术。AdaCache通过动态缓存计算和运动规范化机制，优化了视频生成任务的处理速度和视频质量，实现了实时和高质量视频生成的平衡。
来源：AIYUN

7.OpenAI购买Chat.com域名，重定向至ChatGPT

OpenAI收购了Chat.com域名，并将其重定向至ChatGPT。该域名原由HubSpot创始人Dharmesh Shah持有，他曾以1550万美元购入，并认为聊天式用户体验将成为软件领域的大趋势。Shah暗示OpenAI以股份支付收购款项，此次收购与OpenAI的品牌重塑策略相吻合，丰富了其域名组合，展示了其在AI领域的持续投入。
来源：AIYUN

8.AI编程助手公司Anysphere收到投资邀约估值约25亿美元

人工智能编程助手公司Anysphere收到风投的投资邀约，估值约为25亿美元，比大约四个月前的交易估值高出六倍多。该公司开发了部分采用OpenAI技术的人工智能编码助手Cursor。
来源：科创板日报

9.谷歌可控制电脑的AI助手Jarvis被意外泄露

谷歌的新人工智能助手Jarvis的预览版被意外上架Chrome应用商城。该工具可以通过网络浏览器为用户浏览网页，以处理购买杂货、预订机票和研究课题等常见任务。谷歌很快就关闭了Jarvis的商店页面。该工具计划于12月发布。
来源：科创板日报

10.Siri AI迎新升级：将实现屏幕读取、内容摘要及问答功能

11月7日消息，据外媒报道，苹果公司近日发布新的支持文档，旨在助力开发者更高效地利用Siri和Apple Intelligence功能。Siri将能够更深入地理解用户上下文，实现屏幕内容读取、摘要总结以及直接回答相关问题。
来源：环球网

2024.11.6

1.英伟达市值超越苹果，成为全球最有价值的公司

英伟达超越苹果成为全球市值最高公司，市值达到3.43万亿美元，反映了投资者对AI长期前景的乐观态度。英伟达股价自2022年底以来飙升850%以上，近期表现强劲，平息了投资者对其芯片推迟和长期增长前景的担忧。分析师预计英伟达收入将显著增长，华尔街对其盈利和利润预期不断提高，预计未来几年人工智能市场将呈指数级增长。
来源：科创板日报

2.字节推出单图视频驱动模型 X-Portrait 2：一键生成相同表情神态，简化创作流程

字节跳动智能创作团队推出X-Portrait 2技术，通过单张静态照片和驱动视频生成高质量视频，保留原图ID同时捕捉表情和情绪，简化动作捕捉和内容创作流程。
来源：IT之家

3.达摩院发布八观气象大模型：精度达1小时1公里，率先落地新能源场景

阿里巴巴达摩院发布八观气象大模型，该模型在全球气象模型基础上引入区域多源数据，实现1小时1公里的时空精度。模型通过提升关键气象指标预测性能，助力新能源电力系统预测极端天气和发电功率，提高电力负荷预测准确率。AI技术的应用使天气预报更快、更便宜、更易获取，八观气象大模型在新能源领域具有显著优势，提升了区域辐照度、风速等预测精度。
来源：机器之心

4.王慧文回归，担当美团AI“小队长”

美团联合创始人王慧文回归美团，领导AI团队GN06，专注于AI应用探索，如情感陪伴和聊天机器人。GN06独立于美团其他业务和AI团队，王慧文亲自面试产品和运营角色。GN06的主要产品Wow AI情感陪伴产品已上线，并计划出海至北美市场。美团近期在AI应用领域动作频繁，包括上线AI图像生成应用“妙刷”。
来源：凤凰网科技

5.「黑神话」级3A大作AI实时游戏生成！港科大、中科大等祭出最强扩散Transformer，火爆国外

港科大、中科大等机构联合推出GameGen-X，这是一个基于扩散Transformer模型的AI游戏生成器，能够实时交互创建开放世界视频游戏。GameGen-X能够模拟游戏引擎特性，实现角色、动态环境、复杂动作和事件的生成，并支持交互式控制。该技术的发展代表了AI在游戏设计领域的重大飞跃，为未来自动化、数据驱动的游戏开发流程提供了新的可能性。
来源：新智元

6.GE医疗：首个大语言模型产品“技易答”已支持旗下多款医疗设备

GE医疗在第七届进博会上展示了其首个大语言模型产品“技易答”（ManualGPT），该产品支持多模态智能问答交互，能够通过文字、语音和图像快速提供精准的多媒体解答，准确率高达92%，目前已支持多款医疗设备，用户可通过微信小程序直接使用。
来源：钛媒体

2024.11.5

1.腾讯混元开源 Hunyuan3D-1.0：首个同时支持文生和图生的 3D 开源大模型

腾讯混元开源了Hunyuan3D-1.0，这是首个同时支持文生和图生的3D开源大模型。该模型采用两阶段生成方法，能在10秒内生成3D资产，具有强泛化能力和可控性，能重建不同尺度的物体。
来源：IT之家

2.腾讯推出 Hunyuan-Large 大模型：389B 总参数，业界已开源基于 Transformer 的最大 MoE 模型

腾讯宣布推出Hunyuan-Large大模型，这是目前业界已开源的基于Transformer的最大MoE模型，拥有3890亿总参数和520亿激活参数。模型特点包括高质量合成数据、KV缓存压缩、专家特定学习率缩放、长上下文处理能力，以及广泛的基准测试，确保了其实际应用效果和安全性。
来源：IT之家

3.昆仑万维重磅发布天工AI高级搜索功能，做最懂金融投资、科研学术的AI搜索

昆仑万维推出天工AI高级搜索功能，旨在提供金融投资和科研学术领域的专业搜索服务。该功能通过多层次分析推理能力、金融投资和科研学术专业搜索升级、文档AI阅读分析优化，实现精准、专业、智能的搜索体验。天工AI高级搜索通过强推理能力、数据和信源检索技术升级
来源：昆仑万维

4.马斯克的xAI放大招了！Grok API开启公测，每月25美金免费额度，人人可参与

马斯克的xAI放大招了！Grok API公测开启，免费额度拿到手软！从今天开始，开发者们可以基于Grok基础模型构建应用啦！xAI还推出了公测计划，到2024年底，人人都有每月25美元的免费API额度！这简直是白送啊！不要白不要！
来源：腾讯网

5.Anthropic公布面向开发人员的Claude 3.5 Haiku API定价

Anthropic发布了Claude 3.5 Haiku模型，这是对OpenAI的GPT-4 Turbo Mini和Google的Gemini 1.5 Flash的回应。该模型在人工智能基准测试中表现优异，但定价较高，每百万输入词元1美元，输出词元5美元，远高于竞争对手。Anthropic强调Haiku的性能提升，但也建议在需要图像输入或预算有限的情况下使用Claude 3 Haiku。
来源：cnBeta

6.英伟达洽谈参与马斯克旗下xAI融资

11月5日，据The Information报道，全球领先的图形处理器制造商英伟达正在与埃隆·马斯克旗下的人工智能初创公司xAI进行洽谈，计划参与其本轮融资。
来源：观点网

7.现在可以试用微软全新的Xbox AI聊天机器人

微软推出了一款全新的Xbox AI聊天机器人，专为Xbox Insider成员设计，以提高解决游戏相关问题的效率。该聊天机器人将回答Xbox控制台和游戏支持的相关问题，并以动画效果或彩色Xbox球体形式呈现。微软重视用户反馈，以改进虚拟代理。
来源：cnBeta

8.GitHub升级：Copilot多模型扩展与Spark自然语言开发平台震撼发布

GitHub宣布了其AI工具箱的重大升级，包括Copilot的多模型扩展和Spark自然语言网页开发平台的推出。Copilot现在支持Anthropic和Google的模型，而Spark平台通过自然语言指令简化网页应用开发。此外，Copilot在Apple Xcode上的集成也标志着GitHub扩展战略的新里程碑。
来源：AIYUN

9.Apple将在iOS 18.2中集成ChatGPT，用户可升级至ChatGPT Plus

Apple计划在iOS 18.2版本中集成OpenAI的ChatGPT功能，以提升Siri等AI性能。用户可通过设置应用升级至ChatGPT Plus，每月费用20美元。合作盈利模式尚不明确，Apple可能不支付费用，而是提供曝光机会。Apple未来可能集成其他AI模型，而OpenAI面临资金筹集困难及高管离职潮。
来源：AIYUN

10.估值超140亿、OpenAI贝佐斯下场，这家让机器人装AI“大脑”的公司获28亿新融资

美国独角兽公司物理智能（Physical Intelligence）宣布完成4亿美元融资，由亚马逊创始人Jeff Bezos等领投，投前估值达20亿美元。该公司旨在打造适用于任何机器人的通用AI基础软件，其软件π0已展示能使机器人执行折叠衣物等任务。全球AI机器人市场规模预计到2030年将超过350亿美元，中国AI+机器人赛道融资活跃。
来源：钛媒体

11.超越 OCR，谷歌 AI 技术 InkSight 可精准识别手写文字

谷歌AI技术InkSight能够直接从手写文字图片中提取数字文本，超越了传统OCR技术。InkSight通过模仿人类学习阅读的过程，提高了在复杂场景下识别手写文字的准确性。这项技术对于将手写文本数字化、保护手写遗产具有重要意义，并为数字化程度较低的语言提供了新的资源。
来源：IT之家

2024.11.4

1.北京市人工智能产业投资基金等入股智谱AI

智谱AI关联公司北京智谱华章科技有限公司获得北京市人工智能产业投资基金等多家投资机构入股，注册资本增至约3107万人民币。公司业务涵盖人工智能软件开发、数据处理等。同时，科技领域新闻涉及人工智能、量子科技研究进展，以及电动汽车产业发展等。
来源：科创板日报

2.Meta AI发布Sparsh：首个基于视觉触觉传感的通用编码器

Meta AI发布了Sparsh，一个基于视觉触觉传感的通用编码器，它通过自监督学习减少了对标记数据的依赖，提高了触觉传感技术的泛化能力和效率。Sparsh在多个任务上表现出色，显著提升了性能，同时降低了对标记数据的需求，为机器人技术和人工智能领域的发展铺平了道路。
来源：AIYUN

3.字节跳动内测AI模型分享社区“炉米Lumi”

字节跳动内测名为“炉米 Lumi”的AI模型分享社区，集成模型分享、Workflow搭建和LoRA训练等功能，允许用户上传和分享AI模型，搭建AI工作流程。目前平台处于内部测试阶段，未被主流搜索引擎收录，字节跳动尚未官宣。
来源：IT之家

4.我国科学家利用人工智能加速葡萄育种，效率提高 400%

中国农业科学院深圳农业基因组研究所周永锋团队利用人工智能技术在葡萄育种领域取得突破，大幅缩短育种周期，预测准确度达85%，育种效率提高400%。该研究构建了葡萄泛基因组，通过机器学习模型预测葡萄农艺性状，为精准设计育种提供新方法。
来源：IT之家

5.华为、华西医院共同发布“华西黉医”医学大模型

华为与中国华西医院合作发布了具有720亿参数的“华西黉医”医学大模型，该模型集成了多种通用和垂域模型，融合了大量医患对话、共识指南、教材、政策法规和医疗影像数据。这一模型旨在解决医疗数据多样性、模型训练难度和应用场景复杂性等挑战，并通过智能化标注、模型管理、快速开发等手段，显著提高医疗工作效率
来源：快科技