2024年10月AI快讯

0 12

2024.10.31

1.OpenAI ChatGPT 高级语音模式已登陆 Windows 和 Mac 平台，对话更自然

OpenAI宣布ChatGPT的高级语音模式（AVM）已在Windows和Mac平台上线。基于GPT-4o模型，AVM支持自然对话行为，如打断和停顿，提供更自然、实时的对话体验，并能实时感知和回应用户情绪。该功能自7月向测试用户开放，9月底向付费用户推出，10月向免费用户开放，但欧盟地区用户需等待。
来源：IT之家

2.任正非最新谈话：世界走向人工智能的潮流不可阻挡

华为创始人任正非在ICPC座谈会上强调，人工智能的发展潮流不可阻挡，技术进步将降低对人力的需求但增加总财富，认为开放创新是企业出路。他鼓励年轻人为理想创业，即使面临困难。
来源：新京报

3.百川智能推出一站式大模型商业化解决方案

百川智能近日推出了1+3产品矩阵的一站式大模型商业化解决方案，包括全链路优质通用训练数据、Baichuan4-Turbo和Baichuan4-Air两款模型以及全链路领域增强工具链。公司已与多家行业生态伙伴、硬件厂商及运营商达成合作，旨在推动大模型技术的商业应用。
来源：钛媒体

4.OpenAI将开源SimpleQA新基准，以衡量大模型真实性

10月31日消息，美国开放人工智能研究中心（OpenAI）宣布，为了衡量语言模型的真实性，将开源一个名为SimpleQA的新基准。该基准可衡量语言模型回答简短的事实寻求（fact-seeking）问题的能力。
来源：钛媒体

5.知乎直答新功能上线，「专业搜索」带来更高效的知识获取方式

知乎推出新功能「直答」中的「专业搜索」，旨在为专业人士和学术研究者提供更深入、高效的知识获取方式。该功能通过引入高质量数据源、支持文件上传和优化交互体验，提升了专业工作和学术研究的效率。同时，知乎还推出了「知识会员」服务，提供广泛的学术论文和期刊资源。
来源：知乎日报

6.Python成GitHub最受欢迎语言，AI成主要推动力

Python已超越JavaScript成为GitHub上最受欢迎的编程语言，这一变化反映了人工智能时代的到来和Python在AI领域的主导地位。GitHub Universe活动中宣布了此消息，并指出AI相关项目同比增长98%，显示了Python在机器学习和AI开发中的重要性。GitHub平台的快速扩展和开源创新的增长也得到了强调。
来源：AIYUN

2024.10.30

1.OpenAI与博通和台积电合作打造首款芯片

路透社报道，OpenAI正在与博通和台积电合作。打造其首款专为支持人工智能系统而设计的内部芯片，同时增加 AMD芯片和英伟达芯片的采购，以满足其激增的基础设施需求。
来源： cnBeta

2.埃隆·马斯克的xAI公司正试图再融资数十亿美元

据《华尔街日报》报道，埃隆-马斯克的人工智能公司 xAI 正在洽谈新一轮融资，估值约为 400 亿美元。xAI 希望在本轮融资中筹集数十亿美元，以补充该公司 5 月份筹集的 60 亿美元 B 轮融资。传闻中的估值将使 xAI 目前 240 亿美元的融资后估值翻一番。
来源： cnBeta

3.GitHub Copilot 拥抱多模型，将引入 Claude 3.5 Sonnet 和 Gemini 1.5 Pro

GitHub CEO宣布，GitHub Copilot将采用多模型策略，不再仅依赖OpenAI的GPT模型。将集成Anthropic的Claude 3.5 Sonnet和谷歌的Gemini 1.5 Pro，支持更多OpenAI模型。这一策略旨在满足不同开发场景需求，因为不同模型在不同编程语言或任务类型上表现不同。GitHub还将为Copilot Workspace等引入多模型选择。
来源：IT之家

4.养猪业新神器，AI 工具可解读猪叫声背后的情绪

本文报道了欧洲科学家开发的一种AI算法，该算法能够解读猪的叫声，识别猪的情绪和压力状态，以改善猪的福祉。研究涉及多国科学家，通过分析猪在不同情境下的叫声来理解其情感表达，未来可能帮助农场标记和消费者选择，以及通过手机应用实时翻译猪的情感。
来源：IT之家

5.视旅科技获亿元投资，AI+旅游大模型VtripGPT重塑万亿市场

视旅科技，由前阿里巴巴副总裁李少华等人创立，已完成超亿元人民币的A轮融资。公司推出的VtripGPT1.0是国内首个旅游领域的大模型，通过AI技术提供全链条智能化旅游服务，从行程规划到社交媒体分享，旨在重塑万亿旅游市场。预计2025年中国在线旅游市场规模将达4.2万亿，视旅科技的AI技术将提升服务效率，降低成本，推动行业转型升级。
来源：钛媒体

6.滴滴、美团加速生成式AI研发，同日低调内测“DC超级助手”、“妙刷”应用

滴滴出行和美团近期分别内测了基于生成式AI技术的新产品。滴滴发布了“DC超级助手”，旨在提升内部工作效率，包含会话助手、问答智能体等功能。美团则推出了“妙刷”小程序，通过图片识别输出“梗文字”。这些举措显示了企业在AI领域的加速发展和应用。
来源：钛媒体

7.亚马逊推出内联Q Developer AI编码助手，与微软的Github Copilot竞争

亚马逊网络服务（AWS）宣布推出内联Q Developer AI编码助手，集成至Visual Studio Code和JetBrains等IDE中，旨在简化开发者工作流程，减少在聊天窗口和代码窗口间切换的需求。Q开发者基于Anthropic公司的Claude 3.5 Sonnet模型，提供代码优化、注释添加和测试编写等功能，与微软的GitHub Copilot形成竞争。
来源：AIYUN

2024.10.29

1.神秘模型“小熊猫”一夜刷屏：排名超Flux、Midjourney

神秘文生图模型“red_panda”（小熊猫）在竞技场中超越Flux、Midjourney等顶尖模型，以高ELO得分和快速生成能力获得关注。尽管胜率高达79%，但在实际测试中并未展现压倒性优势。模型来源成谜，猜测包括中国厂商、Midjourney V7、Stable Diffusion 3.5、DALL-E 4等，但尚无确切认领。
来源：量子位

2.苹果AI上线，ChatGPT免费用！首款M4 Mac诞生

苹果公司推出了首款搭载M4芯片的Mac电脑，同时宣布苹果AI正式上线，提供iOS 18.1、iPadOS 18.1和macOS Sequoia 15.1用户首批Apple Intelligence功能。新iMac以其七彩配色和超薄设计亮相，性能大幅提升，尤其在工作效率和复杂工作流处理上。苹果AI的集成将改变工作方式，提供自然语言理解、图像生成和个性化电脑操作等功能，同时注重隐私保护。
来源：新智元

3.Meta也在开发自己的AI搜索引擎

Meta正在开发自己的AI搜索引擎，旨在减少对Google和微软的依赖，并在其AI聊天机器人中提供人工智能生成的时事搜索摘要。这一举措可能改变目前依赖Google和微软必应的现状，并已与路透社达成多年协议，使用其新闻文章回答问题。
来源：cnBeta

4.Google将搜索结果页的人工智能概述扩展到100多个国家/地区

Google宣布其搜索结果页顶部显示信息快照的AI概览功能已扩展至100多个国家/地区，支持多种语言版本。该功能自5月在美国推出后，全球用户量已超10亿。Google通过更新功能如内联链接以提高实用性，并利用AI概览拓展广告业务。尽管初期存在提供错误信息的问题，但公司已在改进。
来源： cnBeta

5.微信正灰测AI问答功能，或已接入混元大模型

微信正在灰度测试AI问答功能，该功能通过微信搜索框触发，能生成文案并提供微信公众号参考资料。这一功能整合了腾讯内部技术资源，包括混元大模型，可能已与微信生态内容打通。随着生成式AI的加速渗透，社交平台开始试水AI搜索功能，微信、微博、抖音等均已上线相关功能，Meta也在测试中。
来源：钛媒体

6.由OpenAI董事长参与创办的AI初创公司Sierra融资1.75亿美元

本文报道了由OpenAI董事长Bret Taylor和谷歌高管Clay Bavor联合创办的AI初创公司Sierra，在新一轮融资中筹集了1.75亿美元，公司估值达到45亿美元。Sierra专注于向企业销售人工智能客户服务聊天机器人，尽管市场对AI泡沫的担忧增加，但Sierra的融资成功使其成为估值最高的AI初创公司之一。
来源：钛媒体

7.Gmail网页版新增AI辅助邮件撰写功能

谷歌宣布将AI辅助邮件撰写功能“帮我写”扩展至Gmail网页版，使用Gemini AI技术快速创建或修改邮件。该功能提供生成草稿、优化语言风格及内容简化建议，并对订阅Google One AI Premium服务或拥有Workspace中Gemini插件的用户开放。新增的“润色”快捷键将优化邮件内容，逐步向用户推出。
来源：AIYUN

8.美国发布对华高科技投资限制规则外交部：中方坚决反对

10月29日消息，外交部发言人林剑10月29日主持例行记者会。记者提问，拜登政府最终确定限制美国个人和公司投资中国的先进技术，包括半导体、量子计算和人工智能等领域，中国外交部对此有何回应？林剑表示，中方对美方发布对华的投资限制规则表示强烈不满、坚决反对。
来源：财联社

2024.10.28

1.报道：谷歌将开发可控制计算机的人工智能

谷歌正在开发代号为“Project Jarvis”的人工智能，旨在通过接管用户浏览器来帮助完成日常任务，如收集研究、购物和预订航班。该技术将由谷歌下一代旗舰Gemini大型语言模型提供支持，预计12月预览。Jarvis将与Anthropic的产品竞争，专注于网页任务自动化，并已为Chrome浏览器定制化适配。
来源：新浪财经

2.智源联合高校开源Video-XL打破长视频理解极限

智源研究院联合国内顶尖高校发布超长视频理解大模型Video-XL，该模型利用语言模型原生能力对长视觉序列进行压缩，保留了短视频理解能力，并在长视频理解上展现出色的泛化能力。Video-XL在多个主流长视频理解基准评测中排名第一，仅需一块80G显存的显卡即可处理2048帧输入，视频“大海捞针”任务中准确率接近95%，未来有望在多个应用场景中展现价值。
来源：新智元

3.xAI 为 Grok 添加图像理解功能

埃隆-马斯克的xAI公司为其Grok AI模型新增图像理解功能，允许X社交平台付费用户上传图片并提问。马斯克表示，该功能尚处早期，将不断改进。Grok未来可能增加文档理解能力。X社交网络致力于增加AI聊天机器人和付费用户层级功能，提升产品吸引力。
来源：cnBeta

4.OpenAI 公布新型 AI 文生图方案“sCM”

OpenAI 发布新型 AI 文生图方案 sCM，宣称其生成效率是传统扩散模型的 50 倍。sCM 通过简化取样步骤，仅需两个步骤即可生成高质量样本，同时保持样本质量，为 AI 图像生成领域带来新的突破。
来源：IT之家

5.世界模型新突破！极佳科技提出DriveDreamer4D

极佳科技联合多家机构推出了DriveDreamer4D，这是一个创新的世界模型，首次用于增强4D驾驶场景重建效果。该模型通过提供丰富视角数据，显著提升了自动驾驶4D重建算法的效果，并在用户研究中获得了超过80%的偏好投票，为空间智能和4D世界模型的发展提供了重要一步。
来源：机器之心

6.Meta推出NotebookLlama项目，复制谷歌NotebookLM的生成播客功能

Meta公司推出了NotebookLlama项目，旨在模仿谷歌的NotebookLM生成播客功能。该项目使用Meta的Llama模型处理文本文件，生成播客对话风格的文本摘要。尽管NotebookLlama在语音生成上存在机器人特质和声音重叠的问题，但Meta认为通过使用更强大的模型可以改善语音质量。目前，AI生成播客内容中的“幻觉”问题尚未得到完全解决。
来源：AIYUN

7.Perplexity AI 搜索引擎每周处理 1 亿次查询，消息称微软 / X / OpenAI 有意收购

AI搜索引擎Perplexity AI每周处理1亿次查询，月增长显著。公司计划推出电商功能和新广告模式，同时微软和OpenAI等公司提出收购要约，估值1.5亿至2亿美元。Perplexity AI专注于开发会话式搜索引擎平台，基于NLP技术提供精准搜索结果。
来源：IT之家

8.全球首次实现自然步态行走，众擎机器人发布其首款全尺寸通用人形机器人 SE01

深圳市众擎机器人科技有限公司发布了其首款全尺寸通用人形机器人SE01，主打工业机器人市场。该机器人身高170cm，体重55kg，具备32个自由度和2m/s的行走速度，能执行多种人类动作。SE01采用全谐波力控关节模组和深度学习算法，声称解决了机器人自然步态行走的难题。
来源：IT之家

9.OpenAI音频转录工具Whisper被曝编造大量内容，引发担忧

OpenAI的音频转录工具Whisper被曝在转录过程中编造内容，包括种族评论、暴力和幻想的医疗治疗等，引发对AI准确性和可靠性的担忧。研究人员警告Whisper的错误可能导致严重后果，尤其是在医疗环境中。尽管Whisper在HuggingFace上下载量高，但其产生的幻觉可能有害。OpenAI建议不要在决策背景下使用Whisper。
来源：AIYUN

10.Cohere推出首个图文一体化搜索模型Embed 3

Cohere公司推出了Embed 3搜索模型，这是首个集成图像搜索和文本检索的系统。该模型采用统一存储架构，支持多种图片格式，但目前仅支持单张图片查询。Embed 3支持超过100种语言，可在Cohere平台、微软Azure和亚马逊SageMaker上部署。
来源：品玩

11.雷鸟创新与博士眼镜合作的首款拍照AI眼镜将于年底发布

10月28日讯，今日，雷鸟创新创始人兼CEO李宏伟透露，与博士眼镜合作的首款拍照AI眼镜将于年底发布。雷鸟创新将重点在光波导技术上进行突破，以实现更高的显示效果和更轻便的佩戴体验。
来源：科创板日报

12.苹果AI下周正式上线将引发iPhone销售热潮？

苹果公司宣布Apple Intelligence功能将于10月28日随iOS 18.1发布，引入多项AI功能。尽管市场对短期内iPhone销售热潮持悲观态度，认为苹果在AI领域落后，且iPhone 16砍单约1000万部，但长期看，Apple Intelligence有望成为受欢迎的收费服务。中国市场的不确定性也影响着Apple Intelligence的推广。
来源：科创板日报

2024.10.25

1.阿里达摩院开源 CoI-Agent：一键生成科研 idea 的 AI 研究助手

阿里巴巴达摩院开源了一款名为CoI-Agent的AI工具，旨在辅助科研人员通过输入论文主题自动生成科研想法，提高工作效率。该工具适用于多个领域，包括自然科学、社会科学和工程技术等。
来源：IT之家

2.智谱清言上线情感语音模型 GLM-4-Voice：可理解情感，有情绪表达和共鸣

智谱公司宣布推出GLM-4-Voice情感语音模型，该模型具备情感理解和表达能力，支持情绪共鸣、语速调节、随时打断和多语言方言识别。模型将集成至“智谱清言”App，并计划支持视频通话功能。此外，智谱AutoGLM展现了模拟人类操作手机的能力，GLM-4-Voice模型也已对外开源。
来源：IT之家

3.OpenAI将发布新模型Orion？奥尔特曼火速下场辟谣

有传言称OpenAI计划在12月推出新模型Orion，该模型将先向特定公司提供访问权限，用于产品开发。尽管微软工程师准备在Azure上托管Orion，但Orion是否会被命名为GPT-5尚不明确。Orion被视作GPT-4的继任者，目标是创建通用人工智能（AGI）。然而，OpenAI首席执行官奥尔特曼否认了这些消息。
来源：钛媒体

4.深思考完成新一轮亿元融资，端侧大模型打造AI鸿蒙操作系统

深思考（iDeepWise.ai）完成了新一轮亿元人民币融资，将资金用于AI多模态端侧大模型研发和市场拓展。作为华为投资的类脑人工智能企业，深思考专注于癌症早筛和智能终端领域，与鸿蒙操作系统合作，旨在打造AI鸿蒙操作系统。同时，贵州茅台公布前三季度净利润同比增长15.04%。
来源：36氪

5.商业航天平台公司中科天塔发布航天私域大模型

今日，在2024中国卫星应用大会上，商业航天平台公司西安中科天塔发布航天私域大模型“华山”。据介绍，这是大语言模型首次应用在航天领域，运用AI帮助用户完成航天器智能操控、轨道计算与分析、指令代码生成等航天器在轨管理工作，助力卫星平稳运行。
来源：科创板日报

6.Meta发布可在智能手机上运行的Llama人工智能模型小型版

Meta发布了Llama人工智能模型的小型版，能在智能手机和平板电脑上运行，提升了运行速度并降低了内存使用量。这一技术突破基于量化压缩技术，解决了在移动设备上运行大型AI模型的难题，预示着AI从集中式计算向个人计算的转移，同时Meta与高通和联发科合作，推动了移动AI的发展。
来源：AIYUN

7.Pixtral 12B发布：开创性SOTA开源多模态语言模型

Pixtral 12B是由MistralAI推出的开源多模态语言模型，它在多模态任务中表现优于其他模型。该模型基于Transformer架构，包含视觉编码器和多模态解码器，采用创新技术如中断标记、门控前馈层、序列打包和RoPE-2D位置编码。文章详细介绍了模型架构，并提供了Python实现和应用示例，展示了Pixtral 12B在图像标题任务中的能力。
来源：AIYUN

8.Midjourney推出外部图像编辑器、图像重新纹理和下一代 AI 审核系统

Midjourney最近推出了重大更新，包括外部图像编辑器、图像重新纹理功能和下一代AI审核系统。这些新工具提升了用户创作自由度，优化了图像效果，并增强了平台的安全性，标志着Midjourney在AI图像生成领域的进步。
来源：柒柒AI导航

9.谷歌DeepMind推出了MusicFX DJ的升级版

谷歌DeepMind推出了MusicFX DJ的升级版，这是一个AI音乐创作工具，它允许用户即使没有音乐专业知识也能实时创建个性化的音乐曲目。新版MusicFX DJ支持实时音乐流播放，并允许用户叠加提示词，混合不同的音乐元素，类似于DJ叠加音轨的方式。
来源：柒柒AI导航

10.Claude AI 上线新工具：分析、可视化 CSV 文件中的数据

科技媒体NeoWin报道，Anthropic公司推出Claude AI的新工具，该工具能编写和运行JavaScript代码，用于处理数据、分析并生成实时洞察。此工具将作为Claude.ai的内置功能，帮助不同领域的专业人员通过上传数据获得分析和建议，目前处于功能预览阶段。
来源：IT之家

2024.10.24

1.讯飞星火爆震撼大招，七项第一11个首发！年度最逼真虚拟人萌翻全场，多模态抢先GPT-4o

科大讯飞在2024全球1024开发者节上发布了讯飞星火4.0 Turbo，该模型在多模态交互和超拟人数字人交互方面取得重大突破，实现了语音、视觉、虚拟人交互的“三合一”，并在多个领域取得领先地位。同时，科大讯飞推出了星火多语言大模型，支持8个新语种，性能接近GPT-4o。
来源：新智元

2.集成ChatGPT，苹果AI更多功能放出！最新开发者测试版系统发布

苹果发布了iOS 18.2、iPadOS 18.2和macOS Sequoia 15.2的开发者测试版，引入了更多Apple Intelligence AI功能，包括集成ChatGPT、Image Playground图像生成应用、Image Wand iPad笔记应用中的AI工具、自定义Genmoji功能、Visual Intelligence视觉智能功能和Writing Tools的增强。
来源：新智元

3.“稚晖君”创业项目，智元机器人宣布灵犀 X1 面向全球开源

智元机器人宣布其人形机器人“灵犀 X1”面向全球开源，提供超过1.2GB的软硬件全套图纸和代码。这一开源行动旨在降低研发成本，促进科技爱好者和科创公司利用强化学习等算法开发个性化运控策略，并快速完成整机工程。灵犀 X1 以其高自由度和模块化设计，适用于多种应用场景。
来源：IT之家

4.百度入股镜象科技后者为AI临床心理大模型开发商

天眼查App显示，近日，深圳市镜象科技有限公司发生工商变更，新增北京百度网讯科技有限公司为股东，注册资本由约695.1万元增至约764.6万元，同时多位董事和监事发生变更。
来源：凤凰网科技

5.美图奇想大模型图像生成能力升级，上线一站式AI短片创作工具MOKI

10月24日消息，美图公司宣布旗下美图奇想大模型（MiracleVision）图像生成能力升级，支持超短文本到超长文本的内容输入，生图像成质感呈现从轮廓、光影到构图的全方位电影级画面。一站式AI短片创作工具MOKI同步上线
来源：钛媒体

6.香港中文大学联合趣丸科技开源MaskGCT语音大模型

10月24日消息，香港中文大学（深圳）与趣丸科技联合研发的语音大模型“MaskGCT”正式在Amphion系统中开源，面向全球用户开放使用。区别于传统TTS模型，该模型采用掩码生成模型与语音表征解耦编码的创新范式，在声音克隆、跨语种合成、语音控制等任务中展现出卓越性能。
来源：钛媒体

7.Zoom 推出 AI 助手2.0版本：轻松整理会议要点

Zoom发布了升级版人工智能助手AI Companion 2.0，该版本在整合Zoom Workplace及第三方应用信息方面有显著提升，能够更有效地总结和综合信息，提供更精确和相关的答案。新助手通过理解用户内容和记忆交互来提供个性化服务，并计划推出AI虚拟形象功能，以提供更智能化、便捷化的服务。
来源：AIYUN

8.ElevenLabs 推出全新AI语音生成工具 Voice Design

ElevenLabs 推出全新AI语音生成工具 Voice Design，它允许用户通过简单的文本描述来创建个性化的语音。这项工具提供了直观的文本提示功能，支持调节多个语音参数，包括年龄、性别、口音、语调和音高。
来源：柒柒AI导航

2024.10.23

1.Stability AI 宣布推出的图像生成模型Stable Diffusion 3.5

Stable Diffusion 3.5 是由 Stability AI 最新推出的开源图像生成模型，旨在提升用户的创作体验。该版本引入了三种模型：Stable Diffusion 3.5 Large、Large Turbo 和即将发布的 Medium，满足不同用户的需求。Large 模型具有 80 亿参数，适合专业应用，能够生成高达 1 兆像素的高质量图像
来源：柒柒AI导航

2.Anthropic发布升级版Claude 3.5 Sonnet和全新模型Claude 3.5 Haiku

Anthropic公司发布了升级版的Claude 3.5 Sonnet和新的Claude 3.5 Haiku模型，其中Claude 3.5 Sonnet新增了computer use功能，能模拟人类操作计算机。尽管在编码能力上显著提升，但这些AI模型在可靠性和安全性方面仍存在挑战。
来源：柒柒AI导航

3.消息称微软亚洲研究院前首席研究经理谭旭加入月之暗面

微软亚洲研究院前首席研究经理谭旭已加入月之暗面科技有限公司，主要负责研发端到端语音模型。谭旭在深度学习、语言/语音/音乐处理和AI内容生成领域有显著成就，其研究成果广泛应用于微软产品中。
来源：和讯网

4.智谱与中国三星官宣战略合作：AI 手机与 GLM 大模型相结合

智谱AI与中国三星宣布达成战略合作，旨在将三星的AI硬件优势和智谱的GLM大模型相结合，共同开发个性化的AI手机和智能服务。此次合作将推动AI手机领域的创新，提升用户体验。
来源：品玩

5.JetBrains 为开发者打造最强 AI 助手 Mellum：为编程而生，延迟低、补全快、准确度高

JetBrains公司推出了专为开发者设计的大语言模型Mellum，旨在提供快速、智能的代码补全。Mellum支持Java、Kotlin、Python等流行编程语言，具有低延迟、高性能和高准确度的特点。它深度集成了JetBrains IDE，能够提供符合项目需求的上下文代码建议，并且承诺训练数据仅来自公开可用的代码，确保用户隐私。
来源：IT之家

6.WPS鸿蒙原生应用发布数十项AI功能即将适配

2024年10月23日，金山办公在华为新品发布会上宣布WPS鸿蒙原生应用正式发布，并将上线具备大语言模型能力的人工智能应用WPS AI。WPS鸿蒙版已实现多种文档格式编辑处理的兼容，并适配多设备交互方式，提供一致的交互体验。金山办公将与鸿蒙生态合作，在AI和协同办公领域推出更多产品。
来源：凤凰网科技

7.Cohere推出多模态嵌入模型，升级企业搜索功能

Cohere公司推出了多模态嵌入模型Embed 3，该模型能够处理图像和文本的嵌入，提升企业搜索功能。此升级使得企业能更全面地利用图像数据，提高员工生产力。Embed 3支持超过100种语言，具有统一的潜在空间，避免了传统方法的局限性，增强了混合模态搜索的效果。
来源：AIYUN

8.Genmo开源AI视频生成模型Mochi 1

Mochi 1是由Genmo推出的开源视频生成模型，基于非对称扩散变换器（AsymmDiT）架构，拥有10亿个参数，是当前最大的公开视频生成模型。它能够生成长达5.4秒、每秒30帧的视频，展现出高质量的运动和对文本提示的精准响应。
来源：柒柒AI导航

9.荣耀发布AI操作系统MagicOS 9.0

荣耀MagicOS9.0今日在国内发布，是行业首个搭载智能体的个人化全场景AI操作系统。荣耀CEO赵明表示，目前在大模型落地方面，不同设备采用灵活部署。其中，1500万参数的语言大模型、500万参数图像大模型实现全系列端侧部署，10亿参数的多模态大模型、30亿参数的大语言模型、4000万参数的图像大模型在中高端系列端侧部署。
来源：科创板日报

10.黄仁勋：AI带来新工业革命，英伟达正打造“AI大脑”

英伟达CEO黄仁勋在高德纳IT展览会上宣布，AI正引领一场新的工业革命，要求企业转型为AI驱动型组织。他强调AI的转变不仅在于更强计算力，而是重新定义工作本质。英伟达已将AI应用于芯片设计、软件编写和供应链管理，正在打造”AI大脑”。黄仁勋认为AI将带来新的行业革命，企业领导者应将AI集成到所有平台和数据库中，获取机构知识。他还提到代理型AI将是下一个大趋势。
来源：财联社

11.Runway 推出Act-One功能，简化面部动画创作流程

Runway 推出了一个名为 Act-One 的新功能，旨在帮助创作者为他们使用人工智能生成的视频角色添加更真实的面部表情。用户可以通过智能手机摄像头录制自己的面部表情，并将这些表情复制到 AI 生成的视频角色上。
来源：柒柒AI导航

12.Ideogram推出一项名为Canvas的新功能

加拿大AI图像初创公司Ideogram推出了一项名为Canvas的新功能，它允许用户操作和组合生成的图像。Canvas是一个互动的无限画布，用户可以在其中展开新生成的图像，与旧版本进行比较，随意调整大小和顺序，甚至将多个AI生成的图像合并成一个新的复合图像。
来源：柒柒AI导航

2024.10.22

1.ComfyUI官方宣布推出全新的一键安装客户端ComfyUI V1

ComfyUI官方宣布推出全新的一键安装客户端ComfyUI V1，旨在为用户提供更便捷的使用体验。该客户端支持Windows、macOS和Linux平台，具有轻量级打包（仅200MB）和自动更新功能，确保用户始终使用最新版本。新版本经过代码签名，启动时不会出现安全警告，提升了安全性
来源：柒柒AI导航

2.马斯克的 xAI 正式发布 API，开发者可将 Grok 集成到其他应用

埃隆·马斯克的人工智能公司xAI发布了Grok的API，允许开发者将Grok集成到其他应用中。用户需登录xAI账户并申请访问权限。目前，API提供“grok-beta”模型，定价为每百万输入token 5美元，输出token 15美元。该API支持与数据库、搜索引擎等外部工具集成。
来源：IT之家

3.大模型创业公司波形智能被OPPO收购

波形智能即将被OPPO收购，CEO姜昱辰将加入OPPO团队。此次收购是OPPO在人工智能领域的重要布局，波形智能拥有自主研发的中文创作垂直领域大模型Weaver及面向用户写作类Agent产品“蛙蛙写作2.0”。
来源：观点网

4.人工智能芯片公司Kneron据悉正以10亿美元的估值寻求上市前融资

知情人士透露，AI芯片初创公司耐能正商谈在最新一轮融资中筹集3亿美元，对该公司的估值约为10亿美元。文件显示，耐能希望将资金用于产品创新和扩张，包括在沙特开设地区办事处。
来源：36氪

5.Midjourney即将推出基于Web的AI图像编辑工具

Midjourney即将推出一款基于Web的AI图像编辑工具，具备AI驱动的图像编辑和重新贴图对象功能，用户可通过文本描述修改图像。鉴于潜在滥用风险，初期仅向部分用户开放，并计划增设人工与AI双重审核机制。此外，公司还在研发视频生成模型，提供低分辨率选项，以平衡速度、成本和质量。
来源：AIYUN

6.前OpenAI首席技术官启动新AI创业项目，成功筹集超亿美元投资

前OpenAI首席技术官米拉·穆拉蒂宣布启动新的AI创业项目，并成功筹集超过1亿美元投资。该项目旨在开发专有AI模型和产品，尽管具体细节未透露，但已引起科技界和投资者的广泛关注。穆拉蒂在AI领域的深厚背景和卓越贡献为新项目提供了坚实的基础。
来源：AIYUN

7.访问量激增！国产AI视频产品在海外杀疯了

近期，国产AI视频生成产品如MiniMax海螺AI和快手可灵AI在海外市场迅速走红，受到用户和博主的高度评价。这些产品在视频生成质量、稳定性和流畅性方面表现出色，访问量激增，显示出国内AI视频模型的显著优势。分析师认为，AI视频生成技术的发展将为广告营销、影视、游戏等传媒板块带来降本增效和内容资产价值重估。
来源：科创板日报

8.微软为Copilot Studio国际版新增自主智能体功能

10月22日消息，微软宣布，基于Copilot Studio国际版创建自主智能体的功能将在下个月公开预览。该公司将为Dynamics 365国际版引入十个新的自主智能体，以增强销售、服务、财务和供应链团队的能力。
来源：科创板日报

2024.10.21

1.中国移动上海产业研究院：金融领域 AI 大模型渗透率过半，系行业最高

2024年金融街论坛年会上，中国移动上海产业研究院副总经理陈豫蓉指出，金融领域AI大模型渗透率超过50%，是行业最高。智慧销售、智能问答和智能风控是金融行业AI大模型应用最成熟的场景。金融业因数据资源丰富和应用场景多元化，成为大模型技术应用的最优行业之一。但大模型存在不透明、不可预知和网络安全风险。
来源：IT之家

2.一年估值增14倍！AI搜索初创公司Perplexity拟融资5亿美元

人工智能搜索初创公司Perplexity计划融资5亿美元，目标估值达到80亿美元。该公司一年内完成三轮重要融资，估值从年初的5.2亿美元飙升至夏季的30亿美元。市场对AI初创公司的热情因OpenAI的巨额融资而高涨，推动了Perplexity的融资计划。尽管如此，Perplexity面临融资无法完全实现的风险，且融资条款可能变化。
来源：腾讯科技

3.IBM发布面向企业的人工智能模型新版本

IBM周一发布了面向企业的人工智能模型的最新版本，希望利用企业纷纷采用生成式AI技术的趋势。Granite 3.0模型将开源，类似于IBM Granite系列AI模型中的其他版本。此外，IBM提供了一种名为Watsonx的付费工具，可帮助在数据中心内运行定制的模型。
来源：科创板日报

4.证监会副主席李超：推动人工智能等新技术在资本市场深入应用

中国证监会副主席李超10月21日在2024金融科技大会金科论坛上表示，总体看金融科技在资本市场的应用日益成熟，为资本市场服务实体经济提供了有力支撑。下一步，证监会将推动人工智能等新技术在资本市场深入应用，助力资本市场高质量发展。
来源：科创板日报

5.北京新增12款已完成备案的生成式人工智能服务

根据《生成式人工智能服务管理暂行办法》，截至10月21日，北京市新增12款已完成备案的生成式人工智能服务，累计已完成94款生成式人工智能服务备案。已上线的生成式人工智能应用或功能，应在显著位置或产品详情页面，公示所使用已备案的生成式人工智能服务情况，注明模型名称、备案编号。
来源：36氪

6.Open Collective推出Magnum/v4系列模型，参数从9B到123B

Open Collective发布了Magnum/v4系列AI模型，参数从9B到123B不等，旨在为研究人员和开发者提供免费的大型语言模型资源。这些模型在设计上注重灵活性与效率，覆盖从边缘计算到前沿研究的广泛应用场景，有助于人工智能技术的民主化，让资源有限的群体也能使用高性能模型。
来源：AIYUN

2024.10.18

1.OpenAI 推出 Windows 版 ChatGPT 客户端：支持热键调用、暂仅限付费用户测试

OpenAI为Windows用户推出了ChatGPT的桌面客户端，目前仅限付费用户测试。该应用是网页版的封装，支持AI功能查询、文档上传和模型访问，可通过热键快速调用，但缺少高级语音模式。预计测试将于今年晚些时候完成，并向所有用户开放。
来源：IT之家

2.Siri 将更聪明：苹果加速整合 ChatGPT，正推进生成文本 / 图像技能

苹果公司正在为iOS 18、iPadOS 18和macOS 15开发新的Apple Intelligence特性，并在Siri中整合ChatGPT以提升其生成文本和图像的能力。这一整合将使Siri在处理复杂问题时更加智能，并增强用户的内容创建能力。同时，苹果强调在调用ChatGPT时会保护用户隐私。
来源：IT之家

3.这款AI眼镜，找到了智能眼镜最好的卖点

过去十年里，科技巨头不遗余力地投入智能眼镜的开发，试图投射数字屏幕，或者帮用户捕捉外界信息，尽管他们迄今为止尚未让智能眼镜成为人们日常的一部分，但这也没有阻止 Meta、谷歌等公司持续投入大量资金。
来源：凤凰网科技

4.Meta与好莱坞Blumhouse合作开发AI电影生成模型

Meta与Blumhouse Productions合作开发AI视频模型Movie Gen，旨在根据用户提示生成逼真的视频和音频片段。该模型已吸引包括阿尼什·查甘蒂和卡西·阿弗莱克在内的电影制作人试用，并将用于他们的影片制作中。Meta声称Movie Gen可与市场上其他文生视频模型竞争。
来源：钛媒体

5.微软Azure OpenAI服务将在中国大陆关停，个人开发者受影响

微软Azure OpenAI服务将在中国大陆地区停止对个人开发者的服务，仅企业客户可继续使用。该决定导致个人开发者面临合规使用OpenAI的难题，且微软未提供充分的处理时间。微软官方公众号曾发布相关文章后删除，引发外界猜测。目前，微软未就此事发表官方声明或提供后续处理方案。
来源：AIYUN

6.Google为NotebookLM增加音频概述自定义功能

Google为AI笔记助手NotebookLM新增了音频概述自定义功能，允许用户指导AI生成更符合需求的内容摘要。该功能通过Gemini 1.5 AI模型提供交互式音频节目，并可调整专业程度和内容焦点。此外，还引入了后台播放功能，并宣布推出面向企业用户的NotebookLM Business试点项目。
来源：AIYUN

7.社交平台X更新隐私政策允许第三方使用数据进行人工智能训练

10月18日消息，社交平台X更新服务条款和隐私政策显示，将允许第三方“合作者”利用X的数据训练其人工智能模型，除非用户选择退出，这一规则将从11月15日生效。
来源：科创板日报

2024.10.17

1.零一万物发布新旗舰模型 Yi-Lightning，LMSYS 测试国产首次超越 GPT-4o

Yi-Lightning是由零一万物公司推出的高性能语言模型，采用了混合专家模型架构（Mixture of Experts, MoE），结合了动态Top-P路由机制和混合注意力机制。这种创新设计使其在推理速度和效率上有显著提升，能够快速处理各种复杂任务。
来源：柒柒AI导航

2.英伟达开源新王登基！70B刷爆SOTA，击败GPT-4o只服OpenAI o1

英伟达开源了一款名为Nemotron-70B的AI模型，该模型在多个基准测试中超越了包括GPT-4和Claude 3.5 Sonnet在内的140多个开闭源模型，仅次于OpenAI的o1。Nemotron-70B基于Llama 3.1训练，采用了人类反馈强化学习，特别是新的混合训练方法和HelpSteer2-Preference算法。
来源：新智元

3.端侧 AI 崛起：Mistral 发布 Ministral 3B / 8B，“全球最好的边缘模型”

Mistral公司发布了两款AI模型Ministral 3B和8B，旨在提升端侧AI能力，无需云服务器即可在个人设备上运行AI模型，保证数据安全和提高响应速度。这两款模型能在无互联网情况下执行翻译、分析等服务，上下文窗口为128K，价格分别为每百万tokens 0.1美元和0.04美元。
来源：IT之家

4.支付宝发布“湾事助手”支小宝智能体：AI 带你看广交会

支付宝联合广东省政务服务和数据管理局发布了“湾事助手”支小宝智能体，旨在服务广交会全球供采商。该智能体通过支付宝App或支小宝App提供全程AI服务，包括看展攻略、讲解、出行、展品查询等，并为粤港澳大湾区居民提供多项双语生活服务。
来源：IT之家

5.OPPO 发布 ColorOS 15 系统，推出一键问屏等AI功能

2024年OPPO开发者大会上，OPPO推出了ColorOS 15系统，该系统新增了超级小布助手功能，包括一键问屏、一拍即问等AI功能。ColorOS 15能够进行多轮自然对话，实现应用间的生态交互，并具备AI去反光、超清像素、文档助手等实用功能。
来源：品玩

6.波士顿动力宣布与丰田研究所合作，为 Atlas 机器人增加 AI 能力

波士顿动力公司与丰田研究院宣布合作，旨在为仿真机器人Atlas增加基于AI的智能。合作将利用丰田研究院的大型行为模型（LBM）技术，类似于大型语言模型，以提升Atlas的智能水平。波士顿动力今年4月已公布电动Atlas的设计方案。
来源：品玩

7.国内首个应用临床眼科大模型 “伏羲慧眼”发布

10月17日消息，国内首个应用临床的眼科大模型——VisionFM（“伏羲慧眼”）正式发布。“伏羲慧眼”大模型具备筛查、诊断眼科疾病的强大功能，能够预测疾病发展趋势。而且，这款大模型不仅仅局限于眼科领域，而是以眼科为基础，逐步向心血管、呼吸、代谢及肿瘤等慢病防控领域拓展，打造一个全方位、多层次的健康管理系统
来源：钛媒体

8.Pika 1.5 再次更新，添加更多 AI 视频特效

Pika 1.5版本更新，引入了名为”Pikaffects”的AI视频特效，包括崩溃、溶解、放气和ta-da等，允许用户通过简单操作将图片转换成带有动画的视频。同时保留了之前的六种特效，如膨胀、熔化、爆炸等。
来源：柒柒AI导航

2024.10.16

1.阿里国际 Marco 翻译大模型发布：支持中英日韩西法等 15 种主流语言

阿里国际AI团队发布支持15种主流语言的Marco翻译大模型，其在BLEU自动评测指标上优于Google翻译、DeepL等。Marco通过高质量多语言数据和混合专家技术，提供高质量翻译，满足个人用户多样化需求。
来源：IT之家

2.Adobe 推出多款 AI 工具：可构建 3D 场景、消除路人、清洁镜头

Adobe在近期的Adobe MAX大会上展示了多款实验性AI工具，这些工具包括Project Scenic、Project Motion和Project Clean Machine，分别用于创建3D场景、动画制作和清理图像视频。这些工具未来可能被整合到Creative Cloud中，以增强用户体验。
来源：IT之家

3.中国智造实现人形机器人与无人车协同作业为全球首个

优必选在北京经济技术开发区发布新一代工业人形机器人Walker S1，该机器人已在比亚迪汽车工厂实训，并与无人物流车等设备协同作业，为全球首例。Walker S1解决了视觉定位、运控算法和关节散热等关键难题，满足工业场景需求。
来源：凤凰网科技

4.摩托罗拉宣布即将在其智能手机中推出一系列AI功能

摩托罗拉宣布将推出一系列Moto AI功能，旨在改变智能手机用户体验，包括协助、捕捉和创造。新功能将通过自然语言与AI助手对话，扩展到日常任务，并实现工作自动化。三款新工具包括“Catch Me U”、“Pay Attention”和“Remember This”，分别用于总结个人通信、转录对话和捕捉屏幕信息。这些功能将在今年晚些时候推出，并根据用户反馈进行调整。
来源： cnBeta

5.火山引擎飞连首发大模型IT赋能平台，助力企业办公智能化

10月16日，火山引擎在上海举办飞连新品发布会，推出行业首个大模型IT赋能平台。据介绍，该平台接入豆包大模型，通过All in One产品架构统管身份、网络、终端、数据等IT的核心要素，在多场景落地AI应用，助力企业提升IT管理效率和员工办公体验。
来源：36氪

6.李开复：最新预训练模型Yi-Lightning超越GPT-4o，中美顶尖模型只差5个月

零一万物创始人李开复宣布推出新的预训练模型Yi-Lightning，该模型在国际权威盲测榜单LMSYS上超越OpenAI GPT-4o，成为中国排名第一的模型。Yi-Lightning以其高性价比和快速推理速度，成为适合各种应用场景的模型。李开复强调，尽管中国在预训练领域落后于美国，但差距正在迅速缩小。
来源：钛媒体

7.联想与Meta合作基于Llama大模型推出面向PC的个人AI智能体AI Now

联想与Meta合作，基于Llama大模型推出个人AI智能体AI Now，旨在提升PC端的工作效率和用户体验。AI Now结合AI技术与PC计算能力，提供个性化智能助手服务，支持复杂任务处理。合作背景是AI技术的快速发展和市场需求增长，旨在推动行业发展，重新定义工作方式。
来源：智领云科技

2024.10.15

1.Adobe推出文生视频AI模型向OpenAI和Meta发起挑战

Adobe在MAX年度大会上宣布推出Firefly视频AI模型，加入生成式AI影视制作的竞争。Firefly视频模型将与OpenAI的Sora、字节跳动和Meta的产品竞争，专注于合法商业使用。Adobe强调，Firefly不会制作涉及儿童或公众人物的视频，并会标记AI制作内容。
来源：财联社

2.微软GenAI副总裁Sebastien Bubeck将离职，加入OpenAI

微软当地时间10月14日表示，公司GenAI副总裁Sebastien Bubeck将离职，加入OpenAI。目前尚不清楚Bubeck将在OpenAI担任何种角色。微软发言人表示，“Sebastian已决定离开微软，继续致力于开发人工通用智能（AGI）”，期待通过Bubeck在OpenAI的工作继续保持两家公司的合作关系。
来源：钛媒体

3.美国政府据悉考虑限制英伟达、AMD向部分国家销售AI芯片，重点针对波斯湾国家

拜登政府官员已经讨论，限制英伟达和其他美国公司先进AI芯片的销售，此举将限制一些国家的AI能力。知情人士表示，为了国家安全利益，新规将对某些国家的出口许可设定上限。知情人士称，官员将重点放在波斯湾国家，这些国家对AI数据中心的需求越来越大，且有雄厚财力提供资金。
来源：钛媒体

4.第44届海湾信息技术展在迪拜开幕人工智能成焦点

第44届海湾信息技术展当地时间10月14日在阿联酋迪拜开幕。为期5天的展会吸引了来自180多个国家和地区的6500余家企业参展。本次展会共分为5大主题，包括科技投资、超级人工智能、网络安全、数据管理、未来主义等。人工智能，尤其是生成式人工智能是今年展会的最大焦点。
来源：科创板日报

5.中国海油发布“海能”人工智能模型

中国海油发布“海能”人工智能模型，与中国电信、科大讯飞等合作，推出5个专业场景模型和6个通用场景模型，旨在提升产业数智化水平，降低成本和风险。
来源：IT之家

6.微软探索音生图 AI 模型，实时视觉化会议演讲者语音讲述的场景

微软获得一项新专利，该技术能够实时将会议或演讲中的语音转换成文本，并利用AI模型生成与内容相关的图像。这一功能预计将集成到Microsoft Teams中，以增强视觉沟通效果，特别适合视觉辅助学习的用户。
来源：IT之家

2024.10.14

1.智谱开源文生图模型 CogView3-Plus

智谱技术团队宣布开源文生图模型CogView3及CogView3-Plus-3B，这些模型已集成至“智谱清言”App。CogView3采用级联扩散技术，分三个阶段生成高分辨率图像，性能优于SDXL模型，推理时间更短。CogView3-Plus引入DiT框架，通过Zero-SNR扩散噪声调度和文本-图像联合注意力机制，降低训练和推理成本。
来源：智谱AI

2.优必选发布全新一代工业人形机器人 Walker S1，进入比亚迪等汽车工厂实训

优必选公司发布了新一代工业人形机器人Walker S1，并已在比亚迪等汽车工厂进行实训。Walker S1实现了与多种无人物流设备和智能制造系统的协同作业，成为全球进入最多车厂实训的人形机器人。该机器人具备多模态感知、一体化关节和仿人灵巧手等先进技术。
来源：IT之家

3.中国移动研究院发布网络运行智能（AIR）训练及开放平台

2024年中国移动全球合作伙伴大会上，中国移动研究院联合华为、中兴等合作伙伴发布了网络运行智能（AIR）训练及开放平台。该平台旨在通过AI技术提升网络运行的实时性、可靠性和效率性，实现网络运行状态的全面感知、能力编排和策略决策。平台包含智能控制体、网络运行基础模型、数据治理工具集和开放仿真环境，支持网络AI能力需求方高效研发行业模型应用。
来源：IT之家

4.我国生成式人工智能服务大模型的注册用户超过6亿

我国人工智能核心产业规模不断扩大，生成式AI服务大模型注册用户超6亿，企业数量超4500家。德勤认为生成式AI是推动产业链、供应链优化升级的关键驱动力。万联证券指出，国家出台政策推动生成式AI发展，已在多个领域广泛应用。但同时也要看到技术带来的挑战，确保用户数据安全。
来源：环球网财经

5.Canalys：预计2025年中东地区AI PC出货量将增长204%

Canalys最新报告显示，中东地区2025年AI PC将增长204%，其中85%的出货量来自Windows设备。企业需求将激增310%，主要集中在文本和图像生成、会议纪要等生产力工具上。消费市场的AI PC的增长(136%)将主要来自内容创作、教育和游戏领域的小众用户。
来源：科创板日报

6.机构：2031年全球智能戒指市场规模达1.97亿美元

智能戒指作为智能医疗市场的一种新设备类型而受关注。据全球市场研究公司Business Research Insight最新预测，全球智能戒指市场规模预计将从去年的2000万美元增长到2031年的1.97亿美元，以平均每年28.9%的速度增长。
来源：科创板日报

2024.10.12

1.中国移动发布九天善智多模态基座大模型及30款自研行业大模型

10月12日消息，在第12届中国移动全球合作伙伴大会主论坛上，中国移动发布九天善智多模态基座大模型，并推出30款自研行业大模型。九天善智多模态基座大模型是九天系列通用大模型的最新研发成果，模型在长文本智能化解析、全双工语音交互、视频与图像处理能力、结构化数据深度洞察等方面显著提升。
来源：钛媒体

2.上海交大联合开发 AI 系统，首次实现孕前精准预测流产风险

上海交通大学李金金教授领导的团队开发了一种AI算法，通过分析血清代谢物，首次在怀孕前实现精准预测流产风险。这项研究揭示了组氨酸水平异常升高与流产风险的紧密关联，并构建了高精度的流产风险预测模型AI-MP。
来源：IT之家

3.OpenAI今天Open了一下：开源多智能体框架Swarm

OpenAI发布了一个实验性的多智能体编排框架Swarm，旨在简化多智能体用例的工作流程。Swarm以工效和轻量为特点，通过智能体和交接的原语抽象，实现智能体间的协作和执行。该框架适合需要大量独立功能和指令的场景，与Chat Completions API紧密集成，提供高度的透明度和细粒度控制。
来源：机器之心

4.上海国投牵头徐汇资本、米哈游、商汤等成立百亿人工智能生态基金

记者从上海国投方面了解到，由上海国投公司牵头，联合徐汇资本、临港控股、漕河泾总公司等国资平台和米哈游、商汤科技、哔哩哔哩等企业，共同发起设立上海人工智能生态基金，基金规模100亿元，首期30亿元，落地于徐汇区。
来源：科创板日报

5.OpenAI 推出 meta-prompt功能，改进用户提示词

OpenAI 最近发布了 meta-prompt 功能，旨在提高用户为大语言模型创建和改进提示的效率。这一功能通过结构化方法，结合最佳实践和经验教训，提供快速起点，帮助用户生成有效的提示。
来源：品玩

2024.10.11

1.“Kimi崩了”登上热搜！月之暗面发布Kimi探索版，搜索量增强10倍

月之暗面公司发布Kimi探索版，该版本通过AI技术颠覆传统搜索方式，模拟人类推理思考过程，提供更全面、准确的答案。Kimi探索版的搜索量是普通版的10倍，能高效完成复杂任务。发布后，Kimi平台因访问量激增而短暂崩溃，但已恢复。
来源：钛媒体

2.特斯拉首款无人驾驶出租问世，马斯克掀翻全场！无方向盘、无踏板

马斯克的L5级自动驾驶汽车原型Cybercab，刚刚震撼亮相！没有方向盘、没有电门、没有刹车，也没有后视镜，3万美元，预计在2027年之前量产。观众激动的声浪，要把全场掀翻了。全球首款无方向盘全自动驾驶汽车，终于来了！
来源：新智元

3.豆包大模型再造爆款：抖音“AI绘本特效”播放超11亿

2023年国庆期间，抖音推出的“AI治愈绘本”特效凭借其创新的3D翻书形式和高还原度图像生成能力，获得了超过11亿次播放。该特效基于字节跳动的豆包大模型，结合RealCustom和ByteEdit技术，实现了个性化定制和自然背景填充，两项技术均入选了CVPR2024和ECCV2024。
来源：机器之心

4.微软助推医疗行业 AI 变革：新增智能体服务、扩充 Azure 大模型

微软公司在医疗行业推出了一系列AI服务和工具，包括医疗智能体服务和Azure AI模型，以提高医疗服务效率和安全性。这些工具旨在帮助医疗机构开发人工智能代理，支持预约调度、临床试验匹配等，并提供临床安全API和医学影像分析工具。
来源：IT之家

5.香港面向 AI 启动财政支持计划，AI 超算中心 11 月底正式启用

香港数码港宣布将启动AI资助计划并将于11月底启用AI超算中心，以支持本地人工智能项目。该计划提供高达70%的超算服务资助，为期3年，拨款30亿港币，旨在促进本地人工智能发展和科研突破。超算中心将配备英伟达DGX H800 GPU，提供高速计算和存储网络。
来源：IT之家

6.字节跳动清华AIR成立联合研究中心，推动大模型产学研合作

清华大学智能产业研究院（AIR）与字节跳动联合成立“可扩展大模型智能技术联合研究中心（SIA Lab）”，旨在推动预训练大语言模型技术的发展。双方将通过产学研合作，实现大模型底层技术突破与产业应用构建，促进人工智能领域的开放研究合作，助力技术进步。
来源：量子位

7.手机厂开卷AI这一年端侧大模型越做越小

2023年下半年以来，AI大模型在手机行业迅速发展，国内手机厂商如vivo、OPPO、华为等纷纷在生成式AI上投入研发。端侧大模型尺寸不断缩小，30亿参数模型可能成为未来标配。云端大模型成本大幅下降，大规模端侧普及对降本起到关键作用。AI有望催生新的硬件品类，尤其是智能眼镜。尽管AI功能尚不成熟，但从长远来看，未来10年将带来革命性变化。
来源：科创板

8.工业和信息化部与北京市召开推动人工智能赋能新型工业化座谈会

2024年10月10日，工业和信息化部与北京市召开座谈会，旨在深化合作推动人工智能赋能新型工业化。会议强调了新型工业化的重要性，讨论了科技创新、数字赋能、低碳减排、区域协同等关键领域，并达成共识，将加强合作，共同推进人工智能产业高质量发展，为新型工业化提供支撑。
来源：工信部

9.中信证券：半导体产业整体温和复苏后续期待AI与国产化持续拉动高需求

中信证券研报指出，半导体产业目前处于温和复苏状态，预计2025年规模将增长。云端算力和端侧AI将是新增长点。国内半导体产业受益于政策支持和国产替代，特别是在端侧AI领域。建议关注云端算力、端侧AI、半导体设备市场、晶圆/封测厂核心资产和汽车工业需求等五条主线。
来源：科创板日报

2024.10.10

1.vivo发布全新AI战略“蓝心智能”　个人智能体“PhoneGPT”亮相

2024年10月10日，vivo在开发者大会上宣布了全新的AI战略“蓝心智能”，并推出了个人智能体“PhoneGPT”。蓝心智能融合了大模型技术与手机操作系统，旨在提供个性化服务并保护用户隐私。vivo还展示了基于蓝心大模型技术的智能体，能够识别屏幕、进行自主对话并完成任务。此外，vivo发布了升级的蓝心大模型矩阵，以提升AI能力并构建开放的智能体生态。
来源：证券时报网

2.Google Gemini最新AI图像生成器Imagen 3现已向所有人开放

Google的AI图像生成器Imagen 3已向公众开放，提供高逼真度和更好的指令跟踪，支持多种艺术风格。Imagen 3每次提示只生成一张2048×2048分辨率的图像，现已全面推出，包括对非付费用户开放。
来源： cnBeta

3.2024 科大讯飞全球 1024 开发者节官宣：首发多模态视觉交互、超拟人虚拟人交互能力

2024年科大讯飞全球1024开发者节将于10月24日在合肥举行，届时将发布星火大模型升级版，重点提升数学、代码和长文本能力，中英文综合能力领先，训练推理效率提升。此外，将首次发布多模态视觉交互和超拟人虚拟人交互能力，旨在打造极致人机交互体验，并在教育、医疗等领域升级行业大模型及应用产品。
来源：IT之家

4.字节跳动发布 GR-2 机器人 AI 大模型：任务平均完成率 97.7%，模拟人类学习处理复杂任务

字节跳动发布第二代机器人大模型GR-2，模拟人类学习过程处理复杂任务。该模型在预训练阶段观看了大量视频和文本，具备泛化能力。微调阶段实现了超过100个任务平均成功率97.7%，展现了在新场景中的卓越泛化能力。
来源：IT之家

5.Google推出Gemini Code助手企业版提供企业级人工智能编程协助

Google宣布推出Gemini Code Assist Enterprise，旨在为企业提供人工智能编程辅助。该工具利用大型上下文窗口，提供代码补全、生成函数或代码块、创建单元测试等功能。支持20多种编程语言，并可在多个集成开发环境中使用。企业版还提供代码定制功能，支持索引GitHub.com和GitLab.com的代码库，并承诺不使用企业私有代码训练模型。
来源：cnBeta

6.字节跳动豆包首款AI智能体耳机Ola Friend发布

IDC数据显示，2024年上半年中国蓝牙耳机市场出货量达5540万台，同比增长20.8%。如今豆包发布全新Ola Friend耳机，标志着字节跳动除了在软件层面，还希望在AI硬件领域进一步扩展和深化。
来源：钛媒体

7.Zoom现在可制作人工智能化身与团队对话

Zoom 距离让人工智能化身出席会议又近了一步。作为更广泛的人工智能扩展的一部分，Zoom 宣布它将很快允许您创建一个自己的人工智能化身，您可以用它来向团队发送简短的信息。
来源： cnBeta

8.人工智能初创公司Writer推出新模型与OpenAI竞争估值达19亿美元

人工智能初创公司Writer推出新型AI模型，以较低成本与OpenAI等竞争，估值达19亿美元。Writer利用合成数据降低训练成本，同时保护隐私，受到投资者关注。尽管合成数据存在争议，Writer强调其数据的真实性和清晰性。公司服务包括文本生成、数据分析和定制AI应用，拥有250多家企业客户。生成式AI市场预计十年内收入超1万亿美元。
来源：新浪财经

2024.10.9

1.2024 诺贝尔物理学奖得主“AI 教父”辛顿：最担心 AI 最终反噬人类

2024年诺贝尔物理学奖授予杰弗里·辛顿和约翰·霍普菲尔德，表彰他们在机器学习领域的创新突破。辛顿在获奖后表达了对AI技术快速发展的担忧，强调了AI发展可能带来的风险，并呼吁各界合作确保AI发展符合伦理标准。
来源：IT之家

2.Adobe 将推出全新免费应用：创作者可在作品上附上“证书”防止被 AI 使用

Adobe宣布将推出一款免费应用，帮助创作者在作品上附加“内容凭证”，以防止其作品被AI训练系统使用。该应用将允许创作者标记作品信息，并可选择禁止作品被用于AI训练。Adobe正推动行业采用其标准，但尚未有大型AI公司公开支持。应用计划于2025年第一季度公开测试。
来源：IT之家

3.OpenAI 将在新加坡、巴黎和布鲁塞尔开设办事处以促进全球扩张

OpenAI 在 X上发表文章称，作为公司全球扩张努力的一部分，除了在旧金山、伦敦、都柏林和东京的现有办事处外，它还将在纽约、西雅图、巴黎、布鲁塞尔和新加坡等多个城市开设新的办事处。
来源： cnBeta

4.Anthropic以更为经济实惠的异步批处理技术挑战 OpenAI

人工智能公司Anthropic于本周二推出了新的消息批量 API，使企业能够以标准 API 调用一半的成本处理大量数据。这一新产品可在 24 小时内异步处理多达 10000 次查询，这标志着企业在处理大数据时向更方便、更经济高效地使用高级人工智能模型迈出了重要一步。
来源： cnBeta

5.智谱清言鸿蒙版上线

智谱清言鸿蒙版是国产大模型，专为纯血鸿蒙系统设计，已适配HarmonyOS NEXT。它提供多轮对话、写作辅助、代码生成、AI搜索和AI画图等功能，并且支持50万个智能体，满足个性化和特定领域需求，为鸿蒙用户带来高效、智能、便捷的体验。
来源：智谱清言

6.OpenAI与媒体巨擘赫斯特达成协议 ChatGPT再获高质量内容助力

OpenAI与赫斯特达成协议，将赫斯特旗下杂志和报纸内容引入ChatGPT，提升AI聊天机器人内容质量和可信度。此举有助于OpenAI解决版权争议，增强AI推理分析体系。赫斯特内容将注明出处，提供透明度。OpenAI已与多家媒体达成协议，提升内容竞争力。
来源：智通财经

7.OpenAI宣布收到英伟达首批DGX B200工程机

OpenAI10月9日在社交平台上宣布，收到英伟达的首批DGX B200工程机。DGX B200配备8个NVIDIA Blackwell GPU，并与第五代NVIDIA NVLink相互连接，与前几代相比，训练效能和推理效能分别达到先前的3倍和15倍。
来源：科创板日报

8.多家公司三季报业绩预增半导体人工智能景气向好

10月8日晚，A股多家上市公司三季报预告出炉。受益于下游新能源汽车、服务器等领域需求提升，多家半导体、人工智能上市公司订单充足，前三季度净利润预增。今年以来新能源汽车赛道产销两旺，带动产业链公司业绩持续向好。
来源：证券时报·e公司

9.Gemini更新：免费用户获文件上传分析权限，Gemini Live新增搜索功能

Google宣布为所有Gemini用户提供免费文件上传和分析服务，包括32,000个令牌上下文窗口和每日使用限制。此外，Gemini Live新增搜索功能，提供更及时、相关的信息。
来源：AIYUN

10.Atlassian 宣布推出 Rovo 生成式 AI 助手

Atlassian公司宣布其新的生成式人工智能助手Rovo已全面上市。Rovo是一款针对企业客户的智能助手，能够从公司内部工具中提取数据，帮助查找和处理存储在其中的信息。Rovo自去年推出，已经与数千名客户进行了封闭测试。
来源：柒柒AI导航

11.Meta 推出用于制作视频广告的新型生成式 AI 工具

Meta公司在2024年的广告周活动中宣布了一系列新的视频和AI功能，旨在提升其广告平台的性能。首先，Meta推出了在Facebook上的全屏视频标签，以满足用户对视频内容的高需求。此外，Meta还推出了多种新的视频广告格式，包括独立视频广告、轮播广告、流内广告和覆盖广告，以吸引用户的点击。
来源：柒柒AI导航

12.Hailuo AI上线图片生成视频新功能

Hailuo AI 最近推出了其创新的图像到视频（img2video）功能，旨在为内容创作者提供全新的创作工具。该功能允许用户将静态图像转化为动态视频，极大地扩展了视觉表达的可能性。通过简单的操作，用户可以将单张或多张图片合成生动的视频，适用于社交媒体、广告和个人项目等多种场景。
来源：柒柒AI导航

2024.10.8

1.沃达丰将与谷歌合作推广人工智能手机和服务

英国移动通信巨头沃达丰集团与谷歌合作，将为欧洲和非洲客户提供云服务、人工智能工具和网络安全服务。沃达丰将推广谷歌云存储订阅服务，包括Google One AI Premium，并展示Pixel设备人工智能功能。双方还将合作改进沃达丰电视盒服务和开发新的云网络安全产品。
来源：新浪财经

2.香雪制药与华为云达成合作，推出智慧中医诊疗大模型

近日，黄埔区卫生健康局与香雪制药、华为云达成合作并正式签约，共同推出智慧中医诊疗大模型。据介绍，智慧中医诊疗大模型由香雪制药研发，融合了香雪中医药的产业、研发优势与华为云盘古大模型的技术优势。该项目是华为云盘古大模型在广州市的首个落地项目。
来源：36氪

3.Inflection AI推出面向企业版AI系统

Inflection AI推出了面向大型企业的AI系统——Inflection for Enterprise，基于Inflection 3.0模型构建，提供强大的生态系统和安全性。该系统支持本地、云或混合部署，与UiPath合作实现自动化支持。Inflection for Enterprise整合了Intel的Gaudi 3 AI加速器和Intel Tiber AI Cloud，提供高性价比的解决方案，并引入了专有的微调系统，通过员工反馈进行强化学习，以适应企业需求。
来源：AIYUN

4.Anthropic公司升级Claude功能，突破20万Token处理限制

Anthropic公司宣布其大型语言模型Claude的功能升级，现在可以处理超过20万tokens的文件，显著提升了大型文件处理能力。这一技术进步将增强Claude在编码和其他需要处理大量数据的应用场景中的实用性。
来源：AIYUN

5.工信部：首次将5G-A融合AI、智能天线调整等创新技术规模应用于节假日保障

工业和信息化部高度重视国庆假期和新中国成立75周年相关活动通信保障服务工作，全力营造良好通信网络环境，保障人民群众平安祥和过节，实现“零重大网络故障、零重大网络运行安全事件、零重要用户投诉”服务保障目标。首次将5G-A融合AI、智能天线调整等创新技术规模应用于节假日保障，网络总流量、总话务量和用户感知提升显著。
来源：科创板日报

6.Squarespace 推出新型AI网站构建器Design Intelligence

Squarespace是一家网站构建平台，它最近推出了名为Design Intelligence的新型网站构建工具，该工具集成了生成式人工智能技术。Squarespace的首席产品官Paul Gubbay在接受采访时表示，他们的目标是帮助用户通过AI工具创建更好的网站，而不是让网络充斥着垃圾信息。
来源：柒柒AI导航

7.人工智能平台联盟将系统和芯片公司聚集在一起

AI Platform Alliance是一个致力于将关键芯片和硬件结合在一起，以提供更开放、经济和可持续的解决方案来运行现代AI计算服务的联盟。该联盟最初由AI加速器公司组成，现在已经扩展到包括云管理服务提供商、系统供应商和集成商以及软件公司，以满足AI推理用例的需求。
来源：柒柒AI导航

2024.10.7

1.Meta 证实：Ray-Ban 眼镜拍摄的照片和视频会被用于训练 AI 模型

Meta公司确认，用户通过Ray-Ban Meta智能眼镜拍摄的照片和视频可能被用于训练其AI模型。这一政策在多模态AI可用地区（美国和加拿大）适用，且符合隐私政策。用户若不主动提交数据给AI，则不会被用于训练。Meta在Connect大会上宣布了实时视频分析功能，但未明确提及用户数据用于AI训练的情况。
来源：IT之家

2.苹果Apple Intelligence功能即将于10月28日正式推出

苹果公司即将于10月28日发布Apple Intelligence功能，并与iOS 18.1系统同步推出。这项功能将免费提供给iPhone 15 Pro、iPhone 16及Pro版本用户，以及搭载M1或更新处理器的Mac和iPad用户。初始支持美式英语，12月将扩展至其他英语方言，2025年支持中文、法语、日语和西班牙语。iOS 18.2版本预计将带来Image Playground、Genmoji以及ChatGPT集成等新功能。
来源：AIYUN

3.英伟达推出ACE虚幻引擎5插件，打造逼真数字人

英伟达在2024年西雅图虚幻节上发布了ACE虚幻引擎5插件，该插件利用生成式AI技术，使NPC能进行动态交互，通过Audio2Face-3D插件实现唇形同步和面部表情，增强数字人的自然度。ACE技术结合RAG技术，提升数字人的反应逻辑性。此外，英伟达还提供了示例项目，帮助开发者快速上手。
来源：凤凰网科技

2024.10.5

1.富士通与超微合作打造基于 Arm 的液冷人工智能数据中心

科技公司正在竞相开发创新解决方案，以满足人们对不可思议的图像和其他生成式人工智能输出日益增长的需求，而且他们的步伐似乎还是不够快。富士通（Fujitsu）和超微（Supermicro）新近宣布建立合作伙伴关系，旨在解决人工智能最紧迫的挑战之一：功耗和效率。
来源： cnBeta

2.谷歌最便宜 AI 模型 Gemini 1.5 Flash 8B 将商用

谷歌即将推出最便宜AI模型Gemini 1.5 Flash 8B，专为多模态任务设计，包括大容量任务和长文本摘要。该模型具有较低延迟，适合聊天、转录和翻译任务，价格大幅降低，每百万tokens输出费用仅为0.15美元。
来源：IT之家

3.苹果Depth Pro AI模型掀起AR变革：零样本学习，单张2D图片0.3秒内变高清3D

苹果AI科研团队发布了Depth Pro AI模型，该模型能够在0.3秒内从单张2D图像生成高清3D深度图，无需传统相机数据预测。Depth Pro在细节捕捉上表现出色，且具备零样本学习能力，对AR等应用领域具有重要意义。该模型已在Github开源。
来源：凤凰网科技

2024.10.4

1.OpenAI 推出全新“Canvas”ChatGPT 界面，专门针对写作和编码项目

OpenAI在2024年10月3日推出了一个新的ChatGPT界面，名为“Canvas”，专为写作和编码项目设计。这个新界面在常规聊天窗口旁边打开了一个单独的窗口，提供了一个用于写作和编码项目的工作环境。用户可以直接在Canvas中生成文本或代码，然后选择工作的部分让模型进行编辑。
来源：柒柒AI导航

2.AI视频编辑应用Captions 为网站推出了一款由人工智能驱动的社交媒体管理器

视频编辑应用Captions推出了一款AI驱动的社交媒体管理工具，它能够为网站管理视频发布计划，并基于相关主题自动生成视频内容。该工具首先扫描网站内容，提取关键词、服务项目和销售点，然后创建内容计划。目前，该社交媒体策略主要针对Instagram Reels和TikTok视频，这并不令人意外，因为Captions专注于视频创作和编辑。
来源：柒柒AI导航

3.谷歌将广告引入其 AI Overviews 和 Lens 搜索工具

Google正在将其广告业务扩展到其人工智能（AI）概述和Lens搜索工具中。AI概述是Google搜索引擎针对某些查询生成的自然语言解释器，现在将允许品牌在这些解释器中展示广告。这些广告将显示在AI生成的文本和引用下方，当它们与查询和提供的回答相关时。
来源：柒柒AI导航

4.Sonar 现在可以检查 AI 生成的代码是否存在故障

SonarSource SA，以Sonar品牌运营，推出了两款新产品，旨在为人工智能驱动的软件开发提供支持。这些产品包括AI Code Assurance和AI CodeFix，它们分别用于检查由生成性AI助手创建的代码是否符合企业的质量与安全标准，以及推荐解决方案来修复已识别的问题。
来源：柒柒AI导航

5.DreamWorld 测试 AI 文本到 3D 资产生成，即将登陆 Steam

DreamWorld 是一家位于加利福尼亚州红木城的初创公司，它宣布将在 Steam 上推出一款名为《DreamWorld: The Infinite Sandbox MMO》的游戏的首次测试版。该游戏的特色是利用人工智能技术根据文本提示生成3D资产。这项AI功能是与Meshy合作开发的。
来源：柒柒AI导航

6.Credo AI 推出嵌入式负责任人工智能集成中心

Credo AI Inc. 是一家专注于人工智能治理软件的初创公司，最近推出了其新的集成中心（Integrations Hub），旨在帮助企业简化将AI系统和应用程序连接到其专业平台的过程，以自动化风险和监督管理。该公司在7月底完成了2100万美元的融资
来源：柒柒AI导航

7.投资者争相入股 ElevenLabs，该公司估值或很快达到 30 亿美元

ElevenLabs 是一家专注于为音频应用开发人工智能工具的初创公司，它正在吸引现有和新投资者的关注，可能会在新一轮融资中估值高达30亿美元。该公司成立两年，专业生产用于有声读物叙述和实时视频配音的合成声音AI工具。
来源：柒柒AI导航

8.Black Forest Labs 宣布推出 FLUX1.1 [pro] 和 BFL API

Black Forest Labs（BFL）发布了一个名为Flux 1.1 Pro的新型快速文本到图像模型，并推出了一个付费API，开发者可以利用这个API构建由该模型驱动的第三方应用程序。Flux 1.1 Pro模型比之前的版本快六倍，同时提升了图像质量、提示遵循度和多样性。
来源：柒柒AI导航

9.Meta 发布 AI 视频生成器 Movie Gen：可自动生成含声音的高清视频

Meta公司发布了一款名为Movie Gen的AI视频生成器，该工具能够根据文本自动生成带有声音的高清视频，并支持编辑现有视频和图像。尽管技术尚未成熟，但Meta表示Movie Gen未来将有广泛的应用前景。
来源：IT之家

10.Lumigator 评估框架登场：Mozilla 赋能开发者 AI 旅程，助其选择最佳模型

Mozilla 发布了名为 Lumigator 的新框架，旨在帮助开发者选择适合其项目的 AI 大语言模型（LLM）。Lumigator 强调透明高效的模型选择过程，对开发者友好，并采用开源方法。Mozilla 的愿景是使 Lumigator 成为开发者首选的开源平台，以确保以透明、道德的方式使用 AI。
来源：IT之家

11.OpenAI视频生成器Sora联合负责人已跳槽至谷歌

OpenAI视频生成器Sora的联合负责人蒂姆·布鲁克斯已离职，加入谷歌DeepMind，致力于视频生成技术和世界模拟器的研究。布鲁克斯对在OpenAI的工作表示感谢，并期待在DeepMind的新挑战。DeepMind首席执行官Demis Hassabis欢迎布鲁克斯的加入，认为他将帮助实现世界模拟器的愿景。布鲁克斯的离职发生在Sora面临技术挑战和激烈市场竞争之时。
来源：凤凰网科技

2024.10.3

1.OpenAI 融资 66 亿美元，目前估值 1570 亿美元

OpenAI，即ChatGPT的开发商，完成了历史上最大的一轮融资，筹集了66亿美元，使得公司估值达到1570亿美元。这轮融资由老投资者Thrive Capital领投，出资额为 16 亿美元。除这家风险投资公司外，还有六家以上的其他投资者加入。其中包括微软公司、Nvidia 公司、软银集团公司、Khosla Ventures、Altimeter Capital、Fidelity、Tiger Global 和 MGX。
来源：柒柒AI导航

2. 人工智能 AWS、Nvidia 和其他公司支持新的人工智能癌症研究计划

Cancer AI Alliance（CAIA）是一个由专注于癌症治疗的主要医疗机构组成的联盟，旨在通过利用人工智能（AI）的潜力来推进精准医疗。这个联盟由Fred Hutchinson、约翰霍普金斯、Dana Farber和Sloan Kettering等机构组成，他们将共同合作，利用4000万美元的资金和资源来推动这一领域的发展。
来源：柒柒AI导航

3.OpenStack 发布 2024.2 Dalmatian，具有 AI 和安全性增强功能

OpenStack社区发布了2024.2版本，代号“斑点狗”，这是该开源云基础设施软件的第30个版本。新版本引入了多项针对人工智能工作负载、安全性和用户体验的改进。首先，新版本增强了对AI和高性能计算的支持。Blazar服务更新，允许用户更有效地预定基于现有Nova配置的GPU实例。
来源：柒柒AI导航

4.Accenture和Nvidia 合作成立业务集团，扩大企业 AI 应用

Accenture和Nvidia合作成立了一个新的业务集团，旨在通过培训30,000名专业人员来帮助企业扩展人工智能（AI）的应用。这个新集团的目标是利用AI代理帮助客户重新设计流程，加速企业AI的采纳。Accenture的首席AI官Lan Guan表示，公司正在利用现有员工的才能，并培训现有员工及招聘新员工以实现新集团的目标。
来源：柒柒AI导航

5.AI 编码初创公司 Poolside 从 eBay、Nvidia 等公司筹集 5 亿美元

Poolside，一家人工智能编程平台，成功筹集了5亿美元的新资本。这笔资金是B轮融资的一部分，由Bain Capital Ventures领投，eBay和Nvidia等大型科技公司也参与了投资。这使得Poolside的总融资额达到了6.26亿美元，其估值达到了30亿美元。
来源：柒柒AI导航

6.OpenAI推出的语音识别模型 Whisper large-v3-turbo

Whisper v3 Turbo是OpenAI最新推出的自动语音识别（ASR）模型，旨在显著提高转录速度，同时保持高准确性。与之前的模型相比，Turbo版通过将解码器层数从32层减少到4层，实现了约8倍的速度提升，使其在M2 Ultra芯片上能在仅14秒内转录12分钟的音频，速度约为实时的50倍。
来源：柒柒AI导航

7.谷歌 DeepMind 携手 BioNTech 打造 AI 科学助手

谷歌DeepMind与BioNTech合作开发AI实验室助手，旨在帮助研究人员规划实验和预测结果。该项目由谷歌AI部门负责人领导，目标是转变医疗、能源和教育等行业。BioNTech推出了基于Meta开源模型的AI助手Laila，专家认为此次合作将对生物技术和能源等行业产生变革性影响。
来源：IT之家

8.硅谷风投大佬Khosla正经预言：80%行业被AI取代，人类终将进入“闲暇时代”

硅谷风投大佬Vinod Khosla预言，80%的职业工作将被AI取代，人类将进入“闲暇时代”。他提倡全民基本收入（UBI）来应对失业问题，并认为AI将使人类每周仅需工作3天。Khosla认为，AI技术将解放人类从事重复枯燥的劳动，使生活更丰富有意义。其他科技领袖如比尔·盖茨和马斯克也支持类似观点，认为AI将改变工作的本质。
来源：新智元

9.摩根大通：苹果牌AI技能待解锁，暂未“引爆” iPhone 16系列销量

摩根大通分析认为，苹果的AI功能Apple Intelligence尚未显著提升iPhone 16系列销量，可能由于AI功能的不完全解锁和初期订单拉动能力弱。尽管如此，预计苹果在2024年第四季度将销售7600万部iPhone，未来四个季度内将达到1.48亿部。
来源：新浪财经

2024.10.2

1.Pinterest 向广告商推出用于产品图像的 genAI 工具

Pinterest，一个以图片和购物为主的社交平台，最近推出了针对广告商的生成式人工智能（genAI）工具。此前谷歌、亚马逊等公司也采取了类似举措。在周二的Pinterest Presents广告商活动上，公司推出了其Pinterest Performance+套件的新功能，包括自动化和AI。这些新功能将允许广告商将白色、空白或平面背景转变为生活方式图像。
来源：柒柒AI导航

2.Runware 使用定制硬件和高级编排实现快速 AI 推理

Runware 是一家专注于AI推理（生成式AI）领域的初创公司，它通过使用定制硬件和高级编排技术来提高图像生成模型的推理速度。用户在Runware网站上输入提示并生成图像时，会发现生成速度极快，不到一秒即可完成。
来源：柒柒AI导航

3.微软通过新的生成式 AI 功能增强了 Copilot 和 Bing

微软公司今天为其 Copilot 聊天机器人和 Bing 搜索引擎推出了一系列新的人工智能功能。大多数功能都已在 Copilot 上推出。而 Bing 的增强功能将使该服务能够为用户查询提供更详细的答案。这两项更新都于今天早上开始向用户推出。
来源：柒柒AI导航

4.Google为Chromebook Plus添加多功能快速插入键和新的AI功能

Google与三星和联想合作推出新款Chromebook，并为现有设备增加AI功能。三星Galaxy Chromebook Plus新增多功能快速插入键，提供“帮我写”工具、表情符号和GIF搜索等。现有Chromebook用户可通过快捷键使用新功能。Google还推出“帮我阅读”工具，提供实时翻译功能，并改善视频通话质量。
来源： cnBeta

5.Windows 11将新增基于AI的搜索、生成式填充和其它AI功能

微软宣布为Windows 11增加基于AI的新功能，包括改进的Windows搜索、Click to Do、生成填充、擦除和照片的超级分辨率。这些功能旨在提高用户体验，通过AI技术简化操作和增强图像处理能力。新功能将首先在Windows Insiders中测试，预计11月公开推出。
来源： cnBeta

6.整合海量公共数据，谷歌开源AI统计学专家DataGemma

谷歌开源了名为DataGemma的大型公共统计数据库，旨在解决大语言模型在统计数据和信息处理上的幻觉问题。Data Commons数据库包含来自联合国、CDC等可信来源的超过2500亿个数据点。DataGemma模型通过通用架构桥接LLM与数据，使用单一通用API查询数据，提高信息的真实性。此外，Data Commons使用自然语言界面，允许用户用通用语言提出问题，并通过图表等方式探索数据库。
来源：新智元