LiveCC:新加坡国立大学联合字节推出的视频大语言模型
LiveCC项目简介
LiveCC是由新加坡国立大学Show Lab和字节跳动联合开发的新型视频大语言模型(Video LLM)。该模型通过大规模的流式语音转录(ASR)数据进行训练,能够实时生成视频评论。开发团队提出了一种新颖的流式训练方法,将ASR单词与视频帧根据时间戳密集交错,使模型能够学习到时间对齐的细粒度视觉-语言模型。为了支持这种训练方法,团队构建了Live-CC-5M预训练数据集和Live-WhisperX-526K用于高质量监督微调(SFT)的数据集。LiveCC在多个基准测试中表现出色,不仅在实时视频评论方面展现出优越性能,还在视频问答任务中达到了7B/8B规模模型的最佳性能,展现了其在视频理解和实时交互领域的巨大潜力。

LiveCC主要功能
-
实时视频评论:
-
能够对正在播放的视频内容进行逐帧分析,并生成与视频内容紧密相关的实时评论。
-
适用于体育赛事、新闻播报、教学视频等多种场景,为观众提供即时的解说和背景信息。
-
-
视频问答:
-
支持对视频内容进行问答,能够理解用户的问题并结合视频内容生成准确的回答。
-
适用于视频内容检索、教育视频互动等场景,增强用户与视频内容的交互性。
-
-
低延迟处理:
-
模型设计支持低延迟输出,能够在不到0.5秒的时间内处理每帧视频并生成评论,确保实时性。
-
适用于对实时性要求较高的应用场景,如直播互动、实时监控等。
-
LiveCC技术原理
-
流式训练方法:
-
将自动语音识别(ASR)转录的单词与视频帧按照时间戳密集交错,形成时间对齐的细粒度视觉-语言模型。
-
模型通过自回归方式预测文本标记,同时将视觉标记作为非预测输入,学习视频帧与ASR文本之间的时空关联。
-
-
大规模数据集构建:
-
利用YouTube视频及其字幕(CC)构建了Live-CC-5M预训练数据集,包含500万视频剪辑,用于模型的基础训练。
-
使用WhisperX生成高质量ASR转录,构建了Live-WhisperX-526K数据集,包含52.6万视频剪辑,用于监督微调(SFT)。
-
-
模型架构:
-
基于Qwen2-VL架构,结合视觉编码器和语言模型,支持动态分辨率和自回归预测。
-
在预训练阶段,模型通过视频标题和前一个ASR文本作为上下文信息,增强评论生成的连贯性和准确性。
-
-
实时推理:
-
在推理阶段,模型逐帧处理输入视频,缓存前一帧的键值对(KV)以加速语言解码。
-
对于长序列视频,模型会定期丢弃视觉标记,保留文本标记以重新填充模型,确保持续的低延迟输出。
-
-
评估与优化:
-
设计了LiveSports-3K基准测试,包含1702个高质量的实时评论样本和1174个多项选择题,用于系统评估模型的实时视频理解和评论生成能力。
-
通过与GPT-4o等模型的对比,验证了LiveCC在实时评论和视频问答任务中的优越性能。
-
LiveCC应用场景
-
体育赛事解说:为体育比赛提供实时解说,帮助观众更好地理解比赛进程和关键事件。
-
新闻播报:对新闻视频进行实时评论,为观众提供背景信息和分析。
-
教学视频互动:在教育视频中生成实时评论,增强学生与教学内容的互动性。
-
直播互动:在直播中实时生成评论,提升观众的参与感和互动体验。
-
视频内容检索:通过视频问答功能,帮助用户快速找到视频中的特定内容。
-
实时监控:在监控视频中实时生成警报或描述,提高监控系统的效率和准确性。
LiveCC项目入口
项目地址:https://github.com/showlab/livecc
Github地址:https://github.com/showlab/livecc
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...