LiveCC:新加坡国立大学联合字节推出的视频大语言模型

LiveCC项目简介

LiveCC是由新加坡国立大学Show Lab和字节跳动联合开发的新型视频大语言模型(Video LLM)。该模型通过大规模的流式语音转录(ASR)数据进行训练,能够实时生成视频评论。开发团队提出了一种新颖的流式训练方法,将ASR单词与视频帧根据时间戳密集交错,使模型能够学习到时间对齐的细粒度视觉-语言模型。为了支持这种训练方法,团队构建了Live-CC-5M预训练数据集和Live-WhisperX-526K用于高质量监督微调(SFT)的数据集。LiveCC在多个基准测试中表现出色,不仅在实时视频评论方面展现出优越性能,还在视频问答任务中达到了7B/8B规模模型的最佳性能,展现了其在视频理解和实时交互领域的巨大潜力。

LiveCC:新加坡国立大学联合字节推出的视频大语言模型

LiveCC主要功能

  1. 实时视频评论
    • 能够对正在播放的视频内容进行逐帧分析,并生成与视频内容紧密相关的实时评论。
    • 适用于体育赛事、新闻播报、教学视频等多种场景,为观众提供即时的解说和背景信息。
  2. 视频问答
    • 支持对视频内容进行问答,能够理解用户的问题并结合视频内容生成准确的回答。
    • 适用于视频内容检索、教育视频互动等场景,增强用户与视频内容的交互性。
  3. 低延迟处理
    • 模型设计支持低延迟输出,能够在不到0.5秒的时间内处理每帧视频并生成评论,确保实时性。
    • 适用于对实时性要求较高的应用场景,如直播互动、实时监控等。

LiveCC技术原理

  1. 流式训练方法
    • 将自动语音识别(ASR)转录的单词与视频帧按照时间戳密集交错,形成时间对齐的细粒度视觉-语言模型。
    • 模型通过自回归方式预测文本标记,同时将视觉标记作为非预测输入,学习视频帧与ASR文本之间的时空关联。
  2. 大规模数据集构建
    • 利用YouTube视频及其字幕(CC)构建了Live-CC-5M预训练数据集,包含500万视频剪辑,用于模型的基础训练。
    • 使用WhisperX生成高质量ASR转录,构建了Live-WhisperX-526K数据集,包含52.6万视频剪辑,用于监督微调(SFT)。
  3. 模型架构
    • 基于Qwen2-VL架构,结合视觉编码器和语言模型,支持动态分辨率和自回归预测。
    • 在预训练阶段,模型通过视频标题和前一个ASR文本作为上下文信息,增强评论生成的连贯性和准确性。
  4. 实时推理
    • 在推理阶段,模型逐帧处理输入视频,缓存前一帧的键值对(KV)以加速语言解码。
    • 对于长序列视频,模型会定期丢弃视觉标记,保留文本标记以重新填充模型,确保持续的低延迟输出。
  5. 评估与优化
    • 设计了LiveSports-3K基准测试,包含1702个高质量的实时评论样本和1174个多项选择题,用于系统评估模型的实时视频理解和评论生成能力。
    • 通过与GPT-4o等模型的对比,验证了LiveCC在实时评论和视频问答任务中的优越性能。

LiveCC应用场景

  1. 体育赛事解说:为体育比赛提供实时解说,帮助观众更好地理解比赛进程和关键事件。
  2. 新闻播报:对新闻视频进行实时评论,为观众提供背景信息和分析。
  3. 教学视频互动:在教育视频中生成实时评论,增强学生与教学内容的互动性。
  4. 直播互动:在直播中实时生成评论,提升观众的参与感和互动体验。
  5. 视频内容检索:通过视频问答功能,帮助用户快速找到视频中的特定内容。
  6. 实时监控:在监控视频中实时生成警报或描述,提高监控系统的效率和准确性。

LiveCC项目入口

项目地址:https://github.com/showlab/livecc

Github地址:https://github.com/showlab/livecc

模型下载地址:https://huggingface.co/chenjoya/LiveCC-7B-Instruct

在线体验:https://huggingface.co/spaces/chenjoya/LiveCC

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...