Tarsier2：字节跳动推出的大规模视觉-语言模型

0 40

Tarsier2项目简介

Tarsier2是由字节跳动研究团队推出的大规模视觉-语言模型（LVLM），专为生成详细且准确的视频描述而设计，并在全面视频理解方面展现出卓越的能力。该模型通过三项关键升级实现了显著进步：首先，将预训练数据从1100万扩展到4000万视频-文本对，极大地丰富了数据的多样性和数量；其次，在监督微调阶段引入了细粒度的时间对齐，提升了模型对视频事件描述的准确性；最后，利用基于模型采样的偏好数据和直接偏好优化（DPO）训练进一步优化模型性能。Tarsier2在多个视频理解基准测试中超越了现有的专有模型和开源模型，包括GPT-4o和Gemini 1.5 Pro，成为视频描述和理解领域的新标杆。

Tarsier2主要功能

详细视频描述生成：Tarsier2能够生成详细且准确的视频描述，涵盖视频中的关键事件、动作和场景变化。
视频问答：Tarsier2在短视频和长视频问答任务中表现出色，能够回答关于视频内容的各种问题。
视频定位：Tarsier2具备强大的视频定位能力，能够准确识别和标注视频中的特定事件和动作。
幻觉检测：Tarsier2在幻觉测试中表现优异，能够有效减少模型生成的虚假或不准确信息。
具身问答：Tarsier2在具身智能场景中表现出色，能够处理涉及机器人和现实世界任务的问答。

Tarsier2技术原理

大规模预训练数据：Tarsier2通过扩展预训练数据集，从1100万视频-文本对扩展到4000万，极大地丰富了数据的多样性和数量。这些数据包括短视频、评论视频和其他多种类型的视频。
细粒度时间对齐：在监督微调阶段，Tarsier2引入了细粒度的时间对齐技术，通过构建包含详细视频描述和时间对齐信息的数据集，提升了模型对视频事件的准确描述能力。
直接偏好优化（DPO）：Tarsier2利用基于模型采样的偏好数据，通过DPO训练进一步优化模型性能。负采样技术和偏好数据过滤方法确保了高质量的偏好数据，从而提升了模型生成的描述的准确性和完整性。
三阶段训练策略：Tarsier2采用了预训练、监督微调（SFT）和直接偏好优化（DPO）三阶段训练策略，确保模型在各个阶段都能得到充分优化。
多任务学习：在预训练阶段，Tarsier2进行了多任务学习，包括视频字幕生成、视频问答、动作识别、动作定位、图像理解和文本生成等任务，全面提升了模型的视觉和语言理解能力。