AI开源项目 | 第 38 页

LongVILA：提升长视频理解的多模态视觉语言模型

LongVILA简介 LongVILA是由英伟达、MIT、UC 伯克利、得克萨斯大学奥斯汀分校的联合研究团队开发的一种先进的多模态视觉语言模型。它专为长视频理解而设计，通...

2-3.应用工具视频

5个月前

CrewAI简介 CrewAI是一个开源框架，它通过促进AI代理之间的协作智能，使它们能够像专业团队一样协同工作，共同完成复杂任务。这个框架支持角色定制、任务动态...

2-5.应用工具其他

5个月前

DeepSeek-Prover-V1.5简介 DeepSeek-Prover-V1.5 是一个开源的数学大模型，拥有70亿参数。专为 Lean 4 中的定理证明而设计。它通过结合强化学习和蒙特卡洛树...

1-1.大模型&国内

5个月前

xGen-MM简介 xGen-MM（原BLIP-3）是由Salesforce推出的一款开源的大型多模态模型（LMMs）。这些模型基于精心策划的数据集，采用统一的训练方法和优化的模型架...

1-2.大模型&国外

5个月前

Phi-3.5简介 Phi-3.5是微软最新推出的系列AI模型，Phi-3.5系列包括三个模型：Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct和Phi-3.5-vision-instruct，分别...

1-2.大模型&国外

5个月前

DistriFusion简介 DistriFusion是由MIT、普林斯顿大学、Lepton AI和NVIDIA的联合研究团队开发的一种创新算法，旨在通过在多个GPU上实现分布式并行推理，显著...

2-5.应用工具其他

5个月前

Seed-ASR简介 Seed-ASR是由字节跳动的Seed团队开发的一款基于大型语言模型（LLM）的语音识别模型。它通过结合超过2亿参数的音频编码器和具有数十亿参数的专家...

2-4.应用工具音频

5个月前

TurboEdit简介 TurboEdit是由Adobe Research开发的一项创新技术，它通过引入基于编码器的迭代反演技术和条件化处理，实现了对图像的精确反演和解耦图像编辑。...

2-2.应用工具图像

5个月前

FancyVideo简介 FancyVideo 是由360和中山大学共同开发的一款创新视频生成模型。它通过引入跨帧文本引导模块（Cross-frame Textual Guidance Module, CTGM）...

2-3.应用工具视频

5个月前

Llama-3.1-Minitron简介 Llama-3.1-Minitron是由英伟达公司利用先进的剪枝和知识蒸馏技术，从Llama 3.1 8B模型中提炼而成的4B参数小型语言模型。它在保持与更...

1-2.大模型&国外

5个月前