EAGLE:NVIDIA研究院主导开发的多模态大型语言模型
EAGLE简介 EAGLE是由NVIDIA研究院主导开发的多模态大型语言模型(MLLM),它通过混合多种视觉编码器来提升对复杂视觉信息的解读能力。该模型在减少视觉幻觉和...
InterTrack:能够从单目RGB视频中跟踪人体与物体的互动
InterTrack简介 InterTrack是由德国图宾根大学、图宾根人工智能中心以及马克斯·普朗克信息学研究所的研究人员开发的一种先进的跟踪技术。这项技术能够从单目R...
ancient_text_generation_LLM:输入现代汉语句子,生成古汉语风格的句子
ancient_text_generation_LLM简介 'ancient_text_generation_LLM'是一个现代文转古文的模型。该模型利用荀子基座大模型,并通过'文言文-现代文'的平行语料库...
CSGO:可以通过文本提示和风格图像来生成具有相似风格的图像
CSGO简介 CSGO是由南京理工大学推出的一种创新的文本到图像生成模型,它在图像风格迁移领域取得了显著进展。该模型通过一个精心设计的数据构建管道,生成并自...
GenWarp:能够从单个图像生成具有语义保持的新视角图像
GenWarp简介 GenWarp 是由 Sony AI 团队开发的一种创新的图像生成框架,它能够从单个图像生成具有语义保持的新视角图像。该框架通过结合自注意力和交叉视角注...
LeRobot :Hugging Face 推出的开源机器人项目
LeRobot简介 LeRobot 是 Hugging Face 推出的开源机器人项目,由前特斯拉科学家 Remi Cadene领导开发。旨在将先进的机器学习技术应用于实际机器人领域。该项...
CustomCrafter :浙江大学和腾讯联合开发的一款创新视频生成框架
CustomCrafter简介 CustomCrafter 是由浙江大学和腾讯联合开发的一款创新视频生成框架。它能够根据文本提示和主题参考图像生成高质量视频,同时保留运动生成...
Cohere发布了Command R和Command R+的改进版本
Cohere公司在8月30日宣布了Command R系列AI模型的更新,这些模型专为企业级应用设计,以优化业务用例。新版本在编码、数学、推理和延迟方面进行了改进,同时...
VideoLingo:Netflix级字幕与配音,一键全自动视频搬运
VideoLingo简介 VideoLingo 是一个开源的自动化视频处理工具,它集成了字幕切割、翻译、精确对齐与个性化配音功能,能够帮助用户高效地进行视频搬运与加工。...
Auto-video-generator:给定主题 自动生成解说视频
Auto-video-generator 简介 Auto-video-generator 是一款创新的 AI 驱动视频生成工具,它能够根据用户输入的主题自动撰写解说脚本、合成语音、生成配图,并最...