2.应用工具相关
Buzz:一个开源的离线音频转录和翻译工具
Buzz简介 Buzz是一个开源的离线音频转录和翻译工具,由OpenAI的Whisper模型提供技术支持。它允许用户在个人电脑上自动将音频文件转换成文字,同时支持多语言...
Linly-Dubbing:智能视频多语言AI配音/翻译工具
Linly-Dubbing简介 Linly-Dubbing 是一个开源的AI视频工具,它支持视频的配音、翻译和对口型功能。这个工具能够自动将视频内容翻译成多种语言,并生成相应的...
IP Adapter Instruct:通过文本指令来精确控制图像生成的细节和风格
IP Adapter Instruct项目简介 IPAdapter-Instruct是由Unity Technologies的研究团队开发的一种先进的图像生成模型。它通过结合自然图像条件和“Instruct”提示...
LabelU:一个简单易用的开源标注工具
LabelU简介 LabelU是一个开源的数据标注工具,它可以帮助用户快速、准确、高效地对数据进行标注,从而提高机器学习模型的性能和质量。LabelU支持多种标注类型...
MovieDreamer:能够生成连贯且高质量的长视频序列
MovieDreamer简介 MovieDreamer 是由浙江大学和阿里巴巴集团的研究团队开发的一种创新视频生成框架。它通过结合自回归模型的全局叙事连贯性和基于扩散的渲染...
HeadGAP:可用几张甚至一张图像来创建逼真的可动画 3D 头部头像
HeadGAP项目简介 HeadGAP是一种创新的3D头像生成技术,由字节跳动公司和上海科技大学的联合研究团队开发。这项技术能够通过极少的图像输入,甚至是单张图片,...
UniPortrait:阿里推出的支持多角色身份一致性的创新框架
UniPortrait简介 UniPortrait 是由阿里巴巴集团智能计算研究所开发的一项创新技术,它是一个统一的框架,用于个性化定制单个人和多个人的图像,同时保持高度...
ControlNeXt:高效可控的图像与视频生成方法
ControlNeXt简介 ControlNeXt是由CUHK和SmartMore的开发团队提出的一种先进方法,专为图像和视频生成提供强大且高效的可控性。这种方法通过简化的架构和创新...
The AI Scientist:模拟人类科学研究过程,通过自动化的方式加速科学迭代
The AI Scientist简介 The AI Scientist 是一个由 Sakana AI 团队开发的全面自动化的科学发现框架。它利用前沿的大型语言模型(LLMs),独立进行研究构思、编...
Agent Q :具有规划和自我修复能力的新一代人工智能代理
Agent Q简介 Agent Q是由MultiOn公司和斯坦福大学联合开发的一款自主AI代理框架,旨在提升人工智能代理在复杂环境中的自主决策和推理能力。该技术框架通过结...