2.应用工具相关

Whisper-Medusa:aiOla开源的AI语音识别模型

whisper-medusa简介 Whisper-Medusa是由aiOla推出的开源AI语音识别模型,它结合了OpenAI的Whisper模型和aiOla的技术,实现了超过50%的加速而不影响识别的准确...

Miner U:开源数据提取工具,支持PDF/网页/多格式电子书提取。

Miner U简介 MinerU是由OpenDataLab团队开发的开源智能数据提取工具,它专门针对复杂PDF文档设计,能够高效地将文档中的文本、图片、公式和表格等内容转换成...

Tora:阿里推出的基于轨迹导向的扩散变换器视频生成框架

Tora简介 Tora是由阿里巴巴集团开发的一款创新的视频生成框架,它融合了轨迹导向的扩散变换器技术,能够根据文本、图像和轨迹条件生成高质量视频。这一突破性...

Clapper :可将剧本解释并渲染成分镜头、视频、语音、声音和音乐。

Clapper项目简介 Clapper是一个开源的AI故事可视化工具,旨在将剧本解释并渲染成分镜头、视频、语音、声音和音乐。它目前处于早期开发阶段,由Julian Bilcke...

VectorVein:允许用户通过简单的拖拽操作来构建智能工作流

VectorVein简介 VectorVein 是一个开源的无代码AI工作流工具,它允许用户通过简单的拖拽操作来构建智能工作流,而无需编程知识。这个工具支持多种应用场景,...

GPTEngineer:根据自然语言指令自动编写和执行代码

GPTEngineer简介 GPTEngineer 是一个创新的开源工具,它利用人工智能技术根据自然语言指令自动编写和执行代码。用户只需创建一个包含指令的 `prompt` 文件,...

SF3D:Stability AI推出的能在0.5秒内从单张图片生成3D模型

SF3D简介 SF3D是一种创新的3D网格重建技术,由Stability AI团队开发,能够从单张图片快速生成具有材料属性和UV展开纹理的高质量3D网格。这一技术在0.5秒内完...

FLUX.1:Black Forest Labs 推出的全新图像生成模型

FLUX.1简介 FLUX.1 是由 Black Forest Labs 最新推出的开源 AI 图像生成模型,这个团队也是 Stable Diffusion 的原班人马。该模型拥有12B参数,是迄今为止最...

ViPer:能够根据用户的个性化偏好生成图像

ViPer简介 ViPer是一种前沿的图像个性化生成模型,由瑞士联邦理工学院(EPFL)的开发团队所创造。这项技术通过捕捉用户对一系列图像的评论和偏好,利用大型语...

Stable-Hair:能够将现实世界中的各种发型转移到用户提供的面孔上

Stable-Hair简介 Stable-Hair是由上海交通大学、Tiamat AI、新加坡国立大学和中国科学院沈阳自动化研究所的联合研究团队开发的一种创新的基于扩散模型的头发...
1 36 37 38 39 40