博客 | 第 99 页 | 柒柒AI导航

ComfyGen：NVIDIA和特拉维夫大学联合推出的文本到图像生成系统

ComfyGen简介 ComfyGen是由NVIDIA和特拉维夫大学的研究团队共同开发的一种创新的文本到图像生成系统。该系统通过利用大型语言模型（LLM）自动创建与用户输入...

3-2.图片生成模型

6个月前

mPLUG-DocOwl 1.5简介 mPLUG-DocOwl 1.5是由阿里巴巴集团与中国人民大学联合开发的一款先进的OCR-free文档理解模型。该模型通过统一结构学习，能够在无需光学...

2-1.应用工具文本

6个月前

Haiper宣布推出了Haiper 2.0版本，显著提升了视频生成的速度和质量，支持1080p视频，并计划在未来提供4K分辨率。新版本引入了可自定义的视频模板，使用户能够...

AI新发布/功能更新

6个月前

Viggle 推出了一项新功能，允许用户通过录制声音让角色说话，并且能够实现口型同步。这项技术让用户可以完全控制角色的表现方式，无论是唱歌还是跳舞，都能轻...

AI新发布/功能更新

6个月前

LONG-LRM简介 LONG-LRM是由俄勒冈州立大学和Adobe Research联合推出的一种创新3D高斯重建模型，它能够快速从大量输入图像中重建出大型场景的3D表示。该模型结...

2-6.应用工具3D

6个月前

CAVIA简介 CAVIA是一种创新的多视图视频生成框架，由德克萨斯大学奥斯汀分校、苹果公司和谷歌的联合研究团队开发。该框架能够将单张图片转换成多个时空一致的...

2-3.应用工具视频

6个月前

SPIRIT-LM简介 SPIRIT-LM是由Meta AI团队开发的一种创新的多模态语言模型，它能够无缝地混合和理解文本与语音数据。该模型通过在大量文本和语音单位上进行连...

3-5.多模态模型

6个月前

AMT-APC简介 AMT-APC是由Musashino University的数据科学学院开发的自动钢琴伴奏生成算法。该算法通过微调一个先进的自动音乐转录（AMT）模型来提高钢琴伴奏...

2-4.应用工具音频

6个月前

Perplexity AI 推出了两项新功能：内部知识搜索和Spaces，旨在提升团队的研究与协作效率。内部知识搜索功能允许用户不仅能够搜索互联网上的公共内容，还能够...

AI新发布/功能更新

6个月前

Suno 最近推出了一个名为Suno Scenes的新功能，这一创新使得用户可以通过上传照片或视频来生成与之匹配的音乐。这一功能的核心在于其多模态内容创作能力，能...

AI新发布/功能更新

6个月前