ComfyGen:NVIDIA和特拉维夫大学联合推出的文本到图像生成系统
ComfyGen简介 ComfyGen是由NVIDIA和特拉维夫大学的研究团队共同开发的一种创新的文本到图像生成系统。该系统通过利用大型语言模型(LLM)自动创建与用户输入...
mPLUG-DocOwl 1.5:阿里&中国人民大学推出的一款OCR-free文档理解模型
mPLUG-DocOwl 1.5简介 mPLUG-DocOwl 1.5是由阿里巴巴集团与中国人民大学联合开发的一款先进的OCR-free文档理解模型。该模型通过统一结构学习,能够在无需光学...
Haiper推出其新一代视频生成器Haiper 2.0版本
Haiper宣布推出了Haiper 2.0版本,显著提升了视频生成的速度和质量,支持1080p视频,并计划在未来提供4K分辨率。新版本引入了可自定义的视频模板,使用户能够...
Viggle 推出新功能 允许用户通过录制声音让角色说话
Viggle 推出了一项新功能,允许用户通过录制声音让角色说话,并且能够实现口型同步。这项技术让用户可以完全控制角色的表现方式,无论是唱歌还是跳舞,都能轻...
LONG-LRM:1.3秒 内实现高质量大场景3D高斯重建
LONG-LRM简介 LONG-LRM是由俄勒冈州立大学和Adobe Research联合推出的一种创新3D高斯重建模型,它能够快速从大量输入图像中重建出大型场景的3D表示。该模型结...
CAVIA:苹果、谷歌等团队联合推出的多视图视频生成框架
CAVIA简介 CAVIA是一种创新的多视图视频生成框架,由德克萨斯大学奥斯汀分校、苹果公司和谷歌的联合研究团队开发。该框架能够将单张图片转换成多个时空一致的...
SPIRIT-LM:能理解和生成文本和语音 实现两种模态之间的无缝转换
SPIRIT-LM简介 SPIRIT-LM是由Meta AI团队开发的一种创新的多模态语言模型,它能够无缝地混合和理解文本与语音数据。该模型通过在大量文本和语音单位上进行连...
AMT-APC:自动将原始音频轨道转换成钢琴伴奏的MIDI格式
AMT-APC简介 AMT-APC是由Musashino University的数据科学学院开发的自动钢琴伴奏生成算法。该算法通过微调一个先进的自动音乐转录(AMT)模型来提高钢琴伴奏...
Perplexity AI 推出了两项新功能:内部知识搜索和Spaces
Perplexity AI 推出了两项新功能:内部知识搜索和Spaces,旨在提升团队的研究与协作效率。内部知识搜索功能允许用户不仅能够搜索互联网上的公共内容,还能够...
Suno AI音乐生成平台推出Suno Scenes功能
Suno 最近推出了一个名为Suno Scenes的新功能,这一创新使得用户可以通过上传照片或视频来生成与之匹配的音乐。这一功能的核心在于其多模态内容创作能力,能...