AI项目合集

EvTexture:中科大推出的视频超分辨率与纹理增强技术

EvTexture项目简介 EvTexture是由中国科学技术大学的研究团队开发的一种创新的视频超分辨率技术。这项技术首次提出利用事件信号增强视频纹理细节的方法,特别...

ToucanTTS:开源的多语种文本转语音工具,覆盖7000+语言

Toucan TTS项目简介 ToucanTTS是由德国斯图加特大学自然语言处理研究所(IMS)开发的先进语音合成工具包。它支持超过7000种语言的多语种和多说话人语音合成,...

ExVideo: 阿里和华东师大推出的通过参数高效后调整扩展视频扩散模型

ExVideo项目简介 ExVideo是由华东师范大学和阿里巴巴集团的开发团队共同提出的一种创新的视频合成模型后调优方法。该技术通过参数高效的后调优策略,显著提升...

DriveVLM:自动驾驶与视觉语言模型的结合,提升场景理解和规划能力

DriveVLM简介 DriveVLM是由清华大学IIIS实验室与Li Auto公司联合开发的一项创新自动驾驶系统。该系统融合了先进的视觉语言模型(VLMs),通过独特的思维链(C...

Diffutoon:阿里等推出的高分辨率动漫风格视频渲染与编辑技术

Diffutoon简介 Diffutoon是由华东师范大学和阿里巴巴集团的开发团队共同研发的一项创新技术,它利用扩散模型实现高分辨率、可编辑的卡通渲染效果。这项技术能...

Florence-2:微软新开源的视觉模型,能够同时处理多种视觉任务

Florence-2项目简介 Florence-2是由微软Azure AI团队开发的一款新型视觉智能模型。它能够理解图片内容,并像人类一样用文字描述出来。无论是识别图片中的物品...

Glyph-ByT5-v2:实现准确的多语言视觉文本渲染

Glyph-ByT5-v2项目简介 Glyph-ByT5-v2 是由微软亚洲研究院的团队开发的一款先进的多语言视觉文本渲染工具。它不仅支持约10种不同语言的精确文本渲染,而且在...

武大等开源的高清卫星影像数据集:涵盖 21 万 + 地理目标

SGG项目简介 由武汉大学遥感信息工程学院的Yansheng Li团队联合上海人工智能实验室、西安电子科技大学、康奈尔大学、中国三峡大学、中国科学院、中南大学、东...

OpenAI 竞争对手Anthropic 发布Claude 3.5 Sonnet最新模型

Claude3.5-Sonnet简介 Claude 3.5 Sonnet是Anthropic公司新推出的人工智能模型,它在多个评估领域超越了先前版本和其他竞争对手的模型。该模型在执行复杂任务...

DeepSeek-Coder-V2:DeepSeek开源的最新代码语言模型

DeepSeek-Coder-V2简介 DeepSeek-Coder-V2是由DeepSeek开发的新一代开源代码语言模型,它通过在DeepSeek-V2基础上增加6万亿token的预训练,显著提升了代码编...
1 24 25 26 27 28 38