2-1.应用工具文本

Eagle 2.5:NVIDIA推出的视觉-语言模型

Eagle 2.5项目简介 Eagle 2.5是由NVIDIA开发的前沿视觉-语言模型系列,专注于长文本多模态学习。该模型旨在解决长视频理解和高分辨率图像理解中的挑战,通过...

WriteHERE:AI长文写作框架 生成高质量长文本内容

WriteHERE项目简介 WriteHERE是Jürgen Schmidhuber开源的AI长文写作框架。。它通过异构递归规划框架,将检索、推理和写作三种任务类型动态整合,实现类似人类...

The AI Scientist-v2:Sakana AI等推出的自动化科学发现系统

The AI Scientist-v2简介 The AI Scientist-v2是由Sakana AI团队开发的先进自动化科学发现系统。该系统通过集成创新的基于树的搜索算法和视觉语言模型(VLM)...

ScholarCopilot:卡内基梅隆大学等推出的学术写作辅助框架

ScholarCopilot简介 ScholarCopilot是由加拿大滑铁卢大学、卡内基梅隆大学、多伦多向量研究所等机构的联合研究团队开发的学术写作辅助框架。它通过动态检索令...

BabelDOC:开源的 PDF 科学论文翻译工具

BabelDOC 简介 BabelDOC 是一个开源的 PDF 科学论文翻译工具,旨在帮助用户高效翻译和对比学术文档。它提供在线服务和自部署选项,支持沉浸式翻译,每月免费...

通古大模型:专注于古籍理解和处理的大语言模型

通古大模型简介 通古大模型是由华南理工大学深度学习与视觉计算实验室(SCUT-DLVCLab)开发的一款专注于古籍理解和处理的大语言模型。该模型基于Baichuan2-7B...

OmniThink:阿里通义联合浙江大学推出的机器写作框架

OmniThink简介 OmniThink是由浙江大学和阿里巴巴集团通义实验室联合开发的机器写作框架,旨在通过模拟人类的迭代扩展和反思过程来提升机器写作的质量。该框架...

LLaVA-o1:清华&北大等联合推出的一种新型视觉语言模型

LLaVA-o1简介 LLaVA-o1是由北京大学电子与计算机工程学院、清华大学跨学科信息科学研究所、鹏城实验室以及AI for Science (AI4S)-Preferred Program联合开发...

PaddleOCR 2.9:百度飞桨推出的开源光学字符识别(OCR)工具包

PaddleOCR 2.9简介 PaddleOCR 2.9是由百度飞桨(PaddlePaddle)推出的一款开源光学字符识别(OCR)工具包。该版本引入了多项新特性,包括直接保存OCR输出结果...

mPLUG-DocOwl 1.5:阿里&中国人民大学推出的一款OCR-free文档理解模型

mPLUG-DocOwl 1.5简介 mPLUG-DocOwl 1.5是由阿里巴巴集团与中国人民大学联合开发的一款先进的OCR-free文档理解模型。该模型通过统一结构学习,能够在无需光学...
1 2 3