YT Navigator:AI 驱动的 YouTube 内容搜索工具
YT Navigator 简介
YT Navigator 是一款 AI 驱动的 YouTube 内容搜索工具。它能够帮助用户高效地搜索和浏览 YouTube 频道中的视频内容,通过自然语言查询快速定位到相关视频片段,并提供精确的时间戳,让用户无需手动观看大量视频即可获取所需信息。该工具还支持与频道内容进行智能对话,进一步提升信息检索的便捷性。它适用于研究人员、学生、内容创作者以及任何需要快速从 YouTube 频道中提取信息的用户。

YT Navigator 主要功能
-
频道管理与视频扫描
-
用户输入YouTube频道URL后,系统会验证并提取频道信息,包括标题、描述和头像等。
-
用户可以选择扫描频道中的视频数量(最多100个),系统会并行处理视频的元数据和字幕信息。
-
扫描完成后,频道内容即可用于搜索和聊天功能。
-
-
语义搜索
-
用户可以通过自然语言查询在频道的视频内容中搜索相关信息。
-
系统结合语义搜索(利用向量嵌入)和关键词搜索(使用BM25算法),提供全面的搜索结果。
-
搜索结果会结合视频元数据进行丰富,并去重后根据相关性重新排序。
-
-
聊天功能
-
用户可以与AI代理进行对话,AI会根据视频内容提供答案。
-
对话过程中,AI会根据问题的类型选择合适的响应方式,包括直接回答、提供静态回答或通过查询向量数据库获取信息。
-
-
精确时间戳定位
-
搜索和聊天功能返回的结果会包含相关视频片段的精确时间戳。
-
用户可以直接通过链接跳转到视频中信息出现的具体位置。
-
YT Navigator 技术原理
-
数据获取与处理
-
使用 Scrapetube 抓取YouTube视频的元数据。
-
使用 youtube-transcript-api 获取视频字幕,并将其分割成片段。
-
将字幕片段转换为向量嵌入,存储在 PGVector 向量数据库中。
-
视频元数据存储在 PostgreSQL 关系数据库中。
-
-
语义搜索与关键词搜索
-
利用 Sentence Transformers 生成文本的向量嵌入,用于语义搜索。
-
结合 BM25 算法进行关键词搜索,以提高搜索结果的准确性和全面性。
-
通过 交叉编码器模型 对搜索结果进行重新排序,确保结果的相关性。
-
-
AI聊天代理
-
使用 LangGraph 提供对话功能。
-
通过 ReAct 框架实现AI代理的决策机制,根据问题类型选择合适的响应方式。
-
对于需要查询数据库的问题,AI代理会调用语义搜索和SQL查询工具,获取相关信息后生成答案。
-
-
系统架构
-
后端使用 Django 框架,结合 PostgreSQL 和 PGVector。
-
前端采用 Django templates 和现代CSS,支持响应式设计。
-
使用 Makefile 提供便捷的开发和部署命令。
-
YT Navigator 应用场景
-
学术研究:研究人员可以快速从大量YouTube学术讲座或研究分享视频中提取特定主题的内容,节省查找资料的时间。
-
学生学习:学生在准备课程作业或考试时,能够通过搜索找到相关课程视频的关键知识点,直接跳转到对应时间戳学习。
-
内容创作:视频创作者可以高效地查找其他频道的创意灵感、素材片段或特定主题的讲解,辅助创作脚本或视频。
-
市场调研:企业或营销人员可以分析竞争对手的YouTube营销视频,快速提取关键信息,了解市场动态和用户反馈。
-
新闻报道:记者可以迅速找到与新闻事件相关的YouTube视频片段,用于新闻报道的素材收集和背景信息整理。
-
个人兴趣探索:用户在探索新兴趣或爱好时,可以通过YT Navigator快速找到感兴趣的YouTube频道中的相关内容,提升学习效率。
YT Navigator 项目入口
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...