YT Navigator:AI 驱动的 YouTube 内容搜索工具

YT Navigator 简介

YT Navigator 是一款 AI 驱动的 YouTube 内容搜索工具。它能够帮助用户高效地搜索和浏览 YouTube 频道中的视频内容,通过自然语言查询快速定位到相关视频片段,并提供精确的时间戳,让用户无需手动观看大量视频即可获取所需信息。该工具还支持与频道内容进行智能对话,进一步提升信息检索的便捷性。它适用于研究人员、学生、内容创作者以及任何需要快速从 YouTube 频道中提取信息的用户。

YT Navigator:AI 驱动的 YouTube 内容搜索工具

YT Navigator 主要功能

  1. 频道管理与视频扫描
    • 用户输入YouTube频道URL后,系统会验证并提取频道信息,包括标题、描述和头像等。
    • 用户可以选择扫描频道中的视频数量(最多100个),系统会并行处理视频的元数据和字幕信息。
    • 扫描完成后,频道内容即可用于搜索和聊天功能。
  2. 语义搜索
    • 用户可以通过自然语言查询在频道的视频内容中搜索相关信息。
    • 系统结合语义搜索(利用向量嵌入)和关键词搜索(使用BM25算法),提供全面的搜索结果。
    • 搜索结果会结合视频元数据进行丰富,并去重后根据相关性重新排序。
  3. 聊天功能
    • 用户可以与AI代理进行对话,AI会根据视频内容提供答案。
    • 对话过程中,AI会根据问题的类型选择合适的响应方式,包括直接回答、提供静态回答或通过查询向量数据库获取信息。
  4. 精确时间戳定位
    • 搜索和聊天功能返回的结果会包含相关视频片段的精确时间戳。
    • 用户可以直接通过链接跳转到视频中信息出现的具体位置。

YT Navigator 技术原理

  1. 数据获取与处理
    • 使用 Scrapetube 抓取YouTube视频的元数据。
    • 使用 youtube-transcript-api 获取视频字幕,并将其分割成片段。
    • 将字幕片段转换为向量嵌入,存储在 PGVector 向量数据库中。
    • 视频元数据存储在 PostgreSQL 关系数据库中。
  2. 语义搜索与关键词搜索
    • 利用 Sentence Transformers 生成文本的向量嵌入,用于语义搜索。
    • 结合 BM25 算法进行关键词搜索,以提高搜索结果的准确性和全面性。
    • 通过 交叉编码器模型 对搜索结果进行重新排序,确保结果的相关性。
  3. AI聊天代理
    • 使用 LangGraph 提供对话功能。
    • 通过 ReAct 框架实现AI代理的决策机制,根据问题类型选择合适的响应方式。
    • 对于需要查询数据库的问题,AI代理会调用语义搜索和SQL查询工具,获取相关信息后生成答案。
  4. 系统架构
    • 后端使用 Django 框架,结合 PostgreSQLPGVector
    • 前端采用 Django templates 和现代CSS,支持响应式设计。
    • 使用 Makefile 提供便捷的开发和部署命令。

YT Navigator 应用场景

  1. 学术研究:研究人员可以快速从大量YouTube学术讲座或研究分享视频中提取特定主题的内容,节省查找资料的时间。
  2. 学生学习:学生在准备课程作业或考试时,能够通过搜索找到相关课程视频的关键知识点,直接跳转到对应时间戳学习。
  3. 内容创作:视频创作者可以高效地查找其他频道的创意灵感、素材片段或特定主题的讲解,辅助创作脚本或视频。
  4. 市场调研:企业或营销人员可以分析竞争对手的YouTube营销视频,快速提取关键信息,了解市场动态和用户反馈。
  5. 新闻报道:记者可以迅速找到与新闻事件相关的YouTube视频片段,用于新闻报道的素材收集和背景信息整理。
  6. 个人兴趣探索:用户在探索新兴趣或爱好时,可以通过YT Navigator快速找到感兴趣的YouTube频道中的相关内容,提升学习效率。

YT Navigator 项目入口

© 版权声明
pANYIIS.jpg

相关文章

暂无评论

暂无评论...