Data Formulator 2:微软推出的AI驱动可视化工具
Data Formulator 2简介
Data Formulator 2是由微软研究院(Microsoft Research)和延世大学(Yonsei University)联合开发的一款AI驱动的可视化工具。该工具旨在帮助数据分析师通过迭代的方式创建丰富的可视化图表。它结合了用户界面(UI)和自然语言(NL)输入,允许用户以更直观和灵活的方式表达他们的可视化意图,同时将数据转换任务委托给AI处理。Data Formulator 2还引入了“数据线程”功能,帮助用户管理复杂的迭代历史,支持在不同版本之间轻松导航和重用设计,从而提高数据分析和可视化创作的效率。通过用户研究,该工具被证明能够显著降低用户在迭代可视化创作中的工作量,同时支持用户根据个人经验和偏好发展独特的迭代策略。
Data Formulator 2主要功能
-
多模态输入:结合用户界面(UI)和自然语言(NL)输入,用户可以通过拖放数据字段和输入自然语言指令来指定图表设计。
-
数据线程管理:引入“数据线程”功能,帮助用户管理非线性创作历史,支持在不同版本之间轻松导航和重用设计。
-
自动数据转换:利用AI模型自动生成数据转换代码,用户无需手动编写复杂的转换脚本。
-
即时反馈:在用户指定图表设计后,系统即时生成并展示可视化图表,提供快速的视觉反馈。
-
错误修正和验证:提供生成代码和数据的可视化检查,用户可以查看和验证AI生成的结果,并在发现错误时进行修正。
-
多种图表类型支持:支持多种图表类型,包括散点图、折线图、柱状图、统计图和自定义图表,满足不同的可视化需求。
Data Formulator 2技术原理
-
Vega-Lite脚本生成:根据用户在概念编码架中的输入,生成Vega-Lite脚本框架,用于指定图表的基本结构和视觉编码。
-
数据转换提示编译:当图表需要新字段时,系统从概念编码架中编译一个提示,并向AI模型请求生成数据转换代码。
-
AI驱动的数据转换:利用大型语言模型(LLM)生成Python代码来进行数据转换,包括重塑、过滤、聚合、窗口函数和列派生等操作。
-
数据线程组织:将迭代历史组织为数据线程,数据被视为第一类对象,用户可以在不同版本之间导航、分支和重用先前的设计。
-
代码解释模块:提供代码解释功能,帮助用户理解AI生成的代码,支持逐步检查和验证数据转换过程。
-
错误修复机制:在生成的代码出现运行时错误时,系统会查询LLM以修复错误,并重新执行代码以生成正确的结果。
Data Formulator 2应用场景
-
数据探索与分析:快速迭代生成不同类型的图表,帮助分析师发现数据中的趋势、模式和异常。
-
数据驱动的报告制作:高效创建用于汇报的可视化图表,支持从不同数据版本中快速生成定制化的可视化内容。
-
数据科学与机器学习:在数据预处理阶段,快速生成所需的数据视图,辅助模型训练和结果解释。
-
商业智能与决策支持:为业务分析师提供灵活的可视化工具,帮助他们快速响应业务需求,生成支持决策的图表。
-
数据新闻与故事讲述:记者和内容创作者可以快速生成可视化图表,用于新闻报道或数据驱动的故事讲述。
-
教育与培训:在数据分析和可视化的教学中,帮助学生快速理解和实践复杂的图表设计和数据转换过程。
Data Formulator 2项目入口
- Github代码库:https://github.com/microsoft/data-formulator
- arXiv技术论文:https://arxiv.org/pdf/2408.16119
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...