Apache Airflow 2.10 的到来开启了 AI 数据编排的新时代

Apache Airflow 2.10 的到来开启了 AI 数据编排的新时代

Apache Airflow 2.10 版本在 2024 年 8 月 15 日发布,标志着自 4 月份 Airflow 2.9 发布以来的首个重大更新。这个版本引入了混合执行(hybrid execution)功能,允许组织在从简单的 SQL 查询到计算密集型的机器学习(ML)任务等不同工作负载之间优化资源分配。增强的数据血统(lineage)功能提供了更好的数据流可见性,这对治理和合规性至关重要。

Astronomer,作为 Apache Airflow 的主要商业供应商,正在更新其 Astro 平台,以整合开源的 dbt-core(Data Build Tool)技术,统一数据编排和转换工作流于单一平台。

这些增强功能旨在简化数据操作,并弥合传统数据工作流与新兴 AI 应用之间的差距。更新为企业提供了更灵活的数据编排方法,解决了管理多样化数据环境和 AI 流程中的挑战。

Airflow 2.10 的混合执行能力显著区别于之前的版本,后者迫使用户为整个部署选择单一的执行模式。现在,用户可以为数据管道的每个组件优化适当的计算资源和控制级别。

数据血统在数据编排中对 AI 很重要,因为它帮助组织理解数据的来源。Airflow 2.10 的新血统特性能够更好地捕捉管道内的依赖关系和数据流,这对于 AI 和机器学习工作流程至关重要,其中数据的质量和来源是最重要的。

Julian LaNeve,Astronomer 的首席技术官,已经展望到 Airflow 3.0。Airflow 3.0 的目标是为通用 AI 时代现代化技术。关键优先事项包括使平台更加语言无关,允许用户用任何语言编写任务,以及使 Airflow 更加数据意识,将重点从编排流程转移到管理数据流。

来源:venturebeat

© 版权声明

相关文章

暂无评论

暂无评论...