PyCon APAC 2023

ロケール設定が保存されました。pretalxでは英語のサポートが充実していると思っていますが、問題やエラーが発生した場合は、ぜひご連絡ください。

Pythonのワークフローエンジン Apache Airflowを用いた大規模データパイプライン構築と改善
2023/10/28 , track 4

企業の活動をより良くするために、データから価値を生み続けるためにデータ活用を行うことが広く行われるようになってきました。
本公演ではPythonを使って大規模なデータパイプラインを構築していくための考慮すべき点を紹介し、より可用性の高い実行環境を構築する方法を共有します。
特にECサイトでの増え続けるデータに対してApache Airflowのマネージドサービス であるGoogle Cloudの Cloud Composerを使うと、より早く、よりロバストなワークフローが実装しやすくなることを共有します。


現代のビジネスでは、データの活用が企業活動の効率化や新たな価値創造に対する鍵と広く認識されています。データは、膨大な情報量から洞察を引き出し、戦略的意思決定を支援します。特に、ECサイトの運営にはデータ量の増加に対応するために、大規模なデータパイプラインの構築が不可欠となっています。

本公演では、商品情報の構築を題材に、検索システムのマイグレーションと、データの表示に関わる業務利用に対するデータ加工とAPIの提供を行った事例を紹介します。構築する中で、複雑なデータフローを管理し、一貫性を保つための要点を詳細に解説し、信頼性が高く効率的な実行環境の設計方法を共有します。機能要件/非機能要件がある中で着目して改善していった過程も事例を交えて共有します。

また、データパイプラインはGoogle CloudのCloud ComposerというApache Airflowのマネージドサービスを利用して構築しました。Airflowを用いてデータ処理のワークフローをより早く、よりロバストに構築する方法についても具体的に紹介します。

本公演を通じて、データ活用とその具体的な技術について深く理解し、ご自身のビジネス環境にどのように適用するかをイメージしていただけると幸いです。

  • データ活用基盤とは
    • データ活用基盤の紹介
  • データパイプラインの構築
    • データ活用基盤でのデータパイプラインの構築などを紹介
  • Apache Airflowの紹介
  • 事例紹介
    • データパイプラインを構築して改善していく方法
      • 事例を交えながら apache airflowでのデータパイプライン構築と改善の流れを紹介
         * Google cloudのマネージドサービスCloud Composer の紹介
    • データパイプラインにて構築したデータのAPIでの公開
      • データ活用のデータをシステムで活かすためにAPIとして共有するときのノウハウを紹介
  • まとめ

いわゆる普通のソフトウェアエンジニアです。株式会社MonotaROにてEコマース向け次世代アプリケーション開発基盤の開発, 運用を行なっています。
データインフラを活用するためのデータの作成、および、データを生かしたAPIの構築を担当しています。