PyCon JP 2024

ロケール設定が保存されました。pretalxでは英語のサポートが充実していると思っていますが、問題やエラーが発生した場合は、ぜひご連絡ください。

データサイエンスのフルサイクル開発を実現する機械学習パイプライン
2024/09/28 , 4F Track3

プロダクト開発に従事するデータサイエンティストは、データパイプラインの構築、実験、PoC、プロダクト実装など、幅広い業務を担当することが多いです。このフルサイクル開発は重要ですが、同時にデータサイエンティストがロジック開発やデータ分析にも集中できる環境が求められます。本トークでは、弊社の広告配信チームがどのようにしてデータサイエンティストがフルサイクル開発を行いながらも、専門業務に集中できる環境を整えたかを紹介します。具体的には、Luigi、SageMaker、Prefectといったワークフローエンジンを活用し、フルサイクルデータサイエンティストにとって効率的な機械学習基盤を開発した過程と、そこで得られた知見を共有します。


1. はじめに

  • 自己紹介とセッションの目的説明
  • 自己紹介
  • セッションの目的と概要

2. 弊社におけるデータサイエンティストの特徴

  • フルサイクル開発の定義と重要性
  • 弊社(CARTA MARKETING FIRM)におけるフルサイクルデータサイエンティストとは

3. 課題と理想の機械学習基盤

  • フルサイクルデータサイエンティストの責務の曖昧さとその影響
  • 課題の詳細と実際の影響
  • 理想の機械学習基盤とは
  • ロジック開発やデータ分析に集中できる環境の重要性

4. 弊社のデータ分析基盤の歴史

  • Luigiを使った基盤の紹介とその成果
  • Luigiの導入背景
  • Luigiの利点と欠点
  • データ基盤(codename: vision)ができたことによる責務の変化
  • データパイプライン基盤 -> データエンジニア
  • 機械学習基盤 -> データサイエンティスト
  • LuigiからSageMakerへの移行
  • SageMakerの導入背景と利点
  • なぜSageMakerがフルサイクルデータサイエンティストに不向きだったか
  • SageMakerからPrefectへの移行
  • Prefectの導入背景と利点
  • 具体例
  • インフラ構築のためのコード量の削減
  • Pythonのみでの記述が可能
  • 監視や運用がしやすいUIの提供

5. 成果と今後の展望

  • 弊社での現在のデータエンジニア、データサイエンティスト、ソフトウェアエンジニアのそれぞれの責務
  • 今後の計画や改善点

この題材を選んだ理由やきっかけ

弊社CARTA MARKETING FIRMでは、データサイエンティストが多岐にわたる業務を効率的にこなせるよう、ここ数年、さまざまなワークフローエンジンを導入し、機械学習基盤を改善する取り組みを行いました。
その過程で、Luigi、SageMaker、Prefectといったツールを使い、データサイエンティストがフルサイクル開発を継続しながらも、ロジック開発やデータ分析に専念できる環境を整えることができました。
この経験を通じて得られた知見やベストプラクティスを共有することで、同様の課題に直面している他のチームや企業にも役立てていただきたいと考え、この題材を選びました。

オーディエンスが持って帰れる具体的な知識やノウハウ
  1. フルサイクル開発のメリットと課題

    • フルサイクル開発におけるデータサイエンティストの役割や業務内容
    • フルサイクル開発のメリットと、それに伴う課題の理解

  2. ワークフローエンジンの選定と活用方法

    • Luigi、SageMaker、Prefectといった主要なワークフローエンジンの特徴と利点
    • 各ツールの適切な選定基準と導入時のポイント

  3. 導入事例から得られた知見と教訓

    • 弊社の実践を通じて得られた具体的な知見や教訓
    • フルサイクル開発を行う上での成功例と失敗例
    • 導入の際に直面した課題とその解決策

オーディエンスに求める前提知識

• 基本的な機械学習の知識: モデルのトレーニング、評価、デプロイメントの基本的な概念を理解していること。
• Pythonのプログラミングスキル: Pythonを使ったコーディングができること。

オーディエンスの経験レベル

Intermediate

発表の言語

日本語

発表資料の言語

日本語

See also:

株式会社CARTA HOLDINGS(旧:株式会社VOYAGE GROUP)に2020年にデータサイエンスエンジニアとして新卒入社。

主な仕事内容は広告配信プラットフォーム (DSP, アドネットワーク) の開発です。中でも広告表示権利のリアルタイムオークション(Real Time Bidding)の入札ロジックやクリック単価の値付けロジック、広告運用オペレーションの自動化といった予測を利用した意思決定をシステム化する業務が中心となります。