データサイエンスのフルサイクル開発を実現する機械学習パイプライン PyCon JP 2024

データサイエンスのフルサイクル開発を実現する機械学習パイプライン
.ical
2024-09-28 13:30–14:00, 4F Track3

プロダクト開発に従事するデータサイエンティストは、データパイプラインの構築、実験、PoC、プロダクト実装など、幅広い業務を担当することが多いです。このフルサイクル開発は重要ですが、同時にデータサイエンティストがロジック開発やデータ分析にも集中できる環境が求められます。本トークでは、弊社の広告配信チームがどのようにしてデータサイエンティストがフルサイクル開発を行いながらも、専門業務に集中できる環境を整えたかを紹介します。具体的には、Luigi、SageMaker、Prefectといったワークフローエンジンを活用し、フルサイクルデータサイエンティストにとって効率的な機械学習基盤を開発した過程と、そこで得られた知見を共有します。

1. はじめに

自己紹介とセッションの目的説明
自己紹介
セッションの目的と概要

2. 弊社におけるデータサイエンティストの特徴

フルサイクル開発の定義と重要性
弊社(CARTA MARKETING FIRM)におけるフルサイクルデータサイエンティストとは

3. 課題と理想の機械学習基盤

フルサイクルデータサイエンティストの責務の曖昧さとその影響
課題の詳細と実際の影響
理想の機械学習基盤とは
ロジック開発やデータ分析に集中できる環境の重要性

4. 弊社のデータ分析基盤の歴史

Luigiを使った基盤の紹介とその成果
Luigiの導入背景
Luigiの利点と欠点
データ基盤(codename: vision)ができたことによる責務の変化
データパイプライン基盤 -> データエンジニア
機械学習基盤 -> データサイエンティスト
LuigiからSageMakerへの移行
SageMakerの導入背景と利点
なぜSageMakerがフルサイクルデータサイエンティストに不向きだったか
SageMakerからPrefectへの移行
Prefectの導入背景と利点
具体例
インフラ構築のためのコード量の削減
Pythonのみでの記述が可能
監視や運用がしやすいUIの提供

5. 成果と今後の展望

弊社での現在のデータエンジニア、データサイエンティスト、ソフトウェアエンジニアのそれぞれの責務
今後の計画や改善点

Why did you choose this topic?:

弊社CARTA MARKETING FIRMでは、データサイエンティストが多岐にわたる業務を効率的にこなせるよう、ここ数年、さまざまなワークフローエンジンを導入し、機械学習基盤を改善する取り組みを行いました。
その過程で、Luigi、SageMaker、Prefectといったツールを使い、データサイエンティストがフルサイクル開発を継続しながらも、ロジック開発やデータ分析に専念できる環境を整えることができました。
この経験を通じて得られた知見やベストプラクティスを共有することで、同様の課題に直面している他のチームや企業にも役立てていただきたいと考え、この題材を選びました。

Knowledges and know-how the audience can get from your talk:

フルサイクル開発のメリットと課題

• フルサイクル開発におけるデータサイエンティストの役割や業務内容
• フルサイクル開発のメリットと、それに伴う課題の理解
ワークフローエンジンの選定と活用方法

• Luigi、SageMaker、Prefectといった主要なワークフローエンジンの特徴と利点
• 各ツールの適切な選定基準と導入時のポイント
導入事例から得られた知見と教訓

• 弊社の実践を通じて得られた具体的な知見や教訓
• フルサイクル開発を行う上での成功例と失敗例
• 導入の際に直面した課題とその解決策

Prior knowledges speakers assume the audience to have:

• 基本的な機械学習の知識: モデルのトレーニング、評価、デプロイメントの基本的な概念を理解していること。
• Pythonのプログラミングスキル: Pythonを使ったコーディングができること。

Audience experiment: Intermediate Language of presentation: Japanese Language of presentation material: Japanese