PyCon JP 2022

Python使いのためのスポーツデータ解析のきほん - PySparkとメジャーリーグデータを添えて
2022/10/15 , pyconjp_1
言語: 日本語

概要

ビジネス目的のデータ・アナリティクスおよび機械学習でPythonを使ったアプローチはたくさんあります.

これらのノウハウや考え方を活用し, 普段楽しんでいるスポーツデータの解析・可視化を行うことで普段見ているスポーツの違った側面が見えたり, 何よりもPython使いが大量のデータを扱ってエンジニアリングやデータ解析・分析をするという自学自習の場にもつながると思っています.

この発表では私が実践している「メジャーリーグのビッグデータ解析をPySparkで行う」という事例を元に, Pythonを使ったスポーツデータ解析およびビッグデータの扱い方の入門的なお話をいたします.


Python使いのためのスポーツデータ解析のきほん - PySparkとメジャーリーグデータを添えて

PySparkおよび, Google CloudのSparkマネージドサービス「Dataproc」を用いて, スポーツデータ解析を行うためのノウハウを紹介します.

年間約30〜40万球, 数百MBのデータが存在するメジャーリーグのトラッキングデータ「Baseball Savant」のデータを用いて,

  • スポーツデータの収集と前処理
  • PySparkとDataprocを使ったデータ収集・解析のノウハウ
  • PySparkおよびBigQuery等のクラウドサービスを活用したスポーツデータ解析

これらの話を私が実践している事例を元に紹介いたします.

Abstract

  • スポーツデータの収集と前処理
    • メジャーリーグのビッグデータ「Baseball Savant」とは?
    • スポーツデータ収集と前処理の基礎知識
  • データ収集
    • Pythonでクローラーを実装
    • Cloud Functionsで動かす
  • PySparkとDataprocを用いたデータ解析とクラスタリング
    • Google DataprocのPySparkで解析処理を実装・運用 with Serverless
    • PySparkを使うときの注意点
    • 格好が良い可視化
  • スポーツデータ解析・分析の実践 - メジャーリーグ編
    • Shohei Ohtani
    • ビッグデータで見つけた「エグい」選手たち
  • 結び

※内容と順番は変更の可能性があります

Reference

私が実際に開発しているプロダクトの事例を元に発表する予定です.

PythonとGoogle Cloudを使って年間70万球の野球データをいい感じに可視化・分析するダッシュボードを作った ※発表内容のダイジェストとなります

野球のビッグデータをGCPとPySparkでいい感じに使いやすくしてみた - DataprocとGCFを使った緩いデータ基盤

Webアプリとデータ基盤をサクッと立ち上げるためのプラクティス - Google Cloudとサーバレスなサービスで良しなにやってみた

Sparkをサーバー管理せずに使う方法 - Dataproc ServerlessでPySparkを動かしてみました

Profile

外資系ITコンサル企業のエンジニアなマネージャーで, Google Cloudを中心としたクラウド活用・クラウドネイティブ化をミッションとするプロジェクトのソリューション・アーキテクトとしてマイクロサービス構築・サーバレス活用等の支援をしているPython使い.

個人としては「欲しい物・好きなものをPythonで作って運用する」個人開発を「野球データサイエンス」「ヘルスケア」の領域でやっています.

エンジニアとしての得意領域はサーバーサイド・データエンジニアリング・SRE関連で何よりも野球のデータを扱うのが大好きです.