PyCon JP 2022

Python使いのためのスポーツデータ解析のきほん - PySparkとメジャーリーグデータを添えて
10-15, 16:00–16:30 (Asia/Tokyo), pyconjp_1
Language: 日本語

概要

ビジネス目的のデータ・アナリティクスおよび機械学習でPythonを使ったアプローチはたくさんあります.

これらのノウハウや考え方を活用し, 普段楽しんでいるスポーツデータの解析・可視化を行うことで普段見ているスポーツの違った側面が見えたり, 何よりもPython使いが大量のデータを扱ってエンジニアリングやデータ解析・分析をするという自学自習の場にもつながると思っています.

この発表では私が実践している「メジャーリーグのビッグデータ解析をPySparkで行う」という事例を元に, Pythonを使ったスポーツデータ解析およびビッグデータの扱い方の入門的なお話をいたします.


Python使いのためのスポーツデータ解析のきほん - PySparkとメジャーリーグデータを添えて

PySparkおよび, Google CloudのSparkマネージドサービス「Dataproc」を用いて, スポーツデータ解析を行うためのノウハウを紹介します.

年間約30〜40万球, 数百MBのデータが存在するメジャーリーグのトラッキングデータ「Baseball Savant」のデータを用いて,

  • スポーツデータの収集と前処理
  • PySparkとDataprocを使ったデータ収集・解析のノウハウ
  • PySparkおよびBigQuery等のクラウドサービスを活用したスポーツデータ解析

これらの話を私が実践している事例を元に紹介いたします.

Abstract

  • スポーツデータの収集と前処理
    • メジャーリーグのビッグデータ「Baseball Savant」とは?
    • スポーツデータ収集と前処理の基礎知識
  • データ収集
    • Pythonでクローラーを実装
    • Cloud Functionsで動かす
  • PySparkとDataprocを用いたデータ解析とクラスタリング
    • Google DataprocのPySparkで解析処理を実装・運用 with Serverless
    • PySparkを使うときの注意点
    • 格好が良い可視化
  • スポーツデータ解析・分析の実践 - メジャーリーグ編
    • Shohei Ohtani
    • ビッグデータで見つけた「エグい」選手たち
  • 結び

※内容と順番は変更の可能性があります

Reference

私が実際に開発しているプロダクトの事例を元に発表する予定です.

PythonとGoogle Cloudを使って年間70万球の野球データをいい感じに可視化・分析するダッシュボードを作った ※発表内容のダイジェストとなります

野球のビッグデータをGCPとPySparkでいい感じに使いやすくしてみた - DataprocとGCFを使った緩いデータ基盤

Webアプリとデータ基盤をサクッと立ち上げるためのプラクティス - Google Cloudとサーバレスなサービスで良しなにやってみた

Sparkをサーバー管理せずに使う方法 - Dataproc ServerlessでPySparkを動かしてみました