概要

ビジネス目的のデータ・アナリティクスおよび機械学習でPythonを使ったアプローチはたくさんあります.

これらのノウハウや考え方を活用し, 普段楽しんでいるスポーツデータの解析・可視化を行うことで普段見ているスポーツの違った側面が見えたり, 何よりもPython使いが大量のデータを扱ってエンジニアリングやデータ解析・分析をするという自学自習の場にもつながると思っています.

この発表では私が実践している「メジャーリーグのビッグデータ解析をPySparkで行う」という事例を元に, Pythonを使ったスポーツデータ解析およびビッグデータの扱い方の入門的なお話をいたします.

Python使いのためのスポーツデータ解析のきほん - PySparkとメジャーリーグデータを添えて

PySparkおよび, Google CloudのSparkマネージドサービス「Dataproc」を用いて, スポーツデータ解析を行うためのノウハウを紹介します.

年間約30〜40万球, 数百MBのデータが存在するメジャーリーグのトラッキングデータ「Baseball Savant」のデータを用いて,

これらの話を私が実践している事例を元に紹介いたします.

スポーツデータの収集と前処理
- メジャーリーグのビッグデータ「Baseball Savant」とは?
- スポーツデータ収集と前処理の基礎知識
データ収集
- Pythonでクローラーを実装
- Cloud Functionsで動かす
PySparkとDataprocを用いたデータ解析とクラスタリング
- Google DataprocのPySparkで解析処理を実装・運用 with Serverless
- PySparkを使うときの注意点
- 格好が良い可視化
スポーツデータ解析・分析の実践 - メジャーリーグ編
- Shohei Ohtani
- ビッグデータで見つけた「エグい」選手たち
結び