概要

ビジネス目的のデータ・アナリティクスおよび機械学習でPythonを使ったアプローチはたくさんあります.

これらのノウハウや考え方を活用し, 普段楽しんでいるスポーツデータの解析・可視化を行うことで普段見ているスポーツの違った側面が見えたり, 何よりもPython使いが大量のデータを扱ってエンジニアリングやデータ解析・分析をするという自学自習の場にもつながると思っています.

この発表では私が実践している「メジャーリーグのビッグデータ解析をPySparkで行う」という事例を元に, Pythonを使ったスポーツデータ解析およびビッグデータの扱い方の入門的なお話をいたします.

Python使いのためのスポーツデータ解析のきほん - PySparkとメジャーリーグデータを添えて

PySparkおよび, Google CloudのSparkマネージドサービス「Dataproc」を用いて, スポーツデータ解析を行うためのノウハウを紹介します.

年間約30〜40万球, 数百MBのデータが存在するメジャーリーグのトラッキングデータ「Baseball Savant」のデータを用いて,

これらの話を私が実践している事例を元に紹介いたします.

スポーツデータの収集と前処理
- メジャーリーグのビッグデータ「Baseball Savant」とは?
- スポーツデータ収集と前処理の基礎知識
データ収集
- Pythonでクローラーを実装
- Cloud Functionsで動かす
PySparkとDataprocを用いたデータ解析とクラスタリング
- Google DataprocのPySparkで解析処理を実装・運用 with Serverless
- PySparkを使うときの注意点
- 格好が良い可視化
スポーツデータ解析・分析の実践 - メジャーリーグ編
- Shohei Ohtani
- ビッグデータで見つけた「エグい」選手たち
結び

※内容と順番は変更の可能性があります

私が実際に開発しているプロダクトの事例を元に発表する予定です.