2022-10-14 –, pyconjp_5
Language: 日本語
Pandasは構造化・半構造化データを直観的に加工・解析できる優れたPythonパッケージであり、データ分析分野を中心に、初級者から上級者まで幅広く使われています。
しかし、Pandasはマルチコアや遅延処理をサポートしないため、大規模なデータほど十分なパフォーマンスが得られにくいです。1000万行を超えるデータでは特に顕著であり、「Pandas遅いなぁ」と感じた方も多いのではないでしょうか?
本トークでは、より高いパフォーマンスを目指しているDask、PySpark、Vaexなどのデータ処理パッケージを紹介し、内部アーキテクチャや特徴、実際の処理時間やメモリ使用量などを比較検証していきます。
「とりあえずPandasで。」というスタンスから一歩踏み出し、データ規模や加工・解析内容に適したパッケージを使い分けられるようになりましょう!
詳細
比較検証では、10億行超のオープンデータに対して様々な加工・分析・可視化処理を実行し、各パッケージのパフォーマンスや実装の複雑さを計測します。「少量データで軽く試してみた」だけでは見えてこない、リアルな性能差や思わぬ落とし穴を浮き彫りにすることで、各パッケージの実用性を評価することが本トークの目的です。
タイムテーブル
- Pandasの紹介と課題(5分)
- Dask、PySpark、Vaexの特徴や内部アーキテクチャ(5分)
- 比較検証(15分)
- 分析データ、処理内容の説明
- 処理時間
- メモリ使用量
- 学習コスト
- それでもPandasを使いたい場合の高速化Tips(4分)
- まとめ(1分)
使用データ
- オープンデータNYC Taxi Tripを使用予定。
各パッケージの公式ドキュメント
- みずほリサーチ&テクノロジーズ株式会社に所属し、先端技術研究部にてデータ分析、クラウド(AWS、GCP)の技術研究に従事
- 好きなパッケージ : scikit-learn、pandas、vaex
- 講演実績: PyConJP2021「scikit-learnの新機能を紹介します」