fujine
- みずほリサーチ&テクノロジーズ株式会社に所属し、先端技術研究部にてデータ分析、クラウド(AWS、GCP)の技術研究に従事
- 好きなパッケージ : scikit-learn、pandas、vaex
- 講演実績: PyConJP2021「scikit-learnの新機能を紹介します」
Session
10-14
13:50
30min
Pandas卒業?大規模データを様々なパッケージで高速処理してみる
fujine
Pandasは構造化・半構造化データを直観的に加工・解析できる優れたPythonパッケージであり、データ分析分野を中心に、初級者から上級者まで幅広く使われています。
しかし、Pandasはマルチコアや遅延処理をサポートしないため、大規模なデータほど十分なパフォーマンスが得られにくいです。1000万行を超えるデータでは特に顕著であり、「Pandas遅いなぁ」と感じた方も多いのではないでしょうか?
本トークでは、より高いパフォーマンスを目指しているDask、PySpark、Vaexなどのデータ処理パッケージを紹介し、内部アーキテクチャや特徴、実際の処理時間やメモリ使用量などを比較検証していきます。
「とりあえずPandasで。」というスタンスから一歩踏み出し、データ規模や加工・解析内容に適したパッケージを使い分けられるようになりましょう!
Machine learning
pyconjp_5