2024/09/27 –, 20F Track2
日本発のデータフレームライブラリFireDucksを紹介します.探索的データ分析や機械学習の前処理などに使われるデータフレームライブラリとしては,老舗のpandasが有名ですが,最近はpolars, modin,そしてFireDucksなど新たなライブラリが登場しています.本トークでは,データフレームライブラリの最新動向を紹介し,FireDucksの開発者である発表者が,FireDucksの紹介を行います.
FireDucksの特徴は,pandasとAPI互換で高速であることで,それを実現しているのがFireDucksに搭載された実行時コンパイラです.例えば,長年使われてきたpandasには様々な高速化ノウハウがありますが,FireDucksはそのようなノウハウを自動適用することで,速度を意識して書かれてないプログラムを高速化します.本トークでは,このようなFireDucksで行われている工夫を紹介し,FireDucksの速さの秘訣をデモを交えて紹介します.また,熟練者向けに,FireDucksでの実行時間プロファイルなどを用いた性能チューニング方法も紹介します.
本トークを聞けば,pandasを使い始めたばかりの人から熟練者まで,きっとFireDucksを使ってみたくなるでしょう.
※ FireDucksはpip install fireducks
でインストール可能です.
アジェンダ
- データフレームの最新動向
- データフレームとは?
- pandas, modin, polars等の紹介・比較
- FireDucksの紹介
- データ増大とpandasの速度課題
- FireDucksのねらい
- FireDucksのアーキテクチャ
- pandas互換性のための工夫
- 高速化技術
- マルチスレッド化
- 自動最適化
- pandas高速化テクニック
- FireDucksでの自動最適化
- FireDucksの導入方法,利用方法
- デモ
- データフレームライブラリの性能比較
pythonコミュニティにはデータ分析に関わる人が多いので,多くの人に有益な情報を提供できると思ったため.
オーディエンスが持って帰れる具体的な知識やノウハウ –- FireDucksを使うと自分のプログラムが速くなる可能性があること
- pandas互換で簡単に使えること
- FireDucksを使って実行時間計測などをする方法
pandasに関する基本的な知識
オーディエンスの経験レベル –Intermediate
発表の言語 –Japanese
発表資料の言語 –Japanese
日本電気株式会社に所属し、セキュアシステムプラットフォーム研究所にてデータ分析の高速化技術の研究開発に従事.FireDucks 開発チームメンバー.