PyCon JP 2024

FireDucksのすすめ
2024-09-27 , 20F Track2

日本発のデータフレームライブラリFireDucksを紹介します.探索的データ分析や機械学習の前処理などに使われるデータフレームライブラリとしては,老舗のpandasが有名ですが,最近はpolars, modin,そしてFireDucksなど新たなライブラリが登場しています.本トークでは,データフレームライブラリの最新動向を紹介し,FireDucksの開発者である発表者が,FireDucksの紹介を行います.

FireDucksの特徴は,pandasとAPI互換で高速であることで,それを実現しているのがFireDucksに搭載された実行時コンパイラです.例えば,長年使われてきたpandasには様々な高速化ノウハウがありますが,FireDucksはそのようなノウハウを自動適用することで,速度を意識して書かれてないプログラムを高速化します.本トークでは,このようなFireDucksで行われている工夫を紹介し,FireDucksの速さの秘訣をデモを交えて紹介します.また,熟練者向けに,FireDucksでの実行時間プロファイルなどを用いた性能チューニング方法も紹介します.

本トークを聞けば,pandasを使い始めたばかりの人から熟練者まで,きっとFireDucksを使ってみたくなるでしょう.

※ FireDucksはpip install fireducksでインストール可能です.


アジェンダ

  1. データフレームの最新動向
    • データフレームとは?
    • pandas, modin, polars等の紹介・比較
  2. FireDucksの紹介
    • データ増大とpandasの速度課題
    • FireDucksのねらい
    • FireDucksのアーキテクチャ
    • pandas互換性のための工夫
    • 高速化技術
      • マルチスレッド化
      • 自動最適化
        • pandas高速化テクニック
        • FireDucksでの自動最適化
    • FireDucksの導入方法,利用方法
    • デモ
    • データフレームライブラリの性能比較

Why did you choose this topic?:

pythonコミュニティにはデータ分析に関わる人が多いので,多くの人に有益な情報を提供できると思ったため.

Knowledges and know-how the audience can get from your talk:
  • FireDucksを使うと自分のプログラムが速くなる可能性があること
  • pandas互換で簡単に使えること
  • FireDucksを使って実行時間計測などをする方法
Prior knowledges speakers assume the audience to have:

pandasに関する基本的な知識

Audience experiment:

Intermediate

Language of presentation:

Japanese

Language of presentation material:

Japanese

See also: slide

日本電気株式会社に所属し、セキュアシステムプラットフォーム研究所にてデータ分析の高速化技術の研究開発に従事.FireDucks 開発チームメンバー.