データフレームライブラリ徹底比較
データフレームとは、データサイエンスや機械学習、データエンジニアリング、ウェブ開発等、さまざまな分野で広く使用されてる表形式のデータ構造です。Pythonにおいては、長年にわたってpandasがデータフレームの機能を提供するライブラリのデファクトスタンダードとして位置づけられてきました。近年では、性能向上や特定の場面への適応を目的として、データフレームの機能を提供する新たなライブラリも公開されています。この時、プロジェクトに最適なライブラリを選択するために、これらの違いの多角的な理解が重要な課題となります。本発表では、2024年9月時点での情報に基づき、データフレームの機能を提供する主要なライブラリ(pandas、Polars、PySpark、Dask、Modin、FireDucks等)を様々な観点から比較します。これにより、参加者が自身のプロジェクトに最適なライブラリを選択するための知識と洞察を得ることを目指します。