PyCon JP 2024

Re:PandasAI:生成AIがデータ分析業務にもたらすパラダイムシフト【増補改訂版】
2024-09-28 , 20F Track2

生成AIがデータ分析業務にもたらすパラダイムシフトとして「複雑な分析関連コードを書く代わりに、自然言語による対話的なデータ分析」を本セッションを通じて体験してみませんか?

本セッションでは、生成AIを利用したデータ分析の効率化と自動化に焦点を当て、特に、自然言語によるデータ分析機能を提供するPandasAIというライブラリの可能性を紹介します。実世界のデータ分析課題にPandasAIをどのように適用できるか、そのベストプラクティスを共有し、データ処理、クリーニング、可視化、および特徴量生成のプロセスを簡略化する方法を提示します。


  • 対象者(どんな方に聞いてもらいたいか?)

    • PythonやSQLを使用してデータ分析を行っているが、生成AIの活用により複雑なコードを書かずに分析作業を効率化したい、自然言語でデータにクエリを投げたいと考えている人。また、SQLやPythonに慣れていない人や、データを扱うときに時間と労力を節約したい人。データ分析の自動化に興味がある初心者から中級者を対象とします。
  • 目的(トークを聞いた方に伝えたいこと)

  • 生成AIがデータ分析業務にもたらすパラダイムシフトとして「複雑な分析関連コードを書く代わりに、自然言語による対話的なデータ分析」を本セッションを通じて体験してみませんか?
  • 本セッションでは、生成AIを利用したデータ分析の効率化と自動化に焦点を当て、特に、自然言語によるデータ分析機能を提供するPandasAIというライブラリの可能性を紹介します。実世界のデータ分析課題にPandasAIをどのように適用できるか、そのベストプラクティスを共有し、データ処理、クリーニング、可視化、および特徴量生成のプロセスを簡略化する方法を提示します。

  • タイムライン

  • 機械学習の基礎(5分)
    • 機械学習とは
    • 人に比べて機械学習のここがいい
    • 機械学習を活かすポイント
    • 機械学習が失敗するパターン
    • 「機械にやらせるなら、ルールを書けば?」
    • ルールに基づく判断の限界
    • 生成AIは何ができるものなのか?
  • 生成AIの基礎(3分)
    • 言語モデルとは?
    • 大規模言語モデル(LLM)とは?
    • 大規模言語モデルの仕組み(最近のパターン)
  • データ分析の基礎(5分)
    • What is Data Science?
    • Motivation
    • 世はまさに大可視化時代
  • PandasAIとは(15分)
    • PandasAIとは(特徴)
    • PandasAIの仕組みは?
    • LLMの潜在的な課題(参考)
    • 悪意のあるコードが生成された場合は?
    • PandasAIを理解するためのメインコンポーネント3つ
  • デモ(2分)
  • まとめ(1分)
  • お役立ちリンク集

Why did you choose this topic?

生成AIをプロダクトに適用する際にはLLMの潜在的な課題である「正確性と信頼性に関する課題」や「剽窃に関する課題」などのリスクを適切に理解して、応用する必要がある。
しかし昨今、分析ライブラリとかに生成AI機能が爆誕してたりして、どれぐらい使えるものなのか、有象無象が多すぎてどれ使えばいいのか分からない。

本セッションでは、Python/データ分析/生成AIなどをキーワードに、データ分析界隈でデファクトスタンダードに使われる、表形式のデータ構造に関して効率的にデータ操作を行うことができるPandasライブラリにAI機能が加わったPandasAIを題材にして、そのライブラリの概要および内部ライブラリの仕様を読み取ることで、LLMの潜在的な課題に対してどの様なアプローチで対処しているのかを理解する。また、情報を体系化してベストプラクティスをまとめることで、生成AIを効果的に活用する際のヒントとなるようなセッションを目指します。

Knowledges and know-how the audience can get from your talk

・PandasAIがなにかわかる
・動作原理について理解する(デモ有)
・機械学習の雰囲気がわかる
・生成AIの雰囲気がわかる
・データ分析の雰囲気がわかる
・データ分析における生成AI事例を理解する

Prior knowledges speakers assume the audience to have

PythonやSQLを使用してデータ分析を行っているが、生成AIの活用により複雑なコードを書かずに分析作業を効率化したい、自然言語でデータにクエリを投げたいと考えている人。また、SQLやPythonに慣れていない人や、データを扱うときに時間と労力を節約したい人。データ分析の自動化に興味がある初心者から中級者を対象とします。より具体的には以下の項目について知っていることを前提とします。

・ChatGPTを知っている
・Pythonの基礎的な文法
・オブジェクト指向の考え方
 ・ライブラリが普通に使えればOK!
・OpenAI(Azure)でAPIキーが発行できる
 ・お試し程度なら無料分で十分

Audience experiment

Beginner

Language of presentation

日本語

Language of presentation material

日本語

See also:

NTT CommunicationsのR&D部門であるイノベーションセンター所属のリサーチエンジニア。データ分析Webアプリケーション開発、データ分析コンサルティング、AI 人材育成の関連業務に従事。最近では、自社開発しているノーコード時系列データ分析ツール「Node-AI」を活用したAI人材育成に関して方法論を模索中。