PyCon JP 2022

Your locale preferences have been saved. We like to think that we have excellent support for English in pretalx, but if you encounter issues or errors, please contact us!

Pythonで公的統計APIのオープンデータ活用
2022-10-15 , pyconjp_5
Language: 日本語

政府統計ポータルサイトe-Statや政府保有の法人情報を情報提供するサイトgBizINFOなどのAPIで公的オープンデータが取得できます。
公的データは多種多様であり、家計の消費や企業の動向を自社の戦略に役立てたり、新規事業の市場規模を推測したり、様々な活用が考えられます。
しかし、実際にはデータを分析しようとすると扱いにくい点が多々あります。
ここでは、データ取得から面倒な前処理までをPythonで解消した例を実際の統計データ活用方法を交えて紹介します。


構成とタイムラインは以下のとおりです。

  • 導入
    • 自己紹介
    • 会社紹介
    • オーディエンスに求める前提知識
    • 発表コンテンツ
    • この題材を選んだ理由やきっかけ
    • オーディエンスが持って帰れる具体的な知識やノウハウ
  • Pythonの前に:公的統計とe-StatAPIについて
    • 公的統計とオープンデータの定義
    • 世界と米国の公的データ
    • pandas-datareaderでデータ取得
    • 日本の公的データ
    • 公的統計APIと政府統計ポータルサイトe-Stat
  • Pythonでのe-Statデータの扱い方(APIでのデータ取得から前処理まで)
    • e-Stat API機能について
    • 事例で扱う統計:家計調査について
    • APIでデータ取得(requests)
    • e-Stat API取得データの扱いにくい点
    • 戻り値のJSON(dict)は深い入れ子構造になっていて扱いにくい
    • テーブルの項目名(メタデータ)を別で取得して結合する必要がある
    • 値の列を見ると、数値でない欠損と思われる特殊文字がいろいろある
    • 統計表IDの調べ方がわかりにくく、目的に沿ったデータが見つけにくい
    • データ取得レコード数の上限
    • 上記、扱いにくい点の解消方法を説明(requests, pandas)
    • データ取得から面倒な前処理までのすべてを数行で解決できるよう(発表日までに)ライブラリ化して紹介
    • 事例:家計調査のデータ活用(plotly)
  • 公的統計のこれから
  • おわりに

Pythonでデータ分析の仕事をしています。
- 所属・職種
- 株式会社マネーフォワード
- データアナリスト/データサイエンティスト
- 興味
- ファイナンシャル・プランニング、社会保障、保険、年金
- Pythonで公的年金シミュレーションしたり、確定拠出年金の資産配分決めたりしてます
- 趣味
- 読書など
- SNS等
- note: https://note.com/well_living_ry
- Qiita: https://qiita.com/well_living