Pythonで公的統計APIのオープンデータ活用
10/15, 13:00–13:30 (Asia/Tokyo), pyconjp_5
言語: 日本語

政府統計ポータルサイトe-Statや政府保有の法人情報を情報提供するサイトgBizINFOなどのAPIで公的オープンデータが取得できます。
公的データは多種多様であり、家計の消費や企業の動向を自社の戦略に役立てたり、新規事業の市場規模を推測したり、様々な活用が考えられます。
しかし、実際にはデータを分析しようとすると扱いにくい点が多々あります。
ここでは、データ取得から面倒な前処理までをPythonで解消した例を実際の統計データ活用方法を交えて紹介します。


構成とタイムラインは以下のとおりです。

  • 導入
    • 自己紹介
    • 会社紹介
    • オーディエンスに求める前提知識
    • 発表コンテンツ
    • この題材を選んだ理由やきっかけ
    • オーディエンスが持って帰れる具体的な知識やノウハウ
  • Pythonの前に:公的統計とe-StatAPIについて
    • 公的統計とオープンデータの定義
    • 世界と米国の公的データ
    • pandas-datareaderでデータ取得
    • 日本の公的データ
    • 公的統計APIと政府統計ポータルサイトe-Stat
  • Pythonでのe-Statデータの扱い方(APIでのデータ取得から前処理まで)
    • e-Stat API機能について
    • 事例で扱う統計:家計調査について
    • APIでデータ取得(requests)
    • e-Stat API取得データの扱いにくい点
    • 戻り値のJSON(dict)は深い入れ子構造になっていて扱いにくい
    • テーブルの項目名(メタデータ)を別で取得して結合する必要がある
    • 値の列を見ると、数値でない欠損と思われる特殊文字がいろいろある
    • 統計表IDの調べ方がわかりにくく、目的に沿ったデータが見つけにくい
    • データ取得レコード数の上限
    • 上記、扱いにくい点の解消方法を説明(requests, pandas)
    • データ取得から面倒な前処理までのすべてを数行で解決できるよう(発表日までに)ライブラリ化して紹介
    • 事例:家計調査のデータ活用(plotly)
  • 公的統計のこれから
  • おわりに

Pythonでデータ分析の仕事をしています。
- 所属・職種
- 株式会社マネーフォワード
- データアナリスト/データサイエンティスト
- 興味
- ファイナンシャル・プランニング、社会保障、保険、年金
- Pythonで公的年金シミュレーションしたり、確定拠出年金の資産配分決めたりしてます
- 趣味
- 読書など
- SNS等
- note: https://note.com/well_living_ry
- Qiita: https://qiita.com/well_living