2022/10/15 –, pyconjp_5
言語: 日本語
政府統計ポータルサイトe-Statや政府保有の法人情報を情報提供するサイトgBizINFOなどのAPIで公的オープンデータが取得できます。
公的データは多種多様であり、家計の消費や企業の動向を自社の戦略に役立てたり、新規事業の市場規模を推測したり、様々な活用が考えられます。
しかし、実際にはデータを分析しようとすると扱いにくい点が多々あります。
ここでは、データ取得から面倒な前処理までをPythonで解消した例を実際の統計データ活用方法を交えて紹介します。
構成とタイムラインは以下のとおりです。
- 導入
- 自己紹介
- 会社紹介
- オーディエンスに求める前提知識
- 発表コンテンツ
- この題材を選んだ理由やきっかけ
- オーディエンスが持って帰れる具体的な知識やノウハウ
- Pythonの前に:公的統計とe-StatAPIについて
- 公的統計とオープンデータの定義
- 世界と米国の公的データ
- pandas-datareaderでデータ取得
- 日本の公的データ
- 公的統計APIと政府統計ポータルサイトe-Stat
- Pythonでのe-Statデータの扱い方(APIでのデータ取得から前処理まで)
- e-Stat API機能について
- 事例で扱う統計:家計調査について
- APIでデータ取得(requests)
- e-Stat API取得データの扱いにくい点
- 戻り値のJSON(dict)は深い入れ子構造になっていて扱いにくい
- テーブルの項目名(メタデータ)を別で取得して結合する必要がある
- 値の列を見ると、数値でない欠損と思われる特殊文字がいろいろある
- 統計表IDの調べ方がわかりにくく、目的に沿ったデータが見つけにくい
- データ取得レコード数の上限
- 上記、扱いにくい点の解消方法を説明(requests, pandas)
- データ取得から面倒な前処理までのすべてを数行で解決できるよう(発表日までに)ライブラリ化して紹介
- 事例:家計調査のデータ活用(plotly)
- 公的統計のこれから
- おわりに
Pythonでデータ分析の仕事をしています。
- 所属・職種
- 株式会社マネーフォワード
- データアナリスト/データサイエンティスト
- 興味
- ファイナンシャル・プランニング、社会保障、保険、年金
- Pythonで公的年金シミュレーションしたり、確定拠出年金の資産配分決めたりしてます
- 趣味
- 読書など
- SNS等
- note: https://note.com/well_living_ry
- Qiita: https://qiita.com/well_living