桂川大輝
大学、大学院にて情報工学を専攻する。社会の課題に対するデータ活用について研究をする。福祉、自動運転、ソフトウェア工学など様々なドメインに関わる。2019年、新卒入社し、入社当時からデータ活用について検討、提案をする、2021年より機械学習エンジニアとしてデータ活用に基づくプロダクト開発、データ分析に従事する。機械学習と現実世界のハードルが課題だと考え、機械学習の説明可能性、AutoML、意思決定の支援に活用できそうなこと(論理学など)、そのためのPythonによる開発(ドメインに基づくデータの扱いを実現する開発プロセス)などを学習中である。業務の傍ら、社外でしか得られない情報や経験を得ることを目的として、アウトプットやOSSのコントリビュートなどの活動を実施している。
Session
10/15
15:10
30min
データに関する堅牢性と可読性を向上させるpydanticとpanderaの活用方法の提案
桂川大輝
Pythonで実装される機械学習やデータ分析などのプログラミングでは、扱うデータがドメインに基づくことがとても重要です。そこでは、Pythonが動的型付け言語であるため、扱うデータに対して「意図しないデータの格納を許してしまう」という課題があります。また、扱うデータが複雑だった場合、「ソースコードからデータの仕様を理解できない」という課題もあります。特に、ドメインが重要となるデータを扱う場面ではこれらの課題が顕著に現れます。本発表では、課題を解決するために、扱うデータに対して「堅牢性」と「可読性」を向上させる2つのライブラリ、pydanticとpanderaの活用方法を提案します。また、2つのライブラリを同時に利用する利点を紹介します。さらに、導入という意思決定において把握が必要なリスクについても紹介します。多くの方に課題解決の機会を提供します。
Tips of development with Python
pyconjp_1