PyCon JP 2024

Takanori Suzuki

Takanori(@takanory) is the Chair of PyCon JP Association and Co-Chair of PyCon JP 2024.
He is also a Director of BeProud Inc., and his title is "Python Climber".
Currently he teaches Python to beginners as a lecturer at Python Boot Camp all over Japan.
In addition, he published several Python books.
He plays trumpet, climbs boulder, loves ferrets, beer and Lego.


Session

09-28
10:20
30min
Pythonで 日本語処理 入門 〜フリガナプログラムを作ろう〜
Takanori Suzuki

Pythonでは日本語や英語など、自然言語処理のためのライブラリが豊富に提供されています。このトークでは「日本語の文章に対してフリガナを振る」というプログラムの作成を通じて、Pythonで自然言語処理ライブラリJanomeとSudachiPyを使用した、日本語を処理する方法について解説します。

はじめに自然言語処理とはどういうものか、今回主に使用する形態素解析について概要を説明します。またゴールとする「フリガナを振るプログラム」ではどういう動作をしてほしいかについて最初に説明します。

前半はJanomeを使用してフリガナを振るプログラムを作成していきます。Janomeを使用した形態素解析のやり方、読みの取得、フリガナを振るプログラム作成を行います。その後辞書の改善によるフリガナの改善を行います。

後半はライブラリとしてSudachiPyを使用します。最初にJanomeとSudachiPyの違いに触れ、SudachiPyで書き直す理由について説明します。SudachiPyを使用した形態素解析のやり方、読みの取得、フリガナを振るプログラムを作成します。フリガナの処理をより洗練させ、ユーザー辞書でのフリガナの改善まで行います。また、小学校で学んだ漢字のリストを作成し、小学校で学んだ漢字にはフリガナを振らない処理を作成します。

Data Science, AI
4F Track3