PyCon APAC 2023

Your locale preferences have been saved. We like to think that we have excellent support for English in pretalx, but if you encounter issues or errors, please contact us!

情報収集を効率化する自然言語処理の活用方法 - PythonではじめるAwesomeリポジトリの作り方
2023-10-28 , track 5

新しい技術情報が毎日のように出現する昨今、これらの情報を追いかけることは時間や体力を消耗します。しかし自然言語処理の活用により、この問題を解決できます。インターネットから情報を自動収集し、その情報を分類、必要に応じて翻訳します。そしてその結果を質問応答モデルに入力することで、自分の関心に合った情報を抽出することができます。これらの機能は全てオープンソースのPythonライブラリを利用することで実現可能です。

私自身もChatGPTや日本語NLPに関する情報を自動収集し、その結果をAwesomeリポジトリとして作成し、GitHub上で公開しています。そこでユーザーからの意見を参考にした情報の効率的な整理や掲載方法をTipsとして共有します。このトークに参加することで「自動的に情報が集まるAwesomeリポジトリの作り方」を学び、さらに自然言語処理に関する知識も身につけることができます。


発表資料(Speaker Deck)
https://speakerdeck.com/taishii/pycon-apac-2023

【タイムライン】
・導入(1分)
- 自己紹介
- 本発表について
- 本発表の目的

・情報収集の現状(3分)
- エンジニアが情報収集を行う頻度
- 情報過多による開発パフォーマンスへの影響
- 課題の整理、解決案の提案
- 実例:日本語NLPに関するAwesomeリポジトリ https://github.com/taishi-i/awesome-japanese-nlp-resources
- 実例:ChatGPTに関するAwesomeリポジトリ https://github.com/taishi-i/awesome-ChatGPT-repositories
- Awesome リポジトリとは?

・自然言語処理を活用した情報収集の効率化(8分)
- GitHub API を活用したデータ収集
- 必要な情報を見つけ出すテキスト分類
- 大規模言語モデルを利用した Few-Shot 分類
- 学習データを利用した事前学習モデルのファインチューニング
- 大規模言語モデルの入力とするプロンプト
- OpenAI API を利用したテキスト分類
- Hugging Face に公開されているモデルを利用
- テキスト分類の精度検証
- 情報をわかりやすく伝える多言語機械翻訳
- OpenAI API を利用した多言語機械翻訳
- (参考)効率的に情報を探し出す検索・質問応答

・情報が自動的に集約される Awesome リポジトリ(2分)
- Awesome リポジトリの作り方
- ユーザーに価値のある情報の追加
- 情報掲載作業の自動化
- Awesome リポジトリの完成

・まとめ(1分)
- 大規模言語モデル時代の情報収集

See also:

自然言語処理に関連するソフトウェアをオープンソースで開発しています!

アカウント
- GitHub: https://github.com/taishi-i
- Twitter: https://twitter.com/taishinlp
- SpeakerDeck: https://speakerdeck.com/taishii

過去の PyCon JP 発表経験
- PyCon JP 2018 - NLP(自然言語処理)初心者のための単語分割/品詞タグ付けツールの紹介
- PyCon JP 2019 - Python による日本語自然言語処理 〜系列ラベリングによる実世界テキスト分析〜
- PyCon JP 2020 - 最先端自然言語処理ライブラリの最適な選択と有用な利用方法
- PyCon JP 2022 - Python ライブラリ開発における失敗談 〜開発者に選ばれるライブラリを作るために必要なこと〜