2023/10/28 –, track 5
新しい技術情報が毎日のように出現する昨今、これらの情報を追いかけることは時間や体力を消耗します。しかし自然言語処理の活用により、この問題を解決できます。インターネットから情報を自動収集し、その情報を分類、必要に応じて翻訳します。そしてその結果を質問応答モデルに入力することで、自分の関心に合った情報を抽出することができます。これらの機能は全てオープンソースのPythonライブラリを利用することで実現可能です。
私自身もChatGPTや日本語NLPに関する情報を自動収集し、その結果をAwesomeリポジトリとして作成し、GitHub上で公開しています。そこでユーザーからの意見を参考にした情報の効率的な整理や掲載方法をTipsとして共有します。このトークに参加することで「自動的に情報が集まるAwesomeリポジトリの作り方」を学び、さらに自然言語処理に関する知識も身につけることができます。
発表資料(Speaker Deck)
https://speakerdeck.com/taishii/pycon-apac-2023
【タイムライン】
・導入(1分)
- 自己紹介
- 本発表について
- 本発表の目的
・情報収集の現状(3分)
- エンジニアが情報収集を行う頻度
- 情報過多による開発パフォーマンスへの影響
- 課題の整理、解決案の提案
- 実例:日本語NLPに関するAwesomeリポジトリ https://github.com/taishi-i/awesome-japanese-nlp-resources
- 実例:ChatGPTに関するAwesomeリポジトリ https://github.com/taishi-i/awesome-ChatGPT-repositories
- Awesome リポジトリとは?
・自然言語処理を活用した情報収集の効率化(8分)
- GitHub API を活用したデータ収集
- 必要な情報を見つけ出すテキスト分類
- 大規模言語モデルを利用した Few-Shot 分類
- 学習データを利用した事前学習モデルのファインチューニング
- 大規模言語モデルの入力とするプロンプト
- OpenAI API を利用したテキスト分類
- Hugging Face に公開されているモデルを利用
- テキスト分類の精度検証
- 情報をわかりやすく伝える多言語機械翻訳
- OpenAI API を利用した多言語機械翻訳
- (参考)効率的に情報を探し出す検索・質問応答
・情報が自動的に集約される Awesome リポジトリ(2分)
- Awesome リポジトリの作り方
- ユーザーに価値のある情報の追加
- 情報掲載作業の自動化
- Awesome リポジトリの完成
・まとめ(1分)
- 大規模言語モデル時代の情報収集
自然言語処理に関連するソフトウェアをオープンソースで開発しています!
アカウント
- GitHub: https://github.com/taishi-i
- Twitter: https://twitter.com/taishinlp
- SpeakerDeck: https://speakerdeck.com/taishii
過去の PyCon JP 発表経験
- PyCon JP 2018 - NLP(自然言語処理)初心者のための単語分割/品詞タグ付けツールの紹介
- PyCon JP 2019 - Python による日本語自然言語処理 〜系列ラベリングによる実世界テキスト分析〜
- PyCon JP 2020 - 最先端自然言語処理ライブラリの最適な選択と有用な利用方法
- PyCon JP 2022 - Python ライブラリ開発における失敗談 〜開発者に選ばれるライブラリを作るために必要なこと〜