2022-10-14 –, pyconjp_5
Language: 日本語
私たちは日々、言語を喋る・書くといった文章を生み出す動作を当たり前のように実行しています。このような創造的な行為は人工知能が苦手とする領域だと議論されてきましたが、近年の研究成果に伴って実現可能な範囲が広がってきました。本講演では日本語の文章生成を題材に、基本的な処理の概要や、Pythonの自然言語処理ライブラリ「Transformers」を用いた実装、事業会社での実践事例や課題を紹介します。具体的には、最初に自然言語処理の急速な発展を下支えする機械学習の基本的な考え方を概観し、次に日本語を題材にした実装例を「守・破・離」の段階別に説明します。講師が所属する日本経済新聞社では大量の日本語のニュース記事を処理しており、文章生成技術の適用可能性も大きいです。実務での経験を基に、具体的な事例や直面する課題についても言及します。
私たちは日々、言語を喋る・書くといった文章を生み出す動作を当たり前のように実行しています。このような創造的な行為は人工知能が苦手とする領域だと議論されてきましたが、近年の研究成果に伴って実現可能な範囲が広がってきました。たとえば、イーロンマスク氏らが共同創業した「OpenAI」が開発した「GPT-3」については、人間が書いた文章と区別がつかないようなニュース記事が生成できる旨が報告されています。
本講演では、日本語の文章生成を題材に、基本的な処理の概要や、Pythonの自然言語処理ライブラリ「Transformers」を用いた実装、事業会社での実践事例や課題を紹介します。具体的には、最初に自然言語処理の急速な発展を下支えする機械学習の基本的な考え方を概観し、次に日本語を題材にした実装例を「守・破・離」の段階別に説明します。
本講演の講師は10年近くにわたり報道機関に所属し、ここ数年は機械学習や自然言語処理を用いたサービス開発に従事してきました。報道の現場では日々大量の日本語のニュース記事が処理されています。文章生成技術の適用可能性も大きいと考え、研究開発を積極的に進めています。これらの経験を基に、具体的な事例や直面する課題についても言及します。
構成は以下のとおりです。導入では、文章生成のデモを通じて現在の技術の進展を紹介した後、発表の全体像を示します。その後、デモの背景にある技術の解説として、近年の自然言語処理の発展の歴史を取り上げます。ここでは、機械学習の教師あり学習の仕組みや、躍進の一つの契機となった自己教師あり学習・ファインチューニングの概要も紹介します。続いて、ここまで解説した基本的な処理をTransformersライブラリを用いて実装します。実装の具体的な全体像を掴みやすいよう、次の3段階で解説します。ライブラリが提供しているモデルをそのまま使う「守」、自前のデータセットで一部を調整(ファインチューニング)する「破」、モデル自体をゼロから自己教師あり学習で作り上げる「離」です。最後にそれぞれの具体的な実践事例について紹介し、本講演を締めくくります。
- 導入(5min)
- 文章生成(記事要約)のデモ
- 発表の全体像の紹介
- 自己紹介
- 近年の自然言語処理の躍進(5min)
- 機械学習の教師あり学習の仕組み
- 自己教師あり学習とファインチューニングによる転換期
- GPT2 や BERT による文章生成のデモ
- Transformersライブラリによる実装の守破離(10min)
- 守:既存のモデルをそのまま使う
- Pipelines の紹介
- Hugging Face Hub の紹介
- 破:既存のモデルをファインチューニング
- 豊富な Examples の紹介
- 離:自己教師あり学習から取り組む
- 豊富な Examples の紹介
- 守:既存のモデルをそのまま使う
- 日本経済新聞社での事例(9min)
- 守:既存のモデルをそのまま使う
- 破:既存のモデルをファインチューニング
- 記事要約の応用事例
- 直面する課題:言葉の時系列変化
- 離:自己教師あり学習から取り組む
- 日経電子版の記事を用いた事前学習
- ニュースメディアにおける利点と課題
- まとめ (1min)
日本経済新聞社の研究開発部署「日経イノベーション・ラボ」で、主任研究員としてデータ分析・サービス開発に従事。国内外の機械学習コンテストで入賞経験を持ち、入門書『PythonではじめるKaggleスタートブック』(講談社)の執筆や、勉強会の主催・登壇など、積極的な情報発信にも努めている。2020年、国際ニュースメディア協会の若手表彰「30 Under 30 Awards and Grand Prize」でアジア太平洋部門の最優秀賞を受賞。