使用 Snorkel 增幅你的資料 COSCUP 2022

使用 Snorkel 增幅你的資料
.ical

2022/07/31 14:20–14:50, TR412-1
言語: 漢語

在此演講中，講者將分享使用開源套件 Snorkel 進行文字資料處理的心得分享。Snorkel 是一個處理文字資料的套件庫，可以進行弱監督的資料標記並且進行資料增幅。內容將穿插資料處理觀念、論文重點導讀、與 Snorkel 實作案例，期待你能夠在聽完後能理解資料增幅的優勢與限制，並知道要如何運用 Snorkel 在自己的 NLP 專案中進行資料集的創建與增幅。

開場
自我介紹(1 min)
用 AI 協助資料集創建
- 人工標記 (1 min)
- 弱監督：讓電腦標記：Weak Supervision (5 min)
  - 論文重點導讀：Snorkel: Rapid Training Data Creation with Weak Supervision
- 實作工具：Snorkel 介紹 (8 min)
- 實作心得分享：使用 Snorkel 進行弱監督處理 Twitter 資料集的心得
Golden and Silver Dataset 的介紹(5 min)
- Golden：人工標記的資料集
- Silver：基於 Golden，讓電腦標記的資料集、經過增幅的資料集
- 藉由 Snorkel 來透過 Golden 製作 Silver 的方法說明與範例
  - 範例：有部分資料已標記，想要標記剩餘資料
  - https://www.snorkel.org/use-cases/crowdsourcing-tutorial
資料增幅 (5 min)
- 動機
  - 有更多資料可以訓練
- 實作方法說明
  - 參考：https://www.snorkel.org/use-cases/02-spam-data-augmentation-tutorial
  - 替換同意字
    - 如 wish 換成 hope
- 實作心得分享：使用 Snorkel 進行 Twitter 資料集的增強的心得
反例討論：增幅、銀資料集真的好嗎？(5 min)
- 重點提醒：資料增幅時，小心資料外洩影響準確度判斷
- 有時候類似資料太多，NLP 模型反而訓練不好
- 論文重點導讀：Deduplicating Training Data Makes Language Models Better
  - Deduplicating 是去除重複的部分的意思

Target Audience –

做自然語言處理的開發者，對自然語言處理的新技術有興趣的普羅大眾

Difficulty –

入門

youtube_link –

https://www.youtube.com/watch?v=5vCGhzpY6qI

EasonC13

本名陳怡升，名字的含義是「怡」然自得的提「升」自己，希望能帶著快樂的心成長向上。

現於臺師大學習科學學士班讀四年級，並且在新創 Cohart 擔任研發工程師。感興趣的領域為區塊鏈、AI、人機互動的研究，擅長快速學習並實作新技術。更多關於 Eason 請見 https://eason.best

This speaker also appears in:

使用 Snorkel 增幅你的資料 .ical 2022/07/31 14:20–14:50, TR412-1 言語: 漢語

使用 Snorkel 增幅你的資料
.ical

2022/07/31 14:20–14:50, TR412-1
言語: 漢語