2022年7月31日 –, TR412-1
語言: 漢語
在此演講中,講者將分享使用開源套件 Snorkel 進行文字資料處理的心得分享。Snorkel 是一個處理文字資料的套件庫,可以進行弱監督的資料標記並且進行資料增幅。內容將穿插資料處理觀念、論文重點導讀、與 Snorkel 實作案例,期待你能夠在聽完後能理解資料增幅的優勢與限制,並知道要如何運用 Snorkel 在自己的 NLP 專案中進行資料集的創建與增幅。
- 開場
- 自我介紹(1 min)
- 用 AI 協助資料集創建
- 人工標記 (1 min)
- 弱監督:讓電腦標記:Weak Supervision (5 min)
- 論文重點導讀:Snorkel: Rapid Training Data Creation with Weak Supervision
- 實作工具:Snorkel 介紹 (8 min)
- 實作心得分享:使用 Snorkel 進行弱監督處理 Twitter 資料集的心得
- Golden and Silver Dataset 的介紹(5 min)
- Golden:人工標記的資料集
- Silver:基於 Golden,讓電腦標記的資料集、經過增幅的資料集
- 藉由 Snorkel 來透過 Golden 製作 Silver 的方法說明與範例
- 範例:有部分資料已標記,想要標記剩餘資料
- https://www.snorkel.org/use-cases/crowdsourcing-tutorial
- 資料增幅 (5 min)
- 動機
- 有更多資料可以訓練
- 實作方法說明
- 參考:https://www.snorkel.org/use-cases/02-spam-data-augmentation-tutorial
- 替換同意字
- 如 wish 換成 hope
- 實作心得分享:使用 Snorkel 進行 Twitter 資料集的增強的心得
- 動機
- 反例討論:增幅、銀資料集真的好嗎?(5 min)
- 重點提醒:資料增幅時,小心資料外洩影響準確度判斷
- 有時候類似資料太多,NLP 模型反而訓練不好
- 論文重點導讀:Deduplicating Training Data Makes Language Models Better
- Deduplicating 是去除重複的部分 的意思
做自然語言處理的開發者,對自然語言處理的新技術有興趣的普羅大眾
內容難易度:入門
youtube_link:本名陳怡升,名字的含義是「怡」然自得的提「升」自己,希望能帶著快樂的心成長向上。
現於臺師大學習科學學士班讀四年級,並且在新創 Cohart 擔任研發工程師。感興趣的領域為區塊鏈、AI、人機互動的研究,擅長快速學習並實作新技術。更多關於 Eason 請見 https://eason.best