開源人年會 2022

使用 Snorkel 增幅你的資料
2022年7月31日 , TR412-1
語言: 漢語

在此演講中,講者將分享使用開源套件 Snorkel 進行文字資料處理的心得分享。Snorkel 是一個處理文字資料的套件庫,可以進行弱監督的資料標記並且進行資料增幅。內容將穿插資料處理觀念、論文重點導讀、與 Snorkel 實作案例,期待你能夠在聽完後能理解資料增幅的優勢與限制,並知道要如何運用 Snorkel 在自己的 NLP 專案中進行資料集的創建與增幅。


  • 開場
  • 自我介紹(1 min)
  • 用 AI 協助資料集創建
  • Golden and Silver Dataset 的介紹(5 min)
    • Golden:人工標記的資料集
    • Silver:基於 Golden,讓電腦標記的資料集、經過增幅的資料集
    • 藉由 Snorkel 來透過 Golden 製作 Silver 的方法說明與範例
  • 資料增幅 (5 min)
  • 反例討論:增幅、銀資料集真的好嗎?(5 min)
    • 重點提醒:資料增幅時,小心資料外洩影響準確度判斷
    • 有時候類似資料太多,NLP 模型反而訓練不好
    • 論文重點導讀:Deduplicating Training Data Makes Language Models Better
      • Deduplicating 是去除重複的部分 的意思

目標聽眾族群

做自然語言處理的開發者,對自然語言處理的新技術有興趣的普羅大眾

內容難易度

入門

youtube_link

https://www.youtube.com/watch?v=5vCGhzpY6qI

本名陳怡升,名字的含義是「怡」然自得的提「升」自己,希望能帶著快樂的心成長向上。

現於臺師大學習科學學士班讀四年級,並且在新創 Cohart 擔任研發工程師。感興趣的領域為區塊鏈、AI、人機互動的研究,擅長快速學習並實作新技術。更多關於 Eason 請見 https://eason.best

此講者還出現在: