COSCUP 2022

Your locale preferences have been saved. We like to think that we have excellent support for English in pretalx, but if you encounter issues or errors, please contact us!

使用 Snorkel 增幅你的資料
2022-07-31 , TR412-1
Language: 漢語

在此演講中,講者將分享使用開源套件 Snorkel 進行文字資料處理的心得分享。Snorkel 是一個處理文字資料的套件庫,可以進行弱監督的資料標記並且進行資料增幅。內容將穿插資料處理觀念、論文重點導讀、與 Snorkel 實作案例,期待你能夠在聽完後能理解資料增幅的優勢與限制,並知道要如何運用 Snorkel 在自己的 NLP 專案中進行資料集的創建與增幅。


  • 開場
  • 自我介紹(1 min)
  • 用 AI 協助資料集創建
  • Golden and Silver Dataset 的介紹(5 min)
    • Golden:人工標記的資料集
    • Silver:基於 Golden,讓電腦標記的資料集、經過增幅的資料集
    • 藉由 Snorkel 來透過 Golden 製作 Silver 的方法說明與範例
  • 資料增幅 (5 min)
  • 反例討論:增幅、銀資料集真的好嗎?(5 min)
    • 重點提醒:資料增幅時,小心資料外洩影響準確度判斷
    • 有時候類似資料太多,NLP 模型反而訓練不好
    • 論文重點導讀:Deduplicating Training Data Makes Language Models Better
      • Deduplicating 是去除重複的部分 的意思

Target Audience

做自然語言處理的開發者,對自然語言處理的新技術有興趣的普羅大眾

Difficulty

入門

youtube_link

https://www.youtube.com/watch?v=5vCGhzpY6qI

本名陳怡升,名字的含義是「怡」然自得的提「升」自己,希望能帶著快樂的心成長向上。

現於臺師大學習科學學士班讀四年級,並且在新創 Cohart 擔任研發工程師。感興趣的領域為區塊鏈、AI、人機互動的研究,擅長快速學習並實作新技術。更多關於 Eason 請見 https://eason.best

This speaker also appears in: