Triton as NLP Model Inference Back-end 開源人年會 2022

Triton as NLP Model Inference Back-end
.ical
2022年7月30日 13:40–14:10, TR410
語言: English

如果一個 Chatbot 有極大量的使用者，又串接了自己訓練的NLP Model，那麼 back-end service 同時要 inference 這麼多使用者的自然語言，想必會是一個瓶頸。為了解決這類的問題，Nividia 推出了一套開源的 inference server 工具，Triton，可以在 GPU 或 CPU 上部署模型，將 GPU/CPU 利用率最大化，以達到更快速的 inference。

本次演講會介紹 Triton Inference Server，並且透過實際範例將 NLP Model 部署進去 Triton。

Chatbot 要串接到自己訓練的 NLP Model，那麼就需要建立一個 back-end service，讓使用者的自然語言送到 back-end service 裡做 inference，並回傳結果到 Chatbot。可是如果這個 Chatbot 有極大量的使用者，那麼 back-end service 同時要 inference 這麼多使用者的自然語言，想必會是一個瓶頸。為了解決這類的問題，Nividia 推出了一套開源的 inference server 工具，Triton，可以在 GPU 或 CPU 上部署模型，使用動態批次處理和並行模型執行等功能，將 GPU/CPU 利用率最大化，以達到更快速的 inference。

本次演講會介紹 Triton Inference Server，並且透過實際範例將 NLP Model 部署進去 Triton。

目標聽眾族群:

Chatbot 開發者、AI 工程師、後端開發者

內容難易度: 進階

Ko Ko

Microsoft AI MVP，一直致力於分享 AI 與 Chatbot 相關的技術。曾於許多大型研討會擔任講者，包含 COSCUP、.NET CONF、台灣人工智慧學校年會等，也是 Chatbot 社群的核心成員。

Triton as NLP Model Inference Back-end .ical 2022年7月30日 13:40–14:10, TR410 語言: English

Triton as NLP Model Inference Back-end
.ical
2022年7月30日 13:40–14:10, TR410
語言: English