Triton as NLP Model Inference Back-end COSCUP 2022

Triton as NLP Model Inference Back-end
.ical

2022/07/30 13:40–14:10, TR410
言語: English

如果一個 Chatbot 有極大量的使用者，又串接了自己訓練的NLP Model，那麼 back-end service 同時要 inference 這麼多使用者的自然語言，想必會是一個瓶頸。為了解決這類的問題，Nividia 推出了一套開源的 inference server 工具，Triton，可以在 GPU 或 CPU 上部署模型，將 GPU/CPU 利用率最大化，以達到更快速的 inference。

本次演講會介紹 Triton Inference Server，並且透過實際範例將 NLP Model 部署進去 Triton。

Chatbot 要串接到自己訓練的 NLP Model，那麼就需要建立一個 back-end service，讓使用者的自然語言送到 back-end service 裡做 inference，並回傳結果到 Chatbot。可是如果這個 Chatbot 有極大量的使用者，那麼 back-end service 同時要 inference 這麼多使用者的自然語言，想必會是一個瓶頸。為了解決這類的問題，Nividia 推出了一套開源的 inference server 工具，Triton，可以在 GPU 或 CPU 上部署模型，使用動態批次處理和並行模型執行等功能，將 GPU/CPU 利用率最大化，以達到更快速的 inference。

本次演講會介紹 Triton Inference Server，並且透過實際範例將 NLP Model 部署進去 Triton。

Target Audience –

Chatbot 開發者、AI 工程師、後端開發者

Difficulty –

Advance

Ko Ko

Microsoft AI MVP，一直致力於分享 AI 與 Chatbot 相關的技術。曾於許多大型研討會擔任講者，包含 COSCUP、.NET CONF、台灣人工智慧學校年會等，也是 Chatbot 社群的核心成員。

Triton as NLP Model Inference Back-end .ical 2022/07/30 13:40–14:10, TR410 言語: English

Triton as NLP Model Inference Back-end
.ical

2022/07/30 13:40–14:10, TR410
言語: English