COSCUP 2022

Your locale preferences have been saved. We like to think that we have excellent support for English in pretalx, but if you encounter issues or errors, please contact us!

Triton as NLP Model Inference Back-end
2022-07-30 , TR410
Language: English

如果一個 Chatbot 有極大量的使用者,又串接了自己訓練的NLP Model,那麼 back-end service 同時要 inference 這麼多使用者的自然語言,想必會是一個瓶頸。為了解決這類的問題,Nividia 推出了一套開源的 inference server 工具,Triton,可以在 GPU 或 CPU 上部署模型,將 GPU/CPU 利用率最大化,以達到更快速的 inference。

本次演講會介紹 Triton Inference Server,並且透過實際範例將 NLP Model 部署進去 Triton。


Chatbot 要串接到自己訓練的 NLP Model,那麼就需要建立一個 back-end service,讓使用者的自然語言送到 back-end service 裡做 inference,並回傳結果到 Chatbot。可是如果這個 Chatbot 有極大量的使用者,那麼 back-end service 同時要 inference 這麼多使用者的自然語言,想必會是一個瓶頸。為了解決這類的問題,Nividia 推出了一套開源的 inference server 工具,Triton,可以在 GPU 或 CPU 上部署模型,使用動態批次處理和並行模型執行等功能,將 GPU/CPU 利用率最大化,以達到更快速的 inference。

本次演講會介紹 Triton Inference Server,並且透過實際範例將 NLP Model 部署進去 Triton。


Target Audience

Chatbot 開發者、AI 工程師、後端開發者

Difficulty

Advance

Microsoft AI MVP,一直致力於分享 AI 與 Chatbot 相關的技術。曾於許多大型研討會擔任講者,包含 COSCUP、.NET CONF、台灣人工智慧學校年會等,也是 Chatbot 社群的核心成員。