2022/07/30 –, TR410
言語: English
如果一個 Chatbot 有極大量的使用者,又串接了自己訓練的NLP Model,那麼 back-end service 同時要 inference 這麼多使用者的自然語言,想必會是一個瓶頸。為了解決這類的問題,Nividia 推出了一套開源的 inference server 工具,Triton,可以在 GPU 或 CPU 上部署模型,將 GPU/CPU 利用率最大化,以達到更快速的 inference。
本次演講會介紹 Triton Inference Server,並且透過實際範例將 NLP Model 部署進去 Triton。
Chatbot 要串接到自己訓練的 NLP Model,那麼就需要建立一個 back-end service,讓使用者的自然語言送到 back-end service 裡做 inference,並回傳結果到 Chatbot。可是如果這個 Chatbot 有極大量的使用者,那麼 back-end service 同時要 inference 這麼多使用者的自然語言,想必會是一個瓶頸。為了解決這類的問題,Nividia 推出了一套開源的 inference server 工具,Triton,可以在 GPU 或 CPU 上部署模型,使用動態批次處理和並行模型執行等功能,將 GPU/CPU 利用率最大化,以達到更快速的 inference。
本次演講會介紹 Triton Inference Server,並且透過實際範例將 NLP Model 部署進去 Triton。
Chatbot 開發者、AI 工程師、後端開發者
Difficulty –Advance
Microsoft AI MVP,一直致力於分享 AI 與 Chatbot 相關的技術。曾於許多大型研討會擔任講者,包含 COSCUP、.NET CONF、台灣人工智慧學校年會等,也是 Chatbot 社群的核心成員。