The app for independent voices

Nvidia推出開源TensorRT-LLM函式庫,強化 #H100 #推論能力

 

TensorRT-LLM採用 動態批次處理(In-Flight Batching)技術,將模型文字生成過程切分為多次執行,如此不需要等待整批次完成,就能處理下一組請求,可提高GPU使用效率,有助於降低總成本。

#H100 GPU原本吞吐量就是#A100的4倍,搭配TensorRT-LLM後,可提高到8倍。在執行Llama 2模型上,H100 GPU的推論效能從A100的2.6倍上升到4.6倍。

Sep 19, 2023
at
4:25 AM

Log in or sign up

Join the most interesting and insightful discussions.