【boost库源码 vs】【android源码资源包】【bmp转jpeg源码】nccl源码编译-皮皮网

【boost库源码 vs】【android源码资源包】【bmp转jpeg源码】nccl源码编译

时间:2024-11-30 14:51:17 分类：综合编辑：词法解释源码

1.PyTorch 分布式及集成NCCL源码分析
2.TensorRT-LLM（持续更新）

nccl源码编译

PyTorch 分布式及集成NCCL源码分析

DDP支持混合精度训练，源码提供分布式并行计算能力。编译

在NCCL编译分析部分，源码介绍了pytorch源码下载、编译cmake分析、源码nccl.cmake分析等。编译boost库源码 vsAMD的源码nccl（rccl）仅支持系统库的方式，一般情况下NCCL库通过lib方式集成。编译代码中的源码编译宏使用也进行了详细讨论。最后，编译提供了源码编译示例。源码

NCCL API使用方面，编译阐述了在NCCL中存在两种场景：管理单个GPU卡或多个GPU卡，源码且每个场景都需要一个唯一的编译android源码资源包标识符即ncclUniqueId，用于进行进程间通信。源码关于communicator，NCCL通过comm对象来管理不同device之间的通信原语，每个GPU有一个communicator对象，而在一台机器上，gpu的id由rank表示，因此创建communicator对象时有两种方式。

在PyTorch NCCL相关源码分析中，特别关注了c++侧的实现。

DDP分析部分，从Python侧入手，涉及环境变量获取和DDP类分析。环境变量配置了DDP的bmp转jpeg源码一些使用参数，DDP类则包含了分布式并行计算的核心功能。

总结部分，将上述内容进行归纳整理，对分布式并行计算、NCCL和DDP的关键点进行了概括。

TensorRT-LLM（持续更新）

TRT-LLM（NVIDIA官方支持）是一款用于在NVIDIA GPU平台上进行大模型推理部署的工具。

其整体流程是将LLM构建为engine模型，支持多种大模型，如单机单卡、单机多卡（NCCL）、多机多卡，以及量化（8/4bit）等功能。

TRT-LLM的c 数据采集源码runtime支持chat和stream两种模式，并支持python和cpp（可以直接使用cpp，也可以使用cpp的bybind接口）两种模式的runtime。

构建离线模型可以通过example下的各个模型的build.py实现，而运行模型则可通过example下的run.py进行。

TRT-LLM默认支持kv-cache，支持PagedAttention，支持flashattention，支持MHA/MQA/GQA等。

在cpp下，TRT-LLM实现了许多llm场景下的高性能cuda kernel，并基于TensorRT的plugin机制，支持各种算子调用。

与hugging face transformers（HF）相比，复制他人网站源码TRT-LLM在性能上提升2~3倍左右。

TRT-LLM易用性很强，可能与其LLM模型结构比较固定有关。

TRT-LLM的weight_only模式仅仅压缩模型体积，计算时依旧是dequant到input.dtype做计算。

TRT-LLM的量化：W4A（表示weight为4bit，输入数据即activation为fp）。

LLM模型推理，性能损耗大头在data 搬移，即memory bound，compute bound占比较少。

TRT-LLM运行时内存可以通过一下参数调整，使用适合当前业务模型的参数即可。

TRT-LLM对于Batch Manager提供了.a文件，用于支持in-flight batching of requests，来较小队列中的数据排队时间，提高GPU利用率。

当前支持（0.7.1）的模型如下：

tensorrt llm需要进行源码编译安装，官方提供的方式为通过docker进行安装。

docker方式编译可以参考官方文档，此处做进一步说明。使用docker方式，会将依赖的各种编译工具和sdk都下载好，后面会详细分析一下docker的编译过程。

编译有2种包，一种是仅包含cpp的代码包，一种是cpp+python的wheel包。

docker的整个编译过程从如下命令开始：调用make，makefile在 docker/Makefile 下面，里面主要是调用了docker命令来进行构建。

后续非docker方式编译llm，也是基于上述docker编译。

一些小技巧：在编译llm过程中，会通过pip install一些python包，llm脚本中默认使用了NVIDIA的源，我们可以替换为国内的源，速度快一些。

整个过程就是将docker file中的过程拆解出来，直接执行，不通过docker来执行。

编译好的文件位于：build/tensorrt_llm-0.5.0-py3-none-any.whl。

默认编译选项下的一些编译配置信息如下：

以官方样例bloom为例：bloom example

核心在于：编译时使用的环境信息和运行时的环境信息要一致，如：python版本，cuda/cudnn/nccl/tensorrt等。

环境安装后以后，参考官方bloom样例，进行模型下载，样例执行即可。

最终生成的engine模型：

以chatglm2-6b模型为基础，进行lora微调后，对模型进行参数合并后，可以使用tensortrt-llm的example进行部署，合并后的模型的推理结果和合并前的模型的推理结果一致。

lora的源码不在赘述，主要看一下lora模型参数是如何合并到base model中的：

lora模型如下：

base模型如下：

模型构建是指将python模型构建为tensort的engine格式的模型。

整体流程如下：

整体流程可以总结为：

可以看出，原理上和模型转换并没有区别，只是实现方式有差异而已。

pytorch模型参数如何加载在tensortrt-llm中？关于量化参数加载

1. 先提取fp格式的参数

2. 调用cpp的实现进行参数量化

整体而言，模型参数加载的关键在于：算子weight一一对应，拷贝复制。

每种模型，都需要搭建和pytorch严格一致的模型架构，并将算子weight严格对应的加载到tensortrt-llm模型中

即：关键点在于：熟悉原始pytorch模型结构和参数保存方式，熟悉tensorrt-llm的模型结构和参数设定方法。

模型构建成功后，有两个文件：config.json文件推理时会用到，主要内容如下：模型参数信息和plugin信息。

在模型构建好后，就可以做模型推理，推理流程如下：

TRT-LLM Python Runtime分析

1. load_tokenizer

2. parse_input

基于 tokenizer 对输入的text做分词，得到分词的id

3. runner选择&模型加载

4.推理

5. 内存管理

TRT-layer实现举例

（1）对tensorrt的接口调用：以cast算子为例：functional.py是对TensorRT python API接口的调用

调用tensorrt接口完成一次推理计算

（2）TRT-LLM python侧对cpp侧的调用

调到cpp侧后，就会调用cpp侧的cuda kernel

trtllm更新快，用了一些高版本的python特性，新的trtllm版本在python3.8上，不一定能跑起来

本文地址：http://0553.net.cn/news/53c611193835.html

【boost库源码 vs】【android源码资源包】【bmp转jpeg源码】nccl源码编译

关注焦点

热点资讯