此文档介绍如何编译安装 PaddleNLP 大模型高性能自定义推理算子的安装教程。
使用这些高性能算子,可以大幅提升大模型推理速度。 大模型推理相关教程详见此处。
pip install -r requirements.txt
python setup_cuda.py install
确保 cutlass
库已经安装,然后执行以下命令进行自动调优。
- 对于89架构的 GPU,CUDA 版本至少为12.4
- 对于90架构的 GPU,CUDA 版本至少为12.0
sh tune_fp8_gemm.sh