'trtllm' 태그의 글 목록

TensorRT-LLM 프레임워크는 일반적인 모델을 TensorRT Engine으로 빌드 하도록 지원해준다. Engine으로 빌드하는 것 뿐만 아니라 다양한 양자화 기법들을 제공한다. GPU에 서빙을 위해 자신만의 엔진으로 최적화 한다고 생각하면 된다. 자세한 내용은 깃헙에 들어가면 많은 설명이 있다. (개인적으로 헷갈리는 부분이 많았다.)TensorRT-LLM 서빙 헤커톤에 참여하여 A100 GPU를 가지고 모델 서빙과 양자화 등 여러 경험을 할 수 있었다. 대상 모델로 DeepSeek 모델을 선정하였고 이를 실제로 TensorRT 엔진으로 변환하고 서빙해보기로 하였다.1. 환경 설정모델을 가지고 이것 저것 해볼때 오류를 많이 접하게 되는데 라이브러리의 버전 이슈로 인하여 발생한 오류가 굉장히 많다. ..

카테고리 없음 2024. 5. 2. 09:27

이전 1 다음