허깅페이스 모델 > TensorRT-LLM 변환
TensorRT-LLM 프레임워크는 일반적인 모델을 TensorRT Engine으로 빌드 하도록 지원해준다. Engine으로 빌드하는 것 뿐만 아니라 다양한 양자화 기법들을 제공한다. GPU에 서빙을 위해 자신만의 엔진으로 최적화 한다고 생각하면 된다. 자세한 내용은 깃헙에 들어가면 많은 설명이 있다. (개인적으로 헷갈리는 부분이 많았다.)TensorRT-LLM 서빙 헤커톤에 참여하여 A100 GPU를 가지고 모델 서빙과 양자화 등 여러 경험을 할 수 있었다. 대상 모델로 DeepSeek 모델을 선정하였고 이를 실제로 TensorRT 엔진으로 변환하고 서빙해보기로 하였다.1. 환경 설정모델을 가지고 이것 저것 해볼때 오류를 많이 접하게 되는데 라이브러리의 버전 이슈로 인하여 발생한 오류가 굉장히 많다. ..
카테고리 없음
2024. 5. 2. 09:27
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- synflooding
- 정보보안
- 리눅스
- linux
- t-test
- 우선순위큐
- springboot
- 카카오페이면접후기
- FastAPI
- 딥러닝
- java
- 시간초과
- 보안기사
- 백준
- Ai
- 그리디
- 보안
- 코딩테스트
- 프로그래머스
- 파이썬
- t검정
- lightsail
- Python
- llm
- 다이나믹프로그래밍
- 정보보안기사
- 자료구조
- LangChain
- 분산시스템
- 카카오페이
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
글 보관함