Techbrad

« 2024/05 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

mlflow에 LLM Deployment Server를 사용하는 방법이 있어 실제로 실습을 진행했다. Config.yamlendpoints:- name: completions endpoint_type: llm/v1/completions model: provider: openai name: gpt-3.5-turbo config: openai_api_key: $OPENAI_API_KEY- name: chat endpoint_type: llm/v1/chat model: provider: openai name: gpt-4 config: openai_api_key: $OPENAI_API_KEY- name: chat_3.5..

DevOps 2024. 5. 14. 17:12

[Redis] Docker-compose로 redis를 설치하기

LLM 서비스를 개발하다 보니 토큰 비용 문제로 캐시 서버를 운영해야하는 상황이 생겼다.사용자의 질의를 캐싱하는 기능이 있는데 Redis는 인메모리 DB 이므로 메모리를 많이 사용한다. 따라서 계속 메모리를 잡아먹기 때문에 주기적으로 지울 필요성이 있다고 생각했다. redis.conf 파일 다운 주소 : https://redis.io/topics/configconf 파일에 대한 설정은 다음의 블로그에 아주 친절하게 설명되어 있다. https://blog.naver.com/eastee/220081013385 docker-compose.ymlversion: '3.8'services: redis: image: redis:7.2.4 container_name: redis env_file: ..

DevOps/DB 2024. 5. 3. 17:50

허깅페이스 모델 > TensorRT-LLM 변환

TensorRT-LLM 프레임워크는 일반적인 모델을 TensorRT Engine으로 빌드 하도록 지원해준다. Engine으로 빌드하는 것 뿐만 아니라 다양한 양자화 기법들을 제공한다. GPU에 서빙을 위해 자신만의 엔진으로 최적화 한다고 생각하면 된다. 자세한 내용은 깃헙에 들어가면 많은 설명이 있다. (개인적으로 헷갈리는 부분이 많았다.)TensorRT-LLM 서빙 헤커톤에 참여하여 A100 GPU를 가지고 모델 서빙과 양자화 등 여러 경험을 할 수 있었다. 대상 모델로 DeepSeek 모델을 선정하였고 이를 실제로 TensorRT 엔진으로 변환하고 서빙해보기로 하였다.1. 환경 설정모델을 가지고 이것 저것 해볼때 오류를 많이 접하게 되는데 라이브러리의 버전 이슈로 인하여 발생한 오류가 굉장히 많다. ..

카테고리 없음 2024. 5. 2. 09:27

Triton으로 모델 서빙하기1

아래의 doc을 참고하여 우선 GPU 서버가 없으므로 CPU에 작은 모델을 서빙 해보려고 한다. https://github.com/triton-inference-server/server GitHub - triton-inference-server/server: The Triton Inference Server provides an optimized cloud and edge inferencing solution. The Triton Inference Server provides an optimized cloud and edge inferencing solution. - GitHub - triton-inference-server/server: The Triton Inference Server provides..

카테고리 없음 2024. 4. 5. 20:15

코테 후기 - 시간 복잡도

이번에 코딩테스트를 치루며 메모리 관리에 대해서도 신경써야한다는 것을 알았다. N=1,000,000 문제를 풀었지만 계속 효율성 문제에 있어 통과하지 못했다 ㅜ.ㅜ 앞으로는 이러한 사항을 고려하면서 공부를 해야할 필요성을 매우 느꼈다. 아래의 표에 따르면 N이 백만 이였으니까 NlogN까지는 허용이 된다. 나는 그때 이중 for문을 사용하여 N2으로 풀었던 것 같다. 이제 앞으로 속도에 대해 생각하며 코딩을 해야겠다.

Programming/코딩테스트 2024. 4. 3. 09:16

[Langchain] 쿼리에 Redis 캐싱을 적용하기

사용자의 쿼리에 대하여 토큰 비용을 줄일 수 있는 방법 중에 캐싱 기법을 적용해보았다. 물론 토큰 비용이 얼마 되지 않아 그냥 해도 되지만 응답 속도는 확연하게 체감이 될 정도로 빨랐다. 랭체인에서 제공하는 라이브러리를 사용하면 캐싱 구현은 정말 간단하다. from langchain.cache import RedisCache from langchain.globals import set_llm_cache set_llm_cache(RedisCache(redis_=Redis(host='redis', port=6379, db=1))) response = rag_chain_with_source.invoke(text.question) 질문을 할때 마다 Key가 생성이 되었다. Key는 Hash로 이루어 져있는데 어..

Python/Framework 2024. 3. 19. 11:26

Techbrad

목록전체 글 (87)

Techbrad

티스토리툴바