HOME » WIKI » vLLM

vLLM

실행

Reasoning 모델 (Qwen3) 구동:

$ vllm serve . \
--served-model-name xxx \
--reasoning-parser deepseek_r1 \
--max-model-len 32000 \
--port 18001

run_cluster.sh를 제공하며, ray를 사용하고 docker로 구동한다. K8s내에서는 해당 docker 이미지를 배포하는 방식으로 적용이 가능할 거 같다. 스크립트에는 docker가 구동되자마자 ray를 실행하도록 되어 있다.

Recent Updates:

2025/10/18 내용 정리
2025/03/14 이전 버전

카카오 코딩 테스트 출제위원이 직접 집필한,
리트코드(LeetCode) 문제로 풀어보는,
구글, 마이크로소프트, 네이버, 카카오
코딩 테스트 완벽 가이드
『자바 알고리즘 인터뷰』,
『파이썬 알고리즘 인터뷰』

이 사이트의 운영 비용을 후원할 수 있으며, 후원자에게 혜택을 제공할 예정입니다.