『비전공자도 이해할 수 있는 챗GPT』,
『비전공자도 이해할 수 있는 AI 지식』
10만 베스트셀러를 기록한
세상에서 가장 이해하기 쉬운 챗GPT 교양서

HOME » WIKI » Open-R1

Open-R1

설치

open-r1-dnotitia 설치

$ uv v --python=3.10
$ uv pip install -e ".[dev]"
$ uv pip install torch==2.6.0
$ uv pip install flash-attn --no-build-isolation --verbose

만약 torch==2.7.0에서 flash-attn을 설치한 상태라면 (빌드에 30분 넘게 소요) flash-attn을 설치할 때 다시 torch가 강제로 2.7.0이 되므로, uv cache clean flash-attn으로 완전히 삭제 후 설치를 시도해야 한다.

또한 torch 버전이 노드 간 상이하면 시작이 되지 않으므로 반드시 2.6.0으로 서로 동일하게 맞춰야 한다.

환경 설정

$ huggingface-cli login
$ wandb init

실행

GRPO

$ CUDA_VISIBLE_DEVICES=0 VLLM_ATTENTION_BACKEND=triton \
    trl vllm-serve --model ./data/Qwen2.5-0.5B-Open-R1-Distill/ \
    --gpu-memory-utilization 0.04
$ CUDA_VISIBLE_DEVICES=1 http_proxy= \
    ACCELERATE_LOG_LEVEL=info \
    accelerate launch --config_file recipes/accelerate_configs/zero3.yaml \
    --num_processes 1 \
    src/open_r1/grpo.py \
    --config recipes/Qwen2.5-0.5B-Instruct/grpo-config.yaml

GRPO 백그라운드 및 로깅

$ nohup accelerate launch --config_file recipes/accelerate_configs/zero3.yaml \
    --num_processes=7 src/open_r1/grpo.py \
    --config recipes/grpo-config.yaml > output.log 2>&1 &

설정

전체 6100 steps 중 300 step (0.05 비율)만 넘어가면 모델이 망가진다. reward_std가 급격히 증가해 모델이 불안정해지고, train/kl 값이 커져서 정책 업데이트가 급격히 이뤄진다. 또한 train/grad_norm이 커져서 gradient가 크고 학습이 불안정해진다.

learning_rate를 좀 낮출 필요가 있고, 이외에 gradient clipping을 위한 epsilon 값을 낮춰서 정책이 급격히 바뀌는 것을 제한할 필요가 있다. (GPT-4.5 제안)

  • epsilon: defaults to 0.2
  • learning_rate: defaults to 1e-6

0.1, 3e-6으로 진행

Last Modified: 2025/10/18 20:39:55
자바 알고리즘 인터뷰 파이썬 알고리즘 인터뷰

카카오 코딩 테스트 출제위원이 직접 집필한,
리트코드(LeetCode) 문제로 풀어보는,
구글, 마이크로소프트, 네이버, 카카오
코딩 테스트 완벽 가이드
『자바 알고리즘 인터뷰』,
『파이썬 알고리즘 인터뷰』

이 사이트의 운영 비용을 후원할 수 있으며, 후원자에게 혜택을 제공할 예정입니다.

© 2000 - Sang Park Except where otherwise noted, content on this site is licensed under a CC BY-NC 4.0.
This site design was brought from Distill. Logo and wiki background image was brought from Bear.