rasbt 'LLMs-from-scratch', GitHub 누적 92,667 스타 트렌딩 진입
GitHub 사용자 'rasbt'의 저장소 'LLMs-from-scratch'가 GitHub 트렌딩에 진입했다. 누적 92,667 스타에 일일 141 스타가 추가됐다.
저장소는 책 'Build a Large Language Model (From Scratch)'의 공식 코드 저장소다. GPT 류 대형 언어 모델을 외부 LLM 라이브러리 없이 PyTorch만으로 처음부터 코딩하며 사전학습과 파인튜닝까지 단계별로 다룬다. ISBN은 9781633437166이며, Manning과 Amazon에서 판매된다.
본문은 7개 챕터로 구성된다. 1장 LLM 이해, 2장 텍스트 데이터 다루기, 3장 어텐션 메커니즘 코딩, 4장 GPT 모델 처음부터 구현, 5장 비라벨 데이터 사전학습, 6장 텍스트 분류 파인튜닝, 7장 지시 따르기 파인튜닝이다.
부록은 5종이다. 부록 A PyTorch 입문, 부록 B 참고문헌, 부록 C 연습문제 해답, 부록 D 학습 루프 부가 요소, 부록 E LoRA 기반 파라미터 효율 파인튜닝이 포함된다.
책에는 17시간 15분 분량의 영상 강의가 동반된다. 강의는 책의 챕터·섹션 구성을 그대로 따라 단독 자료나 코드 동반 자료 어느 쪽으로도 활용할 수 있다. 본 책의 코드는 일반 노트북에서 합리적 시간 안에 실행되도록 설계됐고, GPU가 있으면 자동 활용한다.
보너스 자료로 Llama 3·Qwen 3를 드롭인 교체로 활용하는 챕터 5 변형, GPT를 Llama로 변환하는 가이드, Tiktoken BPE 토크나이저 확장, 인스트럭션 파인튜닝 데이터셋 생성·개선, Llama 3.1 70B와 Ollama로 선호도 데이터셋 생성, DPO 정렬, 인스트럭션 파인튜닝 모델 UI 구축 등이 함께 제공된다.
후속작 'Build A Reasoning Model (From Scratch)'의 코드 저장소도 함께 연동된다. 사전학습된 모델을 출발점으로 추론 시간 스케일링, 강화학습, 디스틸레이션 등 여러 방식으로 추론 능력을 끌어올리는 방법을 처음부터 구현한다. Qwen3 기반 추론 기초, 평가, 인퍼런스 스케일링, 강화학습 자료도 보너스로 포함된다.
이 저장소는 책의 인쇄본을 위한 코드 저장소라는 특성상, 코드를 확장하는 외부 기여는 받지 않는다. 피드백은 Manning Forum이나 GitHub Discussions를 통해 받는다. 각 챕터에는 연습문제가 포함되며, Manning 웹사이트에서 챕터별 약 30문항의 퀴즈가 담긴 170쪽 PDF 'Test Yourself On Build a Large Language Model (From Scratch)'를 무료로 내려받을 수 있다.