목록으로
연구2026년 5월 22일 PM 10:39

신경망을 밑바닥부터 만드는 무료 강의 'nn-zero-to-hero' 깃허브 트렌딩 합류

신경망을 가장 기초부터 직접 코드로 구현하며 배우는 강의 저장소 'nn-zero-to-hero'가 깃허브 트렌딩 목록에 올랐다. 깃허브 사용자 karpathy의 이 저장소는 별 2만 2,112개를 모았으며, 하루 동안에만 93개가 늘었다.

이 강의는 신경망의 기본부터 모든 것을 시작한다. 함께 신경망을 코딩하고 학습시키는 유튜브 영상 시리즈로 이뤄져 있으며, 영상에서 만든 주피터 노트북은 저장소의 'lectures' 디렉터리에 정리돼 있다. 각 강의에는 영상 설명란을 통해 제공되는 연습 문제가 딸려 있다.

1강은 신경망과 백프로퍼게이션을 처음부터 풀어 설명하며 'micrograd'를 만든다. 신경망의 역전파와 학습을 다루고, 기초적인 파이썬 지식과 고등학교 수준의 미적분에 대한 어렴풋한 기억 정도를 전제로 한다.

2강은 언어 모델링 입문으로 'makemore'를 만든다. 문자 단위 바이그램 언어 모델을 구현한 뒤 이후 영상에서 GPT 같은 현대적 트랜스포머 언어 모델로 점차 복잡하게 발전시킨다. torch.Tensor의 특성과 활용, 그리고 모델 학습·샘플링·손실 평가를 아우르는 언어 모델링 전반의 틀을 소개한다.

3강은 'makemore'를 다층 퍼셉트론(MLP) 기반 문자 단위 언어 모델로 확장하면서 모델 학습, 학습률 조정, 하이퍼파라미터, 평가, 학습·검증·테스트 분할, 과소·과대적합 등 머신러닝의 기초 개념을 함께 다룬다. 4강은 여러 층으로 이뤄진 MLP의 내부를 들여다보며 순전파 활성값과 역전파 기울기의 통계, 잘못된 스케일링이 일으키는 문제를 살피고 배치 정규화(BatchNorm)를 소개한다.

5강에서는 배치 정규화가 적용된 2층 MLP를 PyTorch의 자동 미분 없이 직접 손으로 역전파한다. 교차 엔트로피 손실, 두 번째 선형 계층, tanh, 배치 정규화, 첫 번째 선형 계층, 임베딩 테이블을 거꾸로 통과하며 기울기가 어떻게 흐르는지 직관을 쌓는다. 6강은 이 MLP를 트리 형태 구조로 더 깊게 만들어 딥마인드의 WaveNet(2016)과 유사한 합성곱 신경망 구조에 도달한다.

7강은 'Attention is All You Need' 논문과 OpenAI의 GPT-2·GPT-3를 따라 생성형 사전학습 트랜스포머(GPT)를 코드로 처음부터 만든다. 세상을 뒤흔든 ChatGPT와의 연결점을 짚고, 그 자체가 GPT인 깃허브 코파일럿의 도움을 받아 GPT를 작성하는 과정을 보여준다.

8강은 GPT 토크나이저를 만든다. 토크나이저는 문자열과 토큰을 오가며 변환하는 LLM의 핵심 구성 요소로, 바이트 페어 인코딩(BPE)으로 학습되며 encode와 decode 함수를 구현한다. 강의는 LLM의 여러 이상 동작이 토큰화 단계에서 비롯된다는 점도 함께 설명한다. 저장소는 아직 진행 중이며 MIT 라이선스로 공개돼 있다.

AI인사이트 편집팀

이 기사는 AI 기술을 활용해 작성되었으며, 편집팀이 검수했습니다.

관련 기사