머신러닝으로 알고리즘 트레이딩 전략 짜는 800쪽 교본 깃허브 트렌딩 올랐다
머신러닝(ML)을 알고리즘 트레이딩 전략에 어떻게 접목하는지 다룬 책 '머신러닝 포 트레이딩(machine-learning-for-trading)'의 깃허브 저장소가 트렌딩에 올랐다. 이 책은 선형 회귀부터 심층 강화학습까지 폭넓은 ML 기법을 다루며, 모델 예측에 기반한 트레이딩 전략을 만들고 백테스트하고 평가하는 과정을 실용적으로 설명한다.
책은 4부 23개 장과 부록으로 구성돼 800쪽이 넘는다. 데이터 수집과 금융 피처 엔지니어링, 포트폴리오 관리 같은 핵심 주제부터 지도·비지도 ML 알고리즘에 기반한 롱숏 전략의 설계와 평가까지 아우른다.
또한 SEC 공시와 실적 발표 콜 녹취록, 금융 뉴스 같은 텍스트 데이터에서 거래 가능한 신호를 추출하는 법, CNN·RNN 같은 딥러닝 모델을 시장·대체 데이터에 적용하는 법, 생성적 적대 신경망(GAN)으로 합성 데이터를 만드는 법, 심층 강화학습으로 트레이딩 에이전트를 학습시키는 법을 다룬다.
저장소에는 책에서 다룬 개념과 알고리즘, 사례를 실제로 구현한 150개가 넘는 주피터 노트북이 담겨 있다. 시장·펀더멘털·대체 데이터에서 신호를 추출하고, 다양한 자산군과 투자 기간에 대한 수익률을 예측하는 모델을 학습·튜닝하며, 전략을 설계·백테스트·평가하는 예제를 제공한다.
2판에서는 전략 백테스팅을 다루는 장과 100가지가 넘는 알파 팩터를 설명하는 부록이 새로 추가됐다. 미국 일간 주가를 넘어 해외 주식과 ETF로 데이터 범위를 넓혔고, 분 단위 주가를 이용한 인트라데이 전략, SEC 공시 감성 분석, 위성 이미지를 활용한 토지 이용 분류 등도 새로 다룬다.
최근 주요 저널에 실린 연구를 재현한 것도 2판의 특징이다. 18장은 시계열을 이미지로 변환해 합성곱 신경망(CNN)으로 수익률을 예측하는 방법(Sezer·Ozbahoglu, 2018), 20장은 오토인코더로 자산 가격 결정의 위험 요인을 추출하는 방법(Gu·Kelly·Xiu, 2019), 21장은 GAN으로 합성 학습 데이터를 만드는 방법(Yoon·Jarrett·van der Schaar, 2019)을 보여준다.
코드 예제는 pandas 1.0, 텐서플로 2.2 등 집필 시점의 최신 소프트웨어 버전을 사용한다. 또 ML 모델 예측을 트레이딩 전략 설계에 쉽게 반영할 수 있도록 백테스팅 엔진 Zipline을 맞춤 수정한 버전도 함께 제공한다.
저자는 한 번에 모든 라이브러리를 설치하면 버전 충돌이 생기기 쉬우므로, 각 장에서 필요한 라이브러리를 그때그때 설치할 것을 권한다.