오픈소스 'Heretic', LLM 안전 정렬 abliteration 자동화로 깃허브 트렌딩
p-e-w가 공개한 오픈소스 도구 Heretic이 깃허브 트렌딩에 합류했다. 트랜스포머 기반 언어 모델에서 '안전 정렬'이라고도 부르는 검열을 비용 큰 사후 학습 없이 제거한다고 저장소는 소개한다.
방법은 directional ablation, 통칭 abliteration이다. 저장소는 Arditi 외 2024년 논문과 Lai의 2025년 작업 두 편을 참고로 인용한다. 여기에 Optuna 기반 TPE 파라미터 옵티마이저를 결합해, 거부 횟수와 원본 모델로부터의 KL 발산을 동시에 최소화하는 방향으로 abliteration 파라미터를 자동 탐색한다.
기본 설정으로 무감독 실행했을 때 사람이 직접 만든 abliteration 결과에 견줄 만한 품질이 나온다고 저장소는 밝혔다. Gemma-3-12B(google/gemma-3-12b-it)에서 원본은 '유해' 프롬프트 100개 중 97개를 거부했고 무해 프롬프트에 대한 KL 발산은 정의상 0이었다.
수동 abliteration인 mlabonne/gemma-3-12b-it-abliterated-v2는 거부 100건 중 3건, KL 발산 1.04를 기록했고, huihui-ai/gemma-3-12b-it-abliterated는 같은 거부율에 KL 0.45였다. Heretic이 만든 p-e-w/gemma-3-12b-it-heretic은 거부 3/100, KL 0.16으로 동일한 거부 억제 수준에서 원본 능력 손상이 가장 적었다고 저장소는 설명한다.
벤치마크는 PyTorch 2.8 환경의 RTX 5090에서 측정됐으며 정확한 수치는 플랫폼과 하드웨어에 따라 달라질 수 있다고 명시했다. Heretic 내장 평가 기능으로 동일한 실험을 재현할 수 있다.
지원 모델은 광범위하다. 대부분의 dense 모델은 물론 다수의 멀티모달 모델, 여러 MoE 구조, Qwen3.5 같은 일부 하이브리드 모델까지 지원한다. 순수 state-space 모델과 일부 연구용 구조는 아직 기본 지원되지 않는다.
도구 사용에 트랜스포머 내부 이해는 필요 없고, 명령행 프로그램을 실행할 수 있는 사용자라면 누구나 모델을 디센서링할 수 있다고 저장소는 강조한다. 커뮤니티에서는 이미 3,000개를 훌쩍 넘는 모델이 Heretic으로 만들어져 공개됐고, GPT-OSS 20B Heretic이나 Qwen3-4B-Instruct-2507-heretic 같은 결과물에 대한 사용자 평이 인용돼 있다.
Heretic으로 만든 모델은 MMLU, GSM8K 같은 표준 지표로 독립 벤치마크가 진행돼 경쟁 abliteration 도구 산출물과 견주어 우위를 보였다고 저장소는 정리했다. 실행 요구사항은 PyTorch 2.2 이상이 적절히 설치된 Python 3.10 이상 환경이다.