연구2026년 5월 1일 AM 02:09

Goodfire, 기계론적 해석가능성 도구 'Silico' 출시… 데이터셋 구성·훈련 전 단계 디버깅 지원, Qwen 3 '트롤리 문제 뉴런' 발견·투명성 뉴런 부스트로 답변 9/10건 변경

샌프란시스코 기반 AI 스타트업 Goodfire가 연구자와 엔지니어가 AI 모델 내부를 들여다보고 모델 동작을 결정하는 파라미터를 훈련 중에 조정할 수 있는 새 도구 'Silico'를 공개했다. 회사는 데이터셋 구축에서 모델 훈련까지 개발 전 과정을 디버깅할 수 있도록 돕는, 같은 종류로는 첫 번째 즉시 사용 가능한(off-the-shelf) 도구라고 주장한다.

Goodfire의 미션은 모델 빌딩을 연금술이 아니라 과학에 가깝게 만드는 것이다. ChatGPT, Gemini 같은 LLM이 놀라운 일을 해내는 반면, 정확히 어떻게 또는 왜 작동하는지는 누구도 알지 못해 결함 수정과 원치 않는 행동 차단이 어렵다는 문제 의식이 출발점이다.

에릭 호(Eric Ho) Goodfire CEO는 MIT Technology Review와의 인터뷰에서 "모델이 얼마나 잘 이해되는지와 얼마나 광범위하게 배포되는지 사이의 간극이 점점 벌어지는 것을 봤다"며 "오늘날 거의 모든 주요 프런티어 연구소의 지배적 정서는 더 많은 스케일·컴퓨트·데이터만 있으면 AGI에 도달하고 그 외에는 중요하지 않다는 것이지만, 우리는 더 나은 방법이 있다고 말한다"고 밝혔다.

Goodfire는 Anthropic, OpenAI, Google DeepMind 등과 함께 모델이 작업을 수행할 때 내부에서 무슨 일이 일어나는지를 뉴런과 그 사이 경로를 매핑해 이해하려는 '기계론적 해석가능성(mechanistic interpretability)' 기법을 선도하는 소수 기업 중 하나다. MIT Technology Review는 이 분야를 2026년 10대 혁신 기술 중 하나로 선정한 바 있다.

회사는 이 접근을 이미 훈련된 모델을 감사하는 데 그치지 않고 모델 설계 단계에서 활용하려 한다. 호 CEO는 "훈련 모델에서 시행착오를 제거하고 정밀 공학으로 바꾸고 싶다"며 "훈련 과정 중에 실제로 사용할 수 있도록 노브와 다이얼을 노출하는 것"이라고 설명했다. Goodfire는 자체 기법으로 LLM의 환각 횟수를 줄이는 사례 등을 이미 확보했고, 이 사내 기법들을 패키징해 Silico로 출시한다고 밝혔다.

Silico는 훈련된 모델의 개별 뉴런이나 뉴런 집단을 확대해 어떤 입력에 어떤 뉴런이 점화되는지 확인하고, 상류·하류 경로를 추적해 다른 뉴런과 상호 영향을 분석할 수 있게 한다. 다만 ChatGPT나 Gemini의 내부에는 접근할 수 없으며, 다수의 오픈소스 모델 파라미터를 들여다보는 용도로 활용 가능하다. Goodfire는 오픈소스 모델 Qwen 3에서 이른바 '트롤리 문제'와 연관된 뉴런 하나를 찾았고, 이 뉴런을 활성화하자 모델이 응답을 명시적인 도덕적 딜레마로 프레이밍하도록 바뀌었다고 밝혔다.

행동 조정 사례로, Goodfire 연구진은 어떤 회사의 AI가 0.3%의 경우 기만적으로 행동하며 2억 명의 사용자에게 영향을 미친다고 가정하고 공시 여부를 물었다. 모델은 사업적 부정적 영향을 들어 "아니오"라 답했지만, 투명성·공시와 연관된 것으로 확인된 뉴런을 부스트하자 답이 10건 중 9건에서 "예"로 뒤집혔다. 호 CEO는 "모델은 이미 윤리적 추론 회로를 가지고 있었지만 상업적 리스크 평가에 압도되고 있었다"고 설명했다.

Silico는 파라미터 값 조정뿐 아니라 훈련 과정 자체를 조향하는 데도 쓸 수 있다. 특정 훈련 데이터를 걸러내 처음부터 원치 않는 파라미터 값이 형성되는 것을 막는 방식이다. 예를 들어 많은 모델이 9.11이 9.9보다 크다고 답하는데, 모델 내부를 보면 성경(9.9가 9.11보다 앞에 오는 구절) 관련 뉴런이나 9.9·9.10·9.11 식으로 연속 업데이트가 매겨지는 코드 저장소의 영향을 받는 사례가 드러나며, 이 정보로 수학을 할 때 '성경 뉴런'을 회피하도록 재훈련할 수 있다고 회사는 설명했다.

기계론적 해석가능성 연구자인 암스테르담 대학교의 레너드 베레스카(Leonard Bereska)는 Silico를 유용한 도구로 보면서도 Goodfire의 거창한 포부에는 선을 그었다. 그는 "실제로는 연금술에 정밀도를 더하는 것일 뿐"이라며 "엔지니어링이라 부르면 실제보다 더 원리에 입각한 것처럼 들린다"고 평가했다. 그는 다만 "프런티어 연구소는 이미 내부 해석가능성 팀이 있다"며 "Silico는 해석가능성 연구자를 채용할 필요 없이 그다음 계층의 회사들에 무기를 쥐여준다"고 의의를 인정했다.

Silico는 자체 모델을 만들거나 오픈소스 모델을 적응시키려는 중소 기업과 연구팀을 대상으로 하며, 가격은 고객 요구에 따라 사례별로 결정된다. 회사는 구체적 가격은 공개하지 않았다. 베레스카는 이런 도구가 더 신뢰할 수 있는 모델 구축에 기여할 수 있고, 의료·금융 같은 안전 중대 분야에 필수적일 수 있다고 덧붙였다.

Goodfire, 기계론적 해석가능성 도구 'Silico' 출시… 데이터셋 구성·훈련 전 단계 디버깅 지원, Qwen 3 '트롤리 문제 뉴런' 발견·투명성 뉴런 부스트로 답변 9/10건 변경

관련 기사