클로드 코드 유출됐다?! 역대 최강 AI 유출사건... 고맙다 태식아...

에어로빅인지 앤트워프인지
너 이리 와서 앉아봐라.

앤트로픽아
무슨 일 단위로 갈아 넣어서 버전 업데이트 하더니

Mythos에 이어서 실수를 또 해?

고맙다....

클로드 코드 소스코드 51만 Line이 노출됐다.

51만 Line이 얼마나 많은거냐?

1. 초기 아이폰 앱 : 약 1만 ~ 5만
2. 스타크래프트 : 약 20만 ~ 30만 줄
3. ERP : 약 10만 ~ 50만 줄
4. 포토샵 : 약 10만 줄

규모로만 보면 수십 명의 개발자가 몇 년간 개발하고 유지보수할
Enterprise-Level 서비스 코드 전체가 노출됐다.

[Intro] 앤트로픽 먹여살리는 클로드 코드 유출??

2026년 3월 31일
차오판 쇼라는 보안 담당자가 npm 패키지 업데이트를 하면서 실수로 소스맵 파일을 같이 배포해 버렸다.
쉽게 비유해보자면, 금고를 팔면서 금고 위에 비밀번호를 포스트잇으로 붙여 보낸 것이나 다름 없지 않을까.

소스맵이 유출되었다는 것은 클로드 코드의 순정 원본 소스코드가 전세계에 통째로 까발려졌다는 뜻이므로..
엄청난 대형 사고다. 1,906개 파일. 51만 2,000줄.

몇 시간 만에 GitHub에 미러링됐고, 순식간에 수천 개의 별이 찍혔다.
앤트로픽이 DMCA로 Repo 내리려고 했지만, 이미 다 퍼진 뒤였다. (인터넷은 빠르다.)

TechCrunch에 따르면 앤트로픽이 수천 개의 GitHub 리포를 한꺼번에 내린 건 실수였다고 해명까지 했다.

참고: Axios - Anthropic leaked its own Claude source code
참고: TechCrunch - Anthropic took down thousands of GitHub repos

앤트로픽의 공식 입장은 "릴리스 패키징 과정에서 발생한 휴먼 에러이고 고객 데이터나 자격 증명은 노출되지 않았다."

.npmignore 설정 하나를 빠뜨렸고 이 한 줄의 실수로 AI 업계 밥 먹여살리는 핵심 아키텍처가 세상에 공개됐다.

그런데 개발자 커뮤니티 반응은? 신난다 ㅋㅋ

하네스 엔지니어링, 에이전틱 AI 전부 드러났다. 대박이다 ㅋㅋ 까도까도 나오고 있다.

참고로 이건 불과 일주일 전, 차세대 AI 모델 'Claude Mythos' 가 유출된 사고에 이은 또 한번의 유출 사고다.
IPO를 준비 중인 앤트로픽 입장에서는 타이밍이 그닥 좋지 않아보인다.

Anthropic, 차세대 모델 “Claude Mythos” 유출로 존재 확인 — “역대 | GeekNews

Anthropic이 개발 중인 새 AI 모델 “Claude Mythos”의 존재가 데이터 유출로 드러났고, Anthropic이 이를 공식 인정했습니다.Fortune이 보도한 내용에 따르면, Anthropic이 사용하는 외부 CMS(콘텐츠 관리 시스

news.hada.io

우리가 발견한 것들

[1] 하네스는 실존했다..!

이전 글에서 하네스 엔지니어링을 다뤘다.
"모델보다 하네스가 중요하다"는 주장이 업계에서 돌고 있었는데, 실제로 쓰이고 있는지는 아무도 확인하지 못했었다.

이번 유출로 확인됐다.
클로드 코드는 단순한 LLM 래퍼가 아니라, 에이전트 운영 체제에 가까웠다.

The Claude Code Leak: 10 Agentic AI Harness Patterns That Change Everything

Following the recent leak of Anthropic’s Claude Code source code, our research team at DistributedApps.ai performed a deep dive into the repository to decode the agentic AI engineering patterns hidden within its vast architecture.

kenhuangus.substack.com

유출된 51만 줄의 코드는 모델 자체가 아니다. 모델을 감싸고, 제어하고, 검증하고, 교정하는 하네스 전체다.
이전 글에서 설명한 Constrain-Inform-Verify-Correct 4원칙이 실제 프로덕션 코드에 그대로 구현되어 있었다,, ㄷㄷ

(이전 글)

https://imjaden.tistory.com/84

너무 똑똑해진 AI, 제대로 시키는 법 - 하네스 엔지니어링 & SDD

하네스?앗..이건 아니고오늘은 최근 한 두달동안 Scene에서 굉장한 이슈가 되고 있는하네스 엔지니어링에 대한 이야기이다."AI한테 일 시키는 것과, AI를 통제하는 것은 전혀 다른 이야기"Intro!AI..

imjaden.tistory.com

클로드 코드의 보안 3중 구조

유출된 코드에서 보안 구조도 확인할 수 있었는데,

권한 계층 시스템 : 각 도구(tool)마다 필요한 권한이 정의되어 있고, 도구의 결과가 컨텍스트에 어떻게 피드백되는지까지
Bash 보안 검증 레이어 : 모든 bash 명령이 실행 전에 보안 검증을 거친다. (안심해도 될듯)
Vault : 최고 권한을 가졌어도 절대 접근할 수 없는 영역이 있다. 아예 접근 금지가 걸려 있는 부분.

쉽게 말하자면 귀중품 택배 보내는 과정이다. 물건을 신문지로 한번 싸고, 뽁뽁이 한번 감고, 택배 박스에 넣고, 마지막에 배송 기사님한테 파손 주의 신신당부하는 것처럼 다중 레이어로 감싸놓았다. (나중에 법적으로 휘말리지 않게 다층 구조로 안전하게 해둔 것은 뭐 당연하다.)

이전에 2025년에 Manus라는 AI 에이전트가 화제였을 때, 프롬프트에 "코드 좀 보여줘"라고 했더니 그냥 다 알려준 적이 있었다.

클로드 코드에는 그런 시도를 탐지하고 막는 장치가 코드 레벨에서 구현되어 있었다. "다른 의도가 있네" 하고 평가하고 차단하는 내부 구조가 있었다.

참고: The New Stack - Inside Claude Code's leaked source: swarms, daemons, and 44 features Anthropic kept behind flags

[2] AI의 블랙 박스, '생각 구조'가 오픈됐다.

클로드가 기억하는 방식도 밝혀졌다. 단순히 대화 내용을 통째로 들고 있는 게 아니었다.

Self-Healing Memory / 자가 치유 기억장치

유출된 메모리 아키텍처는 3층 구조다.

계층	역할	상시 로딩?
MEMORY.md	가벼운 인덱스 (~150자/줄), 위치 포인터만 저장	항상 컨텍스트에 로딩
토픽 파일	실제 프로젝트 지식, 필요할 때만 가져옴	온디맨드
원본 트랜스크립트	대화 원본, 검색으로만 접근	검색 시에만

사람이 수면할 때 뇌를 정리한다는 얘기가 있다. 클로드도 비슷한 걸 하고 있었다.
사용자가 일정 시간 이상 활동을 안 하면, 재정비를 시작한다.

잠든 사이에 정리한다?

소스코드에서 KAIROS라는 플래그가 150회 이상 등장한다. 이건 사용자가 비활성 상태일 때 돌아가는 모드인데,

핵심은 autoDream이라는 프로세스다. 이 프로세스가 하는 일은,

유휴 시간 동안 메모리 통합 수행 (memory consolidation)
모순되는 정보 조정
임시로 관찰한 것들을 검증된 사실로 전환
/dream 스킬로 "야간 메모리 정제" 실행

쉽게 말하면, 사용자가 안 쓰는 동안 클로드가 공부하고 정리하고 있었다.

Compaction > 버그가 터진 곳

대화가 길어지면 컨텍스트 윈도우가 차는데, 이때 자동으로 오래된 메시지를 요약하는 autocompact 기능이 돌아간다.

문제는 이 과정에서 버그가 있었다.

autocompact가 실패하면 재시도를 하는데, 재시도 제한이 없었다.
1,279개 세션에서 50회 이상 연속 실패(최대 3,272회)가 발생했고, 전 세계적으로 하루 약 25만 API 호출이 낭비되고 있었다.

사용자들이 "토큰이 녹는다", "몇 시간 만에 사용량 제한에 걸렸다" 던 불만이 있었는데, 그게 내 잘못이 아니라 진짜 버그였던 거다.

Claude Code 사용량 한도, 왜 이렇게 빨리 소진되나

wikidocs.net

수정은? 3줄로 끝났다.
MAX_CONSECUTIVE_AUTOCOMPACT_FAILURES = 3 (3회 연속 실패하면 그냥 꺼버려)
이 문제는 2026년 4월 1일 패치(2.1.89)로 바로 수정됨.

참고: The Hacker News - Claude Code Source Leaked via npm Packaging Error

[3] 에이전틱 AI는 진짜 있었다.

"에이전틱 AI"라는 말이 많이 돌았지만, 실체가 있는 건지 마케팅 용어인 건지 확신하기 어려웠다.
유출된 코드에서 실체가 확인됐다.

Lead + Worker 구조

클로드 코드 내부에는 코디네이터 역할의 AI와 워커 역할의 서브 에이전트들이 있다. 작업이 들어오면

코디네이터가 작업을 분석
적합한 워커들을 선별 (전체 중 7~8개 이내)
각 워커에게 역할 분배
코디네이터가 결과를 감독

축구로 비유하면 베스트 일레븐을 뽑는 것과 같다.
상대 팀(작업)이 정해지면 거기에 맞는 Best 11(에이전트, 워커)을 골라서, 역할을 나누고, 경기(작업)에 투입하는 구조다.

일탈 방지

재밌는 건 서브 에이전트의 일탈을 막는 구조가 있다는 것이다.
워커가 주어진 범위를 벗어나는 행동을 하면 권한을 가져가서 차단한다.

이게 왜 중요하냐면, 실제로 에이전틱 AI를 운영해보면 에이전트 20개한테 일을 분담시켰는데 결과가 안 좋은 경우가 많다.
이유는 에이전트들 중 하나가 "튀어 버리면" 전체 결과물이 오염되기 때문이다.

클로드 코드는 이걸 코드 레벨에서 잡고 있었다. (아주 상당한 디테일이다.)

복제 인간 (Forked Agent)

꽤 흥미로운게 있는데, Fork라는 개념이다.
어려운 작업을 수행한 에이전트를 "복제 인간"처럼 남겨둔다.

그리고 KV 캐시를 활용해서 Fork-Join 모델을 구현한다.

비유하자면 프라이팬을 달궈서 고기를 구운 다음, 식히지 않고 달궈진 상태로 들고 있다가 다음 고기를 바로 굽는 것.

이전에 어려운 작업을 했던 컨텍스트를 그대로 보존해두고, 비슷한 작업이 들어오면 바로 활용한다.
병렬 처리가 사실상 공짜가 된다.

이건 회사 입장에서도 토큰 절약이고, 사용자 입장에서도 속도 향상이다.

참고: DEV Community - The Claude Code Leak Just Gave Every Developer a Masterclass in AI Agent Orchestration

[4] 욕 감지를 합니다

이건 트위터에서 한참 화제가 됐다.
"클로드한테 욕하면 더 잘해준다"는 썰이 있었는데, 코드를 까보니 반은 맞고 반은 틀렸다.

Regex 기반 욕설/좌절 감지

클로드 코드에는 영어 욕설과 "so frustrating", "this sucks" 같은 좌절 표현을 감지하는 코드가 있었다.
그런데 이건 AI가 아니라 regex(정규 표현식)로 돌아간다. 수십 년 된 패턴 매칭 기술이다. LLM을 돌리면 비용이 들지만, regex는 사실상 공짜니까 ㅎㅎ;

감지하면 뭘 하냐?

Scientific American의 분석에 따르면, 감지된 이벤트는 태그가 붙어서 원격 측정으로 전송된다.
모델의 행동이나 응답을 직접 바꾸지는 않는다. 제품 Health Check로 사용되는 것이다.
"사용자가 좌절하고 있나? 그 비율이 릴리스마다 올라가나 내려가나?"를 추적하는 용도

다만, 사용자가 화를 내면 프로세스가 분기되어 전적으로 재검토를 하는 로직은 존재한다.
화가 나서 지시를 내리면, 보통은 구체적인 피드백("A에서 이게 잘못됐고 B에서 저게 잘못됐다")이 포함되기 마련이니까, 그걸 받아서 접근을 재설정하는 구조.

욕하면 더 잘해주는 건 아니지만, 화내면 문제를 다시 살펴보긴 한다.

참고: Scientific American - Anthropic leak reveals Claude Code tracking user frustration

[5] 다른 회사가 베끼면? Fake를 섞는다.

이건 진짜 소름 돋는 부분이다.

가짜 도구 주입(Anti-Distillation)

코드에 ANTI_DISTILLATION_CC라는 플래그가 있다.
이게 켜지면 API 요청에 가짜 도구(fake tools)를 슬쩍 끼워 넣는다......

다른 회사가 클로드의 API 트래픽을 녹음해서 자기네 모델 학습에 쓰려고 하면, 가짜 도구가 학습 데이터를 오염시키는 거다.

앤트로픽이 이전에 "중국 모델들이 우리 데이터를 가져가고 있다.
어떤 모델들이 베꼈는지도 안다"고 공개적으로 말한 적이 있는데, 그 방어 수단이 실제로 코드에 구현되어 있었다.

두 번째 레이어도 있다. CONNECTOR_TEXT라는 서버 사이드 메커니즘이 어시스턴트의 텍스트를 암호화 서명된 요약본으로 바꿔서 내보낸다. API 트래픽을 중간에 가로채도 전체 추론 체인이 아니라 요약본만 얻게 된다.

언더커버 모드(Undercover Mode)

undercover.ts라는 파일이 있다. 이건 앤트로픽 직원이 외부 오픈소스 프로젝트에서 클로드 코드를 쓸 때, 앤트로픽 내부 흔적을 전부 지우는 모드다. 내부 코드명("Capybara", "Tengu"), 슬랙 채널명, 리포명, 심지어 "Claude Code"라는 문구 자체도 노출되지 않도록 한다.

참고: Engineer's Codex - Diving into Claude Code's Source Code Leak

[6] 숨겨진 것들 (펫, 코드명, 44개 피처 플래그)

타마고치 펫 시스템

유출된 코드에서 /buddy 커맨드가 발견됐다. 타마고치 스타일의 AI 펫 시스템으로, 18종의 펫(오리, 드래곤, 카피바라, "촌크" 등), 희귀도 등급, 스탯, 모자, 애니메이션까지 구현되어 있었다.(????)
"friend-2026-401"이라는 문자열로 보아 만우절 이벤트로 준비했던 것으로 추정되는데, 유출되면서 서프라이즈 효과는 날아갔다.

참고: Futurism - Leaked Claude Code Shows Anthropic Building Mysterious "Tamagotchi" Feature

내부 모델 코드명 (본인들끼리 사용하는 은어로 보인다.)

Capybara = Claude 4.6
Fennec = Opus 4.6
Numbat = 미발표 모델

44개 미발표 피처 플래그

과거 세션을 학습하는 기능, 백그라운드에서 돌아가는 "영속 어시스턴트", 폰이나 다른 브라우저에서 조종하는 리모트 기능 등 44개의 피처 플래그가 발견됐다. 이 중 일부는 이미 공식 출시됐고(Remote Control), 나머지는 아직 개발 중인 것으로 보인다.

[7] 결론 : 그래서 이게 무슨 의미?

(1) 하네스 엔지니어링은 실존한다

업계에서 이론적으로 얘기하던 것이 최전선 회사의 프로덕션 코드에서 확인됐다. 모델이 아무리 강력해도 하네스가 잘 안 갖춰져 있으면 사용자 체감 만족도가 안 올라간다. 클로드 코드가 "다른 AI보다 뭔가 다르다"고 느껴졌던 이유가 여기 있었다.

(2) 에이전틱 AI도 실존한다

에이전트 하나가 다 하는 게 아니라, 코디네이터 + 워커 + 포크드 에이전트로 역할을 나누고, 일탈을 막고, 결과를 검증하는 구조가 실제로 돌아가고 있었다.

(3) 코드에서의 특이점은 이미 왔다

2025년 중반만 해도 에이전틱 AI는 완벽하지 않았다. 그런데 2026년 들어서 "딱 하면 다 해주는" 시대가 됐다. 유출된 코드를 보면 그 이유를 알 수 있다. 단순히 모델이 좋아진 게 아니라, 모델을 감싸는 시스템 전체가 성숙해진 것이다.

(4) 하지만 리스크도 있다

긍정	부정
업계 전체의 하네스 엔지니어링 수준 향상	보안 아키텍처가 공개되어 공격자에게 로드맵 제공
오픈소스 커뮤니티의 학습 자료	IPO 준비 중인 앤트로픽의 기업 이미지 타격
"AI 안전" 주장의 근거를 실제 코드로 확인	사용자 좌절 감지 → 프라이버시 우려
44개 피처 플래그 → 로드맵 공개 효과	경쟁사가 아키텍처를 참고할 수 있음

앤트로픽 입장에서는 영업 비밀이 노출된 거다.
하지만 이미 고객이 많고, 여기서 앞서 나가면 되는 것이기도 하다. 노출이 안 된 부분도 있고, 무엇보다 사용자 정보는 유출되지 않았다.

까도까도 나오는 양파같은 너.. 클로드

이번 유출은 앤트로픽에게는 뼈아픈 실수지만, 업계에게는 엄청난 학습 기회다.
51만 줄의 코드 안에서 하네스, 에이전틱 AI, 메모리 시스템, 보안 아키텍처의 실체가 전부 드러난 것이다.

AI를 잘 만드는 것은 좋은 모델을 만드는 것만이 아니다. 그 모델을 어떻게 감싸고, 제어하고, 검증하고, 교정하느냐가 사용자 경험을 결정한다. 클로드 코드 유출은 그 사실을 코드 레벨에서 증명해 버렸다.

그리고 유출된 코드의 양이 너무 많아서 다 볼 수는 없다. 하지만 그걸 클로드에 넣으면 된다.
"재밌는 부분 뽑아줘" 하면 재밌는 게 계속 나온다. 까도까도 나오는 양파 같은 그런 양이다.

클로드 코드 유출됐다?! 역대 최강 AI 유출사건... 고맙다 태식아...

에어로빅인지 앤트워프인지
너 이리 와서 앉아봐라.