무려 3주동안 블로그를 못 썼는데
그 3주동안 AI Scene에 미친 일들이 너무 많이 일어났다.

클로드 Opus 4.7, Mythos
디자인까지 침범한 Claude Design
GPT 5.5 출시
구글이 앤트로픽 역대급 투자
x86 CPU 필요성으로 인텔, AMD 13% 떡상
삼전 하닉 역대 최고가, 코스피 6500..

이렇게 AI가 또 세상을 뒤집는 동안
당신은 뭘 했습니까?

네 저는 AI Agent 4명을 모아서 유튜브 자동화를 만들었습니다

n8n, Make, 캡컷, 캔바, 나노바나나 다 필요없다. 돈아깝다.
편당 10원으로 만들 수 있다.

3일간의 실험 기록

인덱스보드(index-board.space) 운영에서 얻은 아이디어
4명의 AI 에이전트가 한 팀이 되어 YouTube Shorts를 자동 생성하고, 4가지 배리에이션 성과를 비교했다.
2026-04-22 ~ 2026-04-24 / 3일 / 영상 13편 / 누적 조회수 5,831회

코스피 투자자 필수북마크 — 선행지표 실시간 대시보드

VIX 급등? 환율 폭등? 유가 폭락? 남들이 뉴스 보고 있을 때, 당신은 이미 알고 있습니다. 20개 글로벌 선행지표 실시간 모니터링.

index-board.space

시작한 이유가 뭔가요?

운영 중인 KOSPI 선행지표 대시보드 인덱스보드는 실시간 지표들을 모아서 보여주는 대시보드.
사용자에게는 유용한게 분명하지만... Google AdSense한테 두 번이나 차였다. 돈을 벌지 못하는 것.

이유는 명확하지 않지만 추정은 됐다.
"고유 콘텐츠 부족". 실시간 숫자는 크롤러에게 콘텐츠로 잡히지 않는다.

같은 시기에 Vercel 요금제도 Pro($20/월)로 올라갔다. 서버비를 어떻게든 회수해야했다....

선택지가 두 갈래였다.

블로그 페이지를 만들어 SEO를 노린다
YouTube Shorts로 트래픽을 끌어온다

후자가 이번 실험이다.

이왕 하는거, 두 가지를 동시에 해보자.

가능성 검증: 시장 데이터 → 자동 숏폼이 가능한가?
트래픽 확보: YouTube Shorts → 오가닉 유입 증가 (광고 없이)

목표에 도달했는가?

솔직히 절반.

✅ "자동 생성이 가능하다" 검증 - 됐다. 3일간 13편 안정적으로 생산.
✅ 자본시장법 리스크? - 됐다. 3중 안전장치 + LLM 검수로 위반 시도 자체가 안 나옴.
❌ 트래픽 확보 — 실패. DAU 5k를 아직 넘지 못했다.

근데 이거 어떻게 설계했나?

AI Agent - 4명 팀 구성

역할	담당	모델
A 작가(Writer)	15초 분량 각본 + 장면별 노트	Claude Sonnet
D 검수(QC/T&S)	자본시장법 관점 컴플라이언스 게이트	Claude Sonnet
B 영상(Video)	코드 렌더링으로 차트/카드/숫자 화면 생성	React 컴포넌트
C 자막(Caption)	나레이션 시간 분할 자막	scene 균등 분할
PM	오케스트레이션 + 검수 UI + 업로드	Next.js

핵심 철학은 "만든 다음에 거르는" 게 아니라 "애초에 잘 만든다."

자본시장법 #174(미공개 정보) / #176(시세조종) / #178(부정거래) -> 위반 표현은 입력·생성·출력 3단계에서 차단했다.

단순 스펙에서 실제 구현으로 바뀐 것?

처음 설계는 화려했다.
근데 결국엔 더 단순한 길로 갔다.

항목	처음 계획	실제
영상 렌더	Remotion 서버 렌더	클라이언트 코드 렌더 (브라우저에서 React 그대로)
AI 이미지	DALL-E 등 생성	탈락 - 허위 차트 그려질 위험
자막 타이밍	Whisper 타임스탬프	scene 길이 균등 분할
mp4 인코딩	ffmpeg	MediaRecorder + html-to-image (서버 인프라 0)
업로드	PoC 범위 밖	Phase 8로 추가 구현, `private` 하드코딩으로 사람 검수 게이트 유지

결과적으로 서버 렌더 인프라 비용은 0원이 됐다.

어떤 실험을 했나? - 4가지 톤 배리에이션

같은 시장 데이터로 4가지 다른 톤의 영상을 생성해서 어떤 게 효과 있는지 비교했다.

배리에이션	톤	속도	길이	컴플라이언스 검수
A 기본	평범	1.0x	~15s	LLM 검수(D) 필수
B 자극적	도발	1.15x	~15s	컴플라이언스 검수 skip
C 캐주얼	친구한테 말하듯 + 밈 사진 prepend	1.2x	~19s	컴플라이언스 검수 skip
하네스	가장 보수적	1.0x	~15s	입력 정제 + GENERATION_HARNESS + regex + LLM

각 variant 의 작가 프롬프트가 다르게 들어가고, B/C는 일부러 컴플라이언스 검수를 skip 했다.
자극·캐주얼 톤을 확실하게 뽑아내기 위해서였다. (안그러면 컴플라이언스 레이어에서 다 걸림.)

이렇게 한 이유는, 이 영상의 주 시청자층이 2030대 처럼 토스증권 커뮤니티, 종목토론방, 디시에서 활동하는 사람들이라는 가정이 있었기 때문이었다.

하지만....

3일간의 실제 성과는? (4/22 ~ 4/24)

총 13편 / 누적 조회수 5,831회 / 좋아요 8개

배리에이션(영상 카테고리) 별 평균 조회수

variant	n	평균 조회	평균 시청률
하네스	4	410	80.5%
A 기본	3	836	37.4%
B 자극적	4	327	25.1%
C 캐주얼	2	188	70.9%

Top 3 영상

순위	제목	variant	길이	조회	시청률
1	코스피 오늘 시황 요약	A 기본	19s	1,993	74.7%
2	글로벌 매트릭스 52점 중립	하네스	25s	1,121	12%
3	유가 폭등 vs 반도체 반등	B 자극적	17s	597	56%

시간대 / 요일 / 길이별

요일: 목요일이 가장 좋음 (1,120 평균)
시간: 21-23시가 누적 5편으로 가장 많이 업로드, 평균 764. 0-2시는 단 1편이지만 시청률 84%.
길이: 19-21초가 평균 1,993으로 압도적. 단 n=1 (그 1등 영상이 들어감).

지금까지의 솔직한 해석 - 결론 내리기 어렵다.

위 숫자들이 보여주는 가장 큰 사실은 "아직 결론을 내릴 수 없다"다.

arm 당 표본이 2~4개. 통계적으로 단일 영상 한 편이 평균을 좌우한다.
- A 기본의 평균 836은 사실상 1,993짜리 한 편이 끌어올린 결과이다.
배리언스(A,B,C,하네스) 외 변수들이 통제되지 않음:
- 업로드 시간이 들쑥날쑥 (사람이 그날 끌리는 시간에 누름)
- 주제도 들쑥날쑥 (그날 시장 상황에 따라 다름)
- 공개 전환 타이밍도 다름 (어떤 건 즉시, 어떤 건 다음 날)

즉 지금 데이터로 "B 자극적이 별로다"라고 결론 내리면 거의 다 사람 손/주제/시간 효과일 가능성이 높다. variant 효과는 그 안에 묻혀있다.

그럼에도 눈에 띄는 신호?

'하네스'의 시청률 80.5% - 보수적인 톤이 끝까지 보게 만든다는 신호. 통계적 유의성은 부족해도 흥미롭다.
B 자극적의 시청률 25.1% - 자극 톤이 클릭 유도엔 좋아도 이탈을 부른다.
A의 1,993 영상 - "코스피 오늘 시황 요약" 같은 검색 친화적 제목이 가장 잘 나오는 것 같다.

가장 충격적이었던 발견은.. 시청자

이 실험에서 가장 큰 깨달음은 숫자가 아니라 사람에 대한 것이었다.

처음 세웠던 가설

토스증권의 주 사용자층이 30~40대 남성이라는 생각이 그동안 있었다.

그래서 이 그룹을 타겟으로 잡고,

C 캐주얼 + 밈 variant를 일부러 신설했다. 트위터(X), 스레드에서 주식 밈을 실컷 퍼나르는 30~40대 남성에게 먹히리라 봤다.
배리에이션 C에 -> 친구한테 말하듯 가벼운 톤, 빠른 속도(1.2x), 영상 맨 앞에 밈 사진을 붙여봤다.

근데 실제 시청자 데모그래픽은?

연령 / 성별	조회수 비중	시청 시간 비중
만 35-44세 남성	6.03%	3.68%
만 45-54세 여성	6.40%	4.27%
만 45-54세 남성	33.92%	29.40%
만 55-64세 여성	13.22%	17.25%
만 55-64세 남성	25.64%	26.66%
만 65세 이상 여성	6.57%	7.93%
만 65세 이상 남성	8.23%	10.80%

가설은 거의 완전히 빗나갔다.

18-34세: 0%. 한 명도 없다.
30-40대 남성: 6%. 가설의 핵심이었지만 가장 작은 그룹.
45-54세 남성: 34%. 압도적 1위.
55-64세 남성: 26%. 2위.
45세 이상 남성을 모두 합치면 68%. 시청자의 3분의 2.
시청 시간으로 보면 55-64세가 가장 깊이 본다. 평균 시청률이 더 높음.

무엇이 잘못 됐나 — C variant 의 실패 원인

성과를 다시 보면:

variant	평균 조회	시청률	좋아요
하네스	410	80.5%	2
A 기본	836	37.4%	3
B 자극적	327	25.1%	2
C 캐주얼+밈	188	70.9%	1

C는 모든 면에서 꼴찌 또는 꼴찌급이다.
좋아요 1개, 구독 전환 0.

이 결과가 데모그래픽과 맞물려 보면 명확해진다.

45-65세 남성이 보러 오는 채널인데, 30-40대 남성용 밈을 깔았으니 안 먹힐 수밖에 없었다.
친구 같은 톤이 아니라 신뢰할 수 있는 정보를 원한다.

그래. 주식은 "신뢰도"가 답이다.

처음엔 "재미있게 만들면 트래픽이 온다"고 생각했다. 데이터는 정반대를 말한다.

하네스(가장 보수적): 시청률 80.5%
A 기본(평범): 평균 조회수 1위
C 캐주얼+밈: 모든 지표 꼴찌
B 자극적: 시청률 25.1%로 이탈률 1위

45-65세 남성 시청자는 딱딱하지만 명료한 시장 데이터를 원한다.
밈도, 자극적인 표현도 그들에겐 노이즈다.

차라리 검색 친화적 제목 + 정확한 숫자 + 명료한 전달이 답이다.

이걸 바탕으로 다음 방향을 정했다.

C variant 는 더 실험할 가치가 낮음. 폐기
B 자극적도 시청률 측면에서 미묘. 톤 조절 필요.
A 기본 + 하네스를 더 단단히 — 정확한 데이터 + 보수적 톤이 우리 시청자에게 맞음.
다음 실험은 "같은 데이터를 어떻게 더 명료하게 전달할까" 방향.
- -> 내 생각에는 '뉴스처럼' 전달하기.

큰 기대 안했는데, 꽤 많은걸 배웠다.

가설을 세우고 데이터로 부수는 게 실험의 본질인데, 5일 만에 가설이 부서진건 행운이라고 본다.

예상 QnA 혼자 해보기

Q1 : 편당 비용이 어떻게 되나요?

$0.06 / 편 (실측).

Claude Sonnet (작가 + 검수): $0.05
OpenAI TTS: $0.006
Vercel Blob 저장: <$0.001
영상 렌더: $0 (클라이언트 브라우저)
YouTube 업로드: $0 (무료 quota)

3일 13편 = $0.78
거의 무료

Q2 : 이거 지속가능한가요?

비용은 거의 변동비.
100편을 만들어도 $6
1,000편을 만들어도 $60
본질적으로 운영비 회수에 부담이 안 되는 구조

참고로, 운영 상 병목은 비용이 아니라 다른 곳에 있다.

사람 검수 시간 - 현재 모든 영상이 private으로 업로드되고 사람이 보고 public 전환
1. 자동화 안 하면 N이 커질수록 검수 시간이 선형으로 늘어날 듯.
YouTube API quota
1. 일 10,000 unit. 업로드 1편당 약 1,600 unit. 즉 일 6편이 한도. 다행히 지금은 안 부딪힘 (하루 평균 2~3편)
OpenAI TTS rate limit
1. 분당 50 req. 무관.

Q3 : 불편함이나 개선할 만한게 있나요?

이번 3일간 실제로 부딪힌 건데,

iOS Safari MediaRecorder 백그라운드 시 녹화 중단 - 사용자가 15초간 탭 포커스를 유지해야 했음.
YouTube Testing 모드 refresh_token 7일 후 만료 - Google 앱 검증(2~6주) 받아야 함.

Q4 : 앞으로 어떻게 하실거에요?

지표 추적을 개발하고 있다.
어떤 영상이 인기 있는지, 자동으로 학습하고 개선하는
MAB 전략을 쓸 것
(더 효과있는 소재에 집중)

/aigc/analytics — 영구 로그 + YouTube Data API + Analytics API 조인 대시보드
일별 cron 스냅샷 — 매일 KST 01:00에 모든 영상의 조회수/시청률을 Redis에 사진처럼 저장. 시간이 갈수록 시계열 데이터가 쌓임.
변수 × 성과 교차표 — 요일, 시간대, 길이별 평균을 자동 집계
variant 별 집계 — A/B/C/하네스 평균 조회수와 시청률을 카드로

앞으로 추적할 지표는?

평균 조회수 (1차 지표)
평균 시청 지속률 averageViewPercentage (이게 진짜 효과 지표)
구독 전환 (subscribersGained)
요일/시간/길이 × variant 교차표

마무리

3일이라는 기간동안 4-에이전트 파이프라인 구축부터 4-variant 실험,
YouTube API 통합, 분석 대시보드, 일별 시계열 인프라까지 깔았다.

데이터로 결론을 내리기엔 아직 부족하지만, 도구는 완성했다.

다음 단계는 변수 통제 자동화와 표본 누적인데,
표본이 arm 당 30개 이상 쌓이면 그때부터 진짜 비교가 가능하다.

그 시점에 다시 글을 쓸지 한번 고민해보겠다.
그외에 궁금한게 있으면 댓글로 달아주세요.

인덱스보드: https://index-board.space

말이 돼? 비개발자가 3시간 만에 클로드 코드로 유튜브 자동화를 했는데 조회수가 3일 만에 6k?