무려 3주동안 블로그를 못 썼는데
그 3주동안 AI Scene에 미친 일들이 너무 많이 일어났다.
클로드 Opus 4.7, Mythos
디자인까지 침범한 Claude Design
GPT 5.5 출시
구글이 앤트로픽 역대급 투자
x86 CPU 필요성으로 인텔, AMD 13% 떡상
삼전 하닉 역대 최고가, 코스피 6500..
이렇게 AI가 또 세상을 뒤집는 동안
당신은 뭘 했습니까?

네 저는 AI Agent 4명을 모아서 유튜브 자동화를 만들었습니다
n8n, Make, 캡컷, 캔바, 나노바나나 다 필요없다. 돈아깝다.
편당 10원으로 만들 수 있다.


3일간의 실험 기록
인덱스보드(index-board.space) 운영에서 얻은 아이디어
4명의 AI 에이전트가 한 팀이 되어 YouTube Shorts를 자동 생성하고, 4가지 배리에이션 성과를 비교했다.
2026-04-22 ~ 2026-04-24 / 3일 / 영상 13편 / 누적 조회수 5,831회
코스피 투자자 필수북마크 — 선행지표 실시간 대시보드
VIX 급등? 환율 폭등? 유가 폭락? 남들이 뉴스 보고 있을 때, 당신은 이미 알고 있습니다. 20개 글로벌 선행지표 실시간 모니터링.
index-board.space
시작한 이유가 뭔가요?
운영 중인 KOSPI 선행지표 대시보드 인덱스보드는 실시간 지표들을 모아서 보여주는 대시보드.
사용자에게는 유용한게 분명하지만... Google AdSense한테 두 번이나 차였다. 돈을 벌지 못하는 것.


이유는 명확하지 않지만 추정은 됐다.
"고유 콘텐츠 부족". 실시간 숫자는 크롤러에게 콘텐츠로 잡히지 않는다.
같은 시기에 Vercel 요금제도 Pro($20/월)로 올라갔다. 서버비를 어떻게든 회수해야했다....
선택지가 두 갈래였다.
- 블로그 페이지를 만들어 SEO를 노린다
- YouTube Shorts로 트래픽을 끌어온다
후자가 이번 실험이다.
이왕 하는거, 두 가지를 동시에 해보자.
- 가능성 검증: 시장 데이터 → 자동 숏폼이 가능한가?
- 트래픽 확보: YouTube Shorts → 오가닉 유입 증가 (광고 없이)
목표에 도달했는가?
솔직히 절반.
- ✅ "자동 생성이 가능하다" 검증 - 됐다. 3일간 13편 안정적으로 생산.
- ✅ 자본시장법 리스크? - 됐다. 3중 안전장치 + LLM 검수로 위반 시도 자체가 안 나옴.
- ❌ 트래픽 확보 — 실패. DAU 5k를 아직 넘지 못했다.
근데 이거 어떻게 설계했나?
AI Agent - 4명 팀 구성
| 역할 | 담당 | 모델 |
|---|---|---|
| A 작가(Writer) | 15초 분량 각본 + 장면별 노트 | Claude Sonnet |
| D 검수(QC/T&S) | 자본시장법 관점 컴플라이언스 게이트 | Claude Sonnet |
| B 영상(Video) | 코드 렌더링으로 차트/카드/숫자 화면 생성 | React 컴포넌트 |
| C 자막(Caption) | 나레이션 시간 분할 자막 | scene 균등 분할 |
| PM | 오케스트레이션 + 검수 UI + 업로드 | Next.js |

핵심 철학은 "만든 다음에 거르는" 게 아니라 "애초에 잘 만든다."
자본시장법 #174(미공개 정보) / #176(시세조종) / #178(부정거래) -> 위반 표현은 입력·생성·출력 3단계에서 차단했다.


단순 스펙에서 실제 구현으로 바뀐 것?
처음 설계는 화려했다.
근데 결국엔 더 단순한 길로 갔다.
| 항목 | 처음 계획 | 실제 |
|---|---|---|
| 영상 렌더 | Remotion 서버 렌더 | 클라이언트 코드 렌더 (브라우저에서 React 그대로) |
| AI 이미지 | DALL-E 등 생성 | 탈락 - 허위 차트 그려질 위험 |
| 자막 타이밍 | Whisper 타임스탬프 | scene 길이 균등 분할 |
| mp4 인코딩 | ffmpeg | MediaRecorder + html-to-image (서버 인프라 0) |
| 업로드 | PoC 범위 밖 | Phase 8로 추가 구현, private 하드코딩으로 사람 검수 게이트 유지 |
결과적으로 서버 렌더 인프라 비용은 0원이 됐다.
어떤 실험을 했나? - 4가지 톤 배리에이션
같은 시장 데이터로 4가지 다른 톤의 영상을 생성해서 어떤 게 효과 있는지 비교했다.

| 배리에이션 | 톤 | 속도 | 길이 | 컴플라이언스 검수 |
|---|---|---|---|---|
| A 기본 | 평범 | 1.0x | ~15s | LLM 검수(D) 필수 |
| B 자극적 | 도발 | 1.15x | ~15s | 컴플라이언스 검수 skip |
| C 캐주얼 | 친구한테 말하듯 + 밈 사진 prepend | 1.2x | ~19s | 컴플라이언스 검수 skip |
| 하네스 | 가장 보수적 | 1.0x | ~15s | 입력 정제 + GENERATION_HARNESS + regex + LLM |
각 variant 의 작가 프롬프트가 다르게 들어가고, B/C는 일부러 컴플라이언스 검수를 skip 했다.
자극·캐주얼 톤을 확실하게 뽑아내기 위해서였다. (안그러면 컴플라이언스 레이어에서 다 걸림.)
이렇게 한 이유는, 이 영상의 주 시청자층이 2030대 처럼 토스증권 커뮤니티, 종목토론방, 디시에서 활동하는 사람들이라는 가정이 있었기 때문이었다.
하지만....
3일간의 실제 성과는? (4/22 ~ 4/24)
총 13편 / 누적 조회수 5,831회 / 좋아요 8개

배리에이션(영상 카테고리) 별 평균 조회수
| variant | n | 평균 조회 | 평균 시청률 |
|---|---|---|---|
| 하네스 | 4 | 410 | 80.5% |
| A 기본 | 3 | 836 | 37.4% |
| B 자극적 | 4 | 327 | 25.1% |
| C 캐주얼 | 2 | 188 | 70.9% |
Top 3 영상
| 순위 | 제목 | variant | 길이 | 조회 | 시청률 |
|---|---|---|---|---|---|
| 1 | 코스피 오늘 시황 요약 | A 기본 | 19s | 1,993 | 74.7% |
| 2 | 글로벌 매트릭스 52점 중립 | 하네스 | 25s | 1,121 | 12% |
| 3 | 유가 폭등 vs 반도체 반등 | B 자극적 | 17s | 597 | 56% |
시간대 / 요일 / 길이별
- 요일: 목요일이 가장 좋음 (1,120 평균)
- 시간: 21-23시가 누적 5편으로 가장 많이 업로드, 평균 764. 0-2시는 단 1편이지만 시청률 84%.
- 길이: 19-21초가 평균 1,993으로 압도적. 단 n=1 (그 1등 영상이 들어감).
지금까지의 솔직한 해석 - 결론 내리기 어렵다.
위 숫자들이 보여주는 가장 큰 사실은 "아직 결론을 내릴 수 없다"다.
- arm 당 표본이 2~4개. 통계적으로 단일 영상 한 편이 평균을 좌우한다.
- A 기본의 평균 836은 사실상 1,993짜리 한 편이 끌어올린 결과이다.
- 배리언스(A,B,C,하네스) 외 변수들이 통제되지 않음:
- 업로드 시간이 들쑥날쑥 (사람이 그날 끌리는 시간에 누름)
- 주제도 들쑥날쑥 (그날 시장 상황에 따라 다름)
- 공개 전환 타이밍도 다름 (어떤 건 즉시, 어떤 건 다음 날)
즉 지금 데이터로 "B 자극적이 별로다"라고 결론 내리면 거의 다 사람 손/주제/시간 효과일 가능성이 높다. variant 효과는 그 안에 묻혀있다.
그럼에도 눈에 띄는 신호?
- '하네스'의 시청률 80.5% - 보수적인 톤이 끝까지 보게 만든다는 신호. 통계적 유의성은 부족해도 흥미롭다.
- B 자극적의 시청률 25.1% - 자극 톤이 클릭 유도엔 좋아도 이탈을 부른다.
- A의 1,993 영상 - "코스피 오늘 시황 요약" 같은 검색 친화적 제목이 가장 잘 나오는 것 같다.
가장 충격적이었던 발견은.. 시청자
이 실험에서 가장 큰 깨달음은 숫자가 아니라 사람에 대한 것이었다.
처음 세웠던 가설
토스증권의 주 사용자층이 30~40대 남성이라는 생각이 그동안 있었다.

그래서 이 그룹을 타겟으로 잡고,
- C 캐주얼 + 밈 variant를 일부러 신설했다. 트위터(X), 스레드에서 주식 밈을 실컷 퍼나르는 30~40대 남성에게 먹히리라 봤다.
- 배리에이션 C에 -> 친구한테 말하듯 가벼운 톤, 빠른 속도(1.2x), 영상 맨 앞에 밈 사진을 붙여봤다.
근데 실제 시청자 데모그래픽은?

| 연령 / 성별 | 조회수 비중 | 시청 시간 비중 |
|---|---|---|
| 만 35-44세 남성 | 6.03% | 3.68% |
| 만 45-54세 여성 | 6.40% | 4.27% |
| 만 45-54세 남성 | 33.92% | 29.40% |
| 만 55-64세 여성 | 13.22% | 17.25% |
| 만 55-64세 남성 | 25.64% | 26.66% |
| 만 65세 이상 여성 | 6.57% | 7.93% |
| 만 65세 이상 남성 | 8.23% | 10.80% |
가설은 거의 완전히 빗나갔다.
- 18-34세: 0%. 한 명도 없다.
- 30-40대 남성: 6%. 가설의 핵심이었지만 가장 작은 그룹.
- 45-54세 남성: 34%. 압도적 1위.
- 55-64세 남성: 26%. 2위.
- 45세 이상 남성을 모두 합치면 68%. 시청자의 3분의 2.
- 시청 시간으로 보면 55-64세가 가장 깊이 본다. 평균 시청률이 더 높음.
무엇이 잘못 됐나 — C variant 의 실패 원인
성과를 다시 보면:
| variant | 평균 조회 | 시청률 | 좋아요 |
|---|---|---|---|
| 하네스 | 410 | 80.5% | 2 |
| A 기본 | 836 | 37.4% | 3 |
| B 자극적 | 327 | 25.1% | 2 |
| C 캐주얼+밈 | 188 | 70.9% | 1 |
C는 모든 면에서 꼴찌 또는 꼴찌급이다.
좋아요 1개, 구독 전환 0.
이 결과가 데모그래픽과 맞물려 보면 명확해진다.
45-65세 남성이 보러 오는 채널인데, 30-40대 남성용 밈을 깔았으니 안 먹힐 수밖에 없었다.
친구 같은 톤이 아니라 신뢰할 수 있는 정보를 원한다.
그래. 주식은 "신뢰도"가 답이다.
처음엔 "재미있게 만들면 트래픽이 온다"고 생각했다. 데이터는 정반대를 말한다.
- 하네스(가장 보수적): 시청률 80.5%
- A 기본(평범): 평균 조회수 1위
- C 캐주얼+밈: 모든 지표 꼴찌
- B 자극적: 시청률 25.1%로 이탈률 1위
45-65세 남성 시청자는 딱딱하지만 명료한 시장 데이터를 원한다.
밈도, 자극적인 표현도 그들에겐 노이즈다.

차라리 검색 친화적 제목 + 정확한 숫자 + 명료한 전달이 답이다.
이걸 바탕으로 다음 방향을 정했다.
- C variant 는 더 실험할 가치가 낮음. 폐기
- B 자극적도 시청률 측면에서 미묘. 톤 조절 필요.
- A 기본 + 하네스를 더 단단히 — 정확한 데이터 + 보수적 톤이 우리 시청자에게 맞음.
- 다음 실험은 "같은 데이터를 어떻게 더 명료하게 전달할까" 방향.
- -> 내 생각에는 '뉴스처럼' 전달하기.
큰 기대 안했는데, 꽤 많은걸 배웠다.
가설을 세우고 데이터로 부수는 게 실험의 본질인데, 5일 만에 가설이 부서진건 행운이라고 본다.
예상 QnA 혼자 해보기
Q1 : 편당 비용이 어떻게 되나요?
$0.06 / 편 (실측).
- Claude Sonnet (작가 + 검수): $0.05
- OpenAI TTS: $0.006
- Vercel Blob 저장: <$0.001
- 영상 렌더: $0 (클라이언트 브라우저)
- YouTube 업로드: $0 (무료 quota)
3일 13편 = $0.78
거의 무료
Q2 : 이거 지속가능한가요?
비용은 거의 변동비.
100편을 만들어도 $6
1,000편을 만들어도 $60
본질적으로 운영비 회수에 부담이 안 되는 구조
참고로, 운영 상 병목은 비용이 아니라 다른 곳에 있다.
- 사람 검수 시간 - 현재 모든 영상이 private으로 업로드되고 사람이 보고 public 전환
- 자동화 안 하면 N이 커질수록 검수 시간이 선형으로 늘어날 듯.
- YouTube API quota
- 일 10,000 unit. 업로드 1편당 약 1,600 unit. 즉 일 6편이 한도. 다행히 지금은 안 부딪힘 (하루 평균 2~3편)
- OpenAI TTS rate limit
- 분당 50 req. 무관.
Q3 : 불편함이나 개선할 만한게 있나요?
이번 3일간 실제로 부딪힌 건데,
- iOS Safari MediaRecorder 백그라운드 시 녹화 중단 - 사용자가 15초간 탭 포커스를 유지해야 했음.
- YouTube Testing 모드 refresh_token 7일 후 만료 - Google 앱 검증(2~6주) 받아야 함.
Q4 : 앞으로 어떻게 하실거에요?
지표 추적을 개발하고 있다.
어떤 영상이 인기 있는지, 자동으로 학습하고 개선하는
MAB 전략을 쓸 것
(더 효과있는 소재에 집중)
/aigc/analytics— 영구 로그 + YouTube Data API + Analytics API 조인 대시보드- 일별 cron 스냅샷 — 매일 KST 01:00에 모든 영상의 조회수/시청률을 Redis에 사진처럼 저장. 시간이 갈수록 시계열 데이터가 쌓임.
- 변수 × 성과 교차표 — 요일, 시간대, 길이별 평균을 자동 집계
- variant 별 집계 — A/B/C/하네스 평균 조회수와 시청률을 카드로
앞으로 추적할 지표는?
- 평균 조회수 (1차 지표)
- 평균 시청 지속률 averageViewPercentage (이게 진짜 효과 지표)
- 구독 전환 (subscribersGained)
- 요일/시간/길이 × variant 교차표
마무리
3일이라는 기간동안 4-에이전트 파이프라인 구축부터 4-variant 실험,
YouTube API 통합, 분석 대시보드, 일별 시계열 인프라까지 깔았다.
데이터로 결론을 내리기엔 아직 부족하지만, 도구는 완성했다.
다음 단계는 변수 통제 자동화와 표본 누적인데,
표본이 arm 당 30개 이상 쌓이면 그때부터 진짜 비교가 가능하다.
그 시점에 다시 글을 쓸지 한번 고민해보겠다.
그외에 궁금한게 있으면 댓글로 달아주세요.
인덱스보드: https://index-board.space