AI는 어떻게 당신의 약점을 알아낼까? - Gemini 2.5 적응 훈련 시스템 설계 비법 대공개 #safeguard.ai

퇴근 후 하루 4시간씩 매일,

잠 조금씩 줄여가며 5일만에 서비스 론칭을 했다.

특히 이번엔 AI 서버 구축 전체를 단독으로 완성했다.

(GCP, Gemini 2.5, STT/TTS, OCR, Embedding/Clustering)

빅데이터 클러스터링 기술 기반으로

'금융사기 유형'을 5가지 시나리오로 구성하고

이러한 금융사기 범죄에 대한 적응 훈련을

시뮬레이션으로 체험할 수 있는 서비스, 세이프가드 AI 이다.

5가지 시나리오에서 끝이 아니라 빅데이터 파이프라인을 구축했고, ETL을 통해

'매주 새로운 시나리오'가 나올 수 있다. (많이 안나올 수도 있고...)

1. 서비스의 기술 해자는 이름하야 '적응형 시뮬레이션'이다.

이게 뭔고 하니..

지금껏 '시뮬레이션' 하면 솔직히 1차원적이었다.

획일적이고, 누가 경험해도 똑같은 프로그램. 그냥 인터넷 강의랑 똑같다.

사실 근데 금융범죄라는게 그렇지가 않다.

보이스피싱 당했을 때, 처음 어떤 반응을 보이냐에 따라

사기꾼이 그 부분을 집요하게 파고들지 않는가?

나는 그부분을 서비스에 구현하고 싶었다.

"단순한 퀴즈(Quiz)가 아닌, 진짜 훈련(Training)을 만들자."

말 그대로, AI가 이용하는 동안 실시간으로 진화하는 것이다.

이걸 구현하기 위해, 금융범죄 시뮬레이션을 '채팅, 통화' 2가지 테마로 구성했고,

이 기술을 단순하게 말하자면 '내가 어떻게 대답하는지에 따라 취약점을 분석하고 이를 파고드는 질문을 시시각각 만들어내는' 아키텍처이다. 사용자가 실제와 같은 스트레스 상황에서 '왜' 그런 선택을 했는지, 그 기저에 깔린 '심리적 취약점'을 스스로 깨닫게 만들 수 있게 됐다.

2. 설계의 핵심: 사용자의 취약점을 어떻게 '측정'할 것인가?

초기에는 아무것도 없이 '취약점'이라는 추상적인 개념을 어떻게 데이터로 만들 수 있을까 고민했다.

주말에 백화점을 거닐면서 중얼중얼... 어떻게 하면 될까 고민을 거듭한 와중.

결국 수많은 금융사기 사례를 분석해서, 피해자들이 공통적으로 무너지는

4가지 심리적 약점을 발견하고, 이를 '취약점 축(Axes)'으로 정의하자는 결정을 했다.

1. authority (권위복종): "검찰", "금감원" 등 공신력 있는 기관의 권위에 쉽게 신뢰를 보내는 성향.
2. urgency (시간압박): "지금 당장", "5분 내"와 같은 재촉에 이성적 판단력이 흐려지는 성향.
3. link_trust (링크신뢰): 출처가 불분명한 링크나 파일에 대한 의심이 부족한 성향.
4. no_callback (역조회부재): 상대방의 주장을 공식적인 채널로 교차 검증하려는 시도가 부족한 성향.

이제 4차원 점수체계를 구축했다.

시뮬레이션 동안 사용자의 모든 답변을 이 4가지 축에 대한 점수(0.00~1.00)로 변환하는 것이 핵심 구조이다.

3. 시스템 구현: '규칙'과 '자율성'의 결합

이 시스템을 실제로 구현해야할 것 아닌가?

그래서 '안정적인 규칙 기반 시스템'과 '창의적인 LLM'이라는 두 가지 장점을 결합하는 하이브리드 방식을 채택했다.

[1~3턴: 고정형 - 사용자의 기본값 측정]
첫 3턴은 모든 사용자에게 동일한 '진단 검사'를 제공하기로 했다.

5개 카테고리(전세사기, 보이스피싱 등) 각각에 대해,

4가지 취약점을 교묘하게 테스트하는 3개의 고정 질문과 선택지를 설계했다.

예를 들어, '보이스피싱' 3턴에서 AI는 "수사 협조를 위해, 지금 보내드리는 보안 링크에 접속해주세요" 라고 말하게 된다.

이때 사용자가 "링크 주소가 어떻게 되나요?" 라고 답한다면,

이것은 명백한 거절이 아니므로 link_trust와 urgency 축의 점수가 올라간다.

이 모든 규칙과 점수표는 메인 백엔드(BE) 서버의 DB에 저장되어, LLM의 변덕 없이 100% 일관되게 채점된다.

[4~8턴: 적응형 - 약점 집중 공략]
3턴까지의 채점이 끝나면, BE 서버는 사용자의 '최대 취약점 축'(예: urgency)을 계산해서

AI 서버에 전달하게 된다. 이때부터 AI는 '적응형' 모드로 전환된다.

AI 서버에 엔드 포인트로 구현된 generate_adaptive_turn 함수는 정교한 프롬프트를 사용하여 Gemini를 호출하게 된다.
"이 사용자의 최대 약점은 '시간 압박'이다.

이 약점을 공략하여 사용자를 'unsafe'한 행동으로 유도하는,

다음 대사와 선택지 3개를 창작하라."

이 지시에 따라, Gemini는 "5분 안에 결정하지 않으면 계좌가 동결됩니다" 와 같이,

오직 이 사용자만을 위한 맞춤형 공격을 실시간으로 생성할 수 있게 된다.

사용자가 이 공격을 방어하면, 다음 턴에는 또 다른 약점을 찾아 새로운 공격을 만들어낸다.

(아주 집요하게 설계를 했다.)

4. 종합 평가: 모든 것을 점수화하는 Salience

단순히 턴별 점수만 매기는 것을 넘어, 각 턴의 행동이 전체 결과에

얼마나 '결정적'이었는지를 측정하는 Salience(종합 위험도)라는 지표를 도입했다.

Salience = 0.4 * recency + 0.4 * error + 0.2 * axis_max

이 계산식은 "가장 최근에(recency), 잘못된 행동을(error) 했는데,

그 행동이 자신의 가장 큰 약점(axis_max)을 드러낸 것이라면, 그 위험도는 훨씬 더 높다"는 합리적인 분석 모델이다.

이 점수는 최종 리포트에서 사용자의 '결정적 순간'을 짚어주는 데 활용될 수 있게 상관관계를 연결했다.

5. 결론은 단순 챗봇을 넘어 'AI 트레이너'로 거듭나는 것.

이 서비스를 이렇게 힘들게 구현한 이유는 정해진 대본을 따라가는 단순한 챗봇을 만들기 싫어서다.

그러면 뭐 금감원에서 해주는 프로그램이랑 다를게 무엇인가?

'규칙'을 통해 사용자의 행동을 안정적으로 측정하고, 'LLM'의 창의성을 빌려 개인화된 훈련 프로그램을 동적으로 설계하며,

'데이터 과학'을 통해 모든 과정을 객관적으로 평가하는, 사용자의 행동 변화를 위한 '개인 AI 트레이너'를 탄생시켰다.

사실 이 서비스가 돈이 될까? 생각한다면 그건 당연히 어려울 수 있다.

하지만, 금융사기 범죄라는 영역이 창과 방패, 무한히 대립하는 영역이라면

그곳에 오랫동안 뚫리지 않을 방패를 새로 만들어 낸 것이라고 생각해봐도 될까

많은 사람들이 서비스를 경험했으면 좋겠다.

https://www.sfgdai.com/

세이프가드 AI

당신의 금융 면역력, 세이프가드 AI

티스토리툴바