본문 바로가기

2026 - 1

2주차 기술 [AI를 활용한 공격들]

지난 2025년도에선 AI가 큰 발전을 이루어내며 AI를 활용한 여러 공격이 생겨났다. 올해도 AI를 이용한 공격이 많아질 것으로 예상된다. (개인적 견해) 갈수록 AI가 일상이 되어가고, 나아가서는 당연하다고 생각하는 세대가 생겨날 날은 머지않았다. 그런 AI가 발 빠른 발전 속도를 보여주지만, AI를 활용한 사이버 공격(해킹, 탈취 등등)에 대한 관심도 높아지고 있다. 이번 주는 AI를 활용한 여러 공격 유형과 그 방안과 대책에 대해서 다루어보았다.

 

성능 지리는 AI, 근데 이제 소시오패스 성깔을 깃들인...

'AI를 활용한 공격들' 이라는 문구를 보았을 때, 아무래도 제일 먼저 떠오르는 것은 누구나, 손쉽게, 적은 시간을 들여서 공격이 가능해진다는 것이다. 바이브 코딩이 그 비슷한 예 중 하나인 것 같다. 코딩에 대한 지식이 많지 않아도, 누구나 프롬프트 한두 줄이면 간단한 게임 프로그램과 웹 페이지를 만드는 시대가 왔다. 나도 전공 공부하면서 프로그래밍 언어를 배울 때 무심코 AI를 사용하다 보니, 내 머릿속에 든 건 'Hello World' 뿐인 것 같다  ><

 

쨌든, 결론은 공격의 진입장벽이 낮아졌다는 이야기다. 한달 전에 대학동기친구에게서 공유 받은 기사를 보았는데, 사이버 수사관들이 디지털 기기를 조사할 때, 가장 먼저 보는 것이 Chat GPT와의 대화 기록이라는 내용의 기사였다. 기사에서는 '강북구 모텔 연쇄 살인 사건' 을 예로 들어 Chat GPT와의 대화 기록이 용의자의 행동 패턴 분석과 고의성을 입증할 가능성에 대해서도 기재했다. 이렇게 Chat GPT가 범죄에 가담되기도 하는 상황에서, 사이버 공격이라고 불가능할까? 
Chat GPT기사와 참고한 관련 사례 기사 내용은 바로 아래에 삽입해 두었다.

휴대폰 검색·카톡 기록 털면 하수…사건 해결 새 스모킹건 된 ‘이것’

해킹까지 도운 AI…“인간이 따라잡을 수 없는 공격 속도"

 

놀랍게도 여기까진 서론이었고, 이제 본론으로 슬슬 들어가보자면...

 

AI를 활용한 공격들은 종류가 많지만 글에서는 대표적인 두 가지 공격들을 다뤄볼 예정이다. (쪼매 귀찮은건 안비밀ㅎ)

 

1. 모델 역추적

2. 프롬프트 인젝션

 

모델 역추적 (Model Inversion)

모델 역추론이라고도 불리는 모델 역추적은 AI 모델의 출력결과를 바탕으로 원본 데이터나 모델의 파라미터를 역으로 추적, 복원하여 탈취하는 공격 기법을 말한다. 공격을 통해 탈취한 모델의 파라미터는 모델의 복제를 생성해내거나, 원본 모델이 학습에 사용한 데이터들을 추론하거나 추출해내는 데에 사용될 수 있다. 

이런 모델 역추적에도 여러 유형이 존재한다. 정교하게 조작된 질의를 모델에 전송하고 그 응답을 분석하여 모델의 매개변수나 아키택택처를 추론하는 쿼리 기반 공격, 데이터 포인트로 모델에 질의하고 응답을 분석함으로써 특정 데이터 포인트가 모델 학습에 사용되었는지 여부를 확인 멤버십 추론 공격도 존재한다.

 

모델 역추적에 대한 방어책으로는 모델 역추적을 탐지하고 완화하는 반응형 방어, 모델을 적대적 공격 예제로 훈련시켜 견고성을 향상시키는 선제적 방어가 존재한다.

 

[참고]

해커도 이제 AI를 쓴다: AI로 진화하는 사이버 공격과 새로운 보안 위협

Model Inversion: The Essential Guide

 

프롬프트 인젝션 (Prompt Injection)

프롬프트 인젝션은 AI가 스스로 민감한 데이터를 유출하도록 악의적인 프롬프트를 입력하거나, 잘못된 정보를 유포하는 공격이라고 볼 수 있다. 프롬프트 인젝션은 민감한 정보에 접근 할 수 있는 생성형 AI(GenAI) 앱에 더 큰 위험을 초래한다. 프롬프트 인젝션은 시스템 프롬프트와 사용자 입력이 모두 동일한 형식을 사용하기 때문에 발생한다. 그말은, 데이터 유형만으로는 명령어와 입력을 구분할할 수 없다는 뜻이고, 과거의 훈련과 프롬프트 자체에 의존하여 무엇을 해야 할지 결정한다고 볼 수 있다.

 

프롬프트 인젝션에는 해커가 직접 사용자 입력을 제어하고 악성 프롬프트를 입력하는 직접 프롬프트 인젝션LLM이 소비하는 데이터에 페이로드(악성 프롬프트)를 배치하는 간접 프롬프트 인젝션이 있다.

 

명령과 입력을 모두 자연어 문자열로 받아들이는 LLM 앱에서는 피싱 이메일과 의심스러운 웹 사이트를 피해서 사용자가 악성 프롬프트를 접할 가능성을 줄이는 데 도움을 주는 일반 보안 관행이나, 사용자 입력을 알려진 인젝션과 비교하고 유사해 보이는 프롬프트를 차단하는 필터를 사용하여 일부 공격을 차단하는 입력 유효성 검사, LLM 및 관련 API에 작업을 수행하는 데 필요한 가장 낮은 권한을 부여하는 최소 권한, 인간 사용자가 작업을 수행하기 전에 수동으로 아웃풋을 확인하고 활동을 승인하도록 요구하는 관련 정보 제공 등 여러 방법으로 프롬프트 인젝션 공격에 방어책을 세울 수 있다.

 

[참고]

프롬프트 인젝션 공격이란 무엇인가요?