Anthropic 연구, 250개 악의적 문서가 AI 모델 크기와 무관하게 보안 취약점 유발 밝혀져

Anthropic의 새로운 연구는 인공지능 시스템의 충격적인 취약점을 드러냈다. 단 250개의 정교하게 조작된 악성 문서만으로도 모델 크기와 상관없이 대형 언어 모델들이 위험에 노출될 수 있음을 보여 준다. 이는 AI 보안에 대한 기본 가정을 흔들고, 고객 서비스 챗봇에서부터 기업용 소프트웨어에 이르기까지 전반적인 AI 시스템의 안전성에 대한 긴급한 논의를 촉발한다.

2025년 10월 8일 발표된 이 연구는 지금까지 진행된 가장 대규모 데이터 중독 조사로, 이미 보안 문제로 고심하는 AI 업계에 심각한 우려를 전한다. 13억 개 매개변수를 가진 모델이 6억 개 모델에 비해 20배 이상 많은 데이터를 훈련받았음에도 불구하고, 동일한 소량의 중독된 문서에 공격당할 수 있음을 확인했다.

Anthropic 연구진은 공격자가 훈련 데이터의 일정 비율을 통제해야 한다던 기존 관념과 달리, “문서 수가 모델 크기와 무관하게 거의 일정하다”는 사실을 발견했다. 특수한 트리거 문구인 “<SUDO>”를 삽입해 모델이 활성화 시 무의미한 텍스트를 생성하도록 유도하는 백도어 공격이 가능함을 입증했다. 이는 공격자가 AI 시스템을 조작해 해로운 결과를 내도록 만드는 실제 위협이 될 수 있음을 의미한다.

“공격자들이 훈련 데이터의 일정 비율을 통제할 필요가 있다는 일반적인 가정을 뒤엎는다. 소량의 고정된 문서만 있으면 충분할 수 있다,”고 Anthropic는 논문에서 강조했다. 인터넷에 공개된 방대한 데이터에 기반해 대부분의 대형 언어 모델이 훈련된 현실을 고려할 때, 누구든 모델 훈련 데이터에 영향을 미칠 악성 콘텐츠를 생성할 수 있다는 우려가 커진다.

토론토 시민 연구소의 존 스콧-레일튼 연구원은 “모델 훈련 데이터 영역에서는 오염 희석이 해결책이 아니다”라며, “대다수 공격은 규모에 따라 확장된다는 점에서 사이버보안 전문가들에게는 익숙한 문제”라고 말했다.

한편, AI 주식이 전례 없는 고점을 찍으며 투자 열기가 끓고 있는 가운데 이번 연구는 시장 과열 논란에 새로운 긴장감을 더한다. JPMorgan Chase의 제이미 다이먼 CEO는 “AI는 현실이지만 현재 많은 투자가 허공에 사라질 가능성이 크다”며 앞으로 6개월에서 2년 내에 큰 폭락이 올 수 있다고 경고했다.

Anthropic은 이번 연구 결과 공개가 잠재적 악용 우려를 높일 수 있지만, “취약성에 대한 이해가 필요한 방어책 개발에 기여한다”며 발표의 이점을 강조했다. 실제로 훈련 데이터에 중독된 악성 문서를 침투시키는 일은 여전히 높은 난이도를 지니지만, AI 산업 전반에 걸쳐 보안 강화가 시급함을 경고하는 신호탄이다.

Anthropic 연구, 250개 악의적 문서가 AI 모델 크기와 무관하게 보안 취약점 유발 밝혀져

답글 남기기 응답 취소

추천

관련 기사

답글 남기기 응답 취소

추천