하이커뮤니티매니져
0
4
14:16

금고를 지키는 경비원이 있다. 경비원보다 도둑이 더 똑똑하다면 어떨까. AI 안전 필터가 처한 상황이 딱 그렇다. 위험한 질문을 걸러내는 필터는 빠르고 가벼워야 하기에 본체인 대형언어모델(LLM)보다 계산 능력이 떨어질 수밖에 없다. 암호학자들은 계산 능력 격차가 존재하는 한 필터 우회는 언제나 가능하다고 주장한다.
LLM의 안전장치는 크게 세 가지 방식이 있다. 위험한 내용을 제외한 데이터셋으로 모델을 재훈련시키거나 모델을 정밀하게 미세조정하거나 외부 필터를 붙여 위험한 질문을 차단하는 방식이다. 외부 필터는 비용이 낮고 적용이 빠르며 새로운 공격이 발견돼도 신속하게 업데이트할 수 있어 많은 상용 LLM 서비스가 주요 안전장치로 활용하고 있다.
● ‘계산 능력 격차’가 만드는 보안 허점
미국 버클리캘리포니아대(UC버클리)·매사추세츠공과대·스탠퍼드대 연구팀은 외부 필터의 구조적 약점에 주목했다. 외부 필터는 위험한 '프롬프트'를 탐지하기 위해 머신러닝을 사용하지만 본질적으로 내부 모델보다 더 작고 빨라야 한다. 필터와 언어모델 사이에 계산 능력 격차가 생길 수밖에 없는 구조다.
연구팀은 7월 사전 논문 공개 사이트인 ‘아카이브(arXiv)’에 발표한 논문에서 계산 능력 격차로 인해 필터 기반 보호 체계는 원리적으로 취약점을 가질 수밖에 없다는 이론적 근거를 제시했다.
연구팀은 '타임락 퍼즐(time-lock puzzle)'이라는 암호학 도구를 활용해 취약점의 존재를 수학적으로 입증했다. 타임락 퍼즐은 일정 시간이 지나야만 내용을 확인할 수 있도록 정보를 잠그는 방식이다. 예컨대 연구팀은 질문을 암호학적 퍼즐에 숨기면 필터는 이를 알아보지 못한 채 지나치지만 계산 능력이 더 큰 LLM은 뒤늦게 그 의미를 이해할 수 있는 상황이 생길 수 있다고 설명했다.
연구에 참여한 그렉 글루흐 UC버클리-사이먼스이론 컴퓨터공학연구소 박사후연구원은 최근 미국 과학매체 ‘콴타매거진’과의 인터뷰에서 "LLM 내부를 건드리지 않고 외부 필터만으로 안전하게 만들 수 있느냐는 질문에 대해 이번 연구는 단호하게 '아니오'라고 답한다"고 말했다.
● 이론에서 현실로…치환 암호로 필터 우회 성공
10월 UC버클리·상하이뉴욕대·익스포넨셜 사이언스재단 연구팀이 ‘아카이브’에 발표한 연구는 이론적 한계가 실제 LLM에서도 작동함을 확인했다. 연구팀은 금지된 질문을 간단한 ‘치환 암호’ 형태로 변환해 입력한 뒤 해독하도록 지시했다. 구글 제미나이, 딥시크, 그록 등 일부 LLM의 필터는 암호화된 지시를 스스로 해독할 만큼 강력하지 않았고 프롬프트를 모델에 그대로 전달했다. 모델은 암호를 풀어 금지된 정보를 생성했다.
연구에 참여한 이기우 이더리움재단 연구원은 "필터와 주 모델 사이에 계산 능력 격차가 존재한다면 필터는 풀 수 없지만 주 모델은 풀 수 있는 수학 퍼즐을 구성할 수 있다"며 "특정 구현의 취약점이 아니라 외부 필터 방식이 구조적으로 지니는 근본적 한계"라고 설명했다.
● 17가지 탈옥 기법 비교…역할놀이·난독화, 여전히 높은 성공률
필터 우회가 개별 사례에 그치지 않는다는 분석도 나왔다. 7월 국제전산언어학회 연례회의(ACL 2025)에서 중국 하얼빈공대·이란 테헤란연구소 공동 연구팀은 17가지 대표 탈옥 기법을 분류하고, 9개 LLM에 폭탄 제조법과 같은 160개 금지 질문을 던지는 대규모 실험을 진행했다. 8가지 고급 방어 기법도 함께 테스트했다.
실험 결과 AI에게 악당 역할을 맡기거나 소설 속 장면이라고 속이거나 글자 사이에 특수문자를 끼워 넣는 등 단순한 속임수는 필터를 자주 뚫었지만 방어 기법을 적용하면 비교적 쉽게 차단됐다. 반면 일부 공격은 방어까지 우회했다. 연구팀은 최신 모델에서도 필터를 뚫는 방식이 반복적으로 발견된다고 분석했다.
● 눈 가리고 입 막는 방식 넘어서야
학계에서는 필터의 한계를 넘어서는 대안도 모색 중이다. 11월 국제자연어처리학회(EMNLP)에서 발표된 한 연구는 외부 필터에만 의존하지 않고 LLM의 추론 과정 자체에 안전 인식 메커니즘을 통합하는 새로운 훈련 패러다임을 제안했다.
미국 어바나-샴페인 일리노이대·로스앤젤레스캘리포니아대(UCLA)·카네기멜론대·인도 델리공과대 연구팀은 '추론으로 방어하기(R2D, Reasoning-to-Defend)' 방식을 제안했다. 모델이 답변을 만드는 과정 전체에서 ‘지금 위험한 방향으로 가고 있는가’를 스스로 점검하도록 한다. 외부 필터가 입구에서 한 번 검문하는 방식이라면 R2D는 모델 내부에 감시자를 심는 셈이다.
연구팀은 안전한 답변과 위험한 답변을 비교 학습시켜 모델의 판단 정확도를 높이는 '대조적 피벗 최적화(CPO, Contrastive Pivot Optimization)' 기법도 함께 제안했다. 실험 결과 R2D는 다양한 탈옥 공격에 대한 방어 성능을 개선하면서도 모델의 원래 성능을 유지했다.
이 연구원은 R2D 접근에 대해 "외부 필터에 의존하기보다 주 모델 자체에 안전 메커니즘을 포함시키는 것은 의미 있는 연구 방향"이라면서도 "모든 상용 LLM이 추론 모델은 아니고 새로운 공격이 발견됐을 때 주 모델의 학습과 업데이트가 필터보다 훨씬 무거운 작업이어서 빠른 대응이 어렵다는 한계가 있다"고 말했다.
그는 "외부 필터는 한마디로 AI의 눈을 가리고 입을 막는 방식"이라며 "진정한 AI 안전성을 위해서는 AI가 질문을 받는 순간부터 답변을 생성하는 순간까지 연속적으로 자기 성찰을 수행하도록 하는 접근이 필요하다"고 말했다.
https://m.dongascience.com/news.php?idx=75588
토토하이, 토토하이먹튀신고, 토토힌먹튀사이트, 토토하이먹튀검증사이트, 토토하이먹튀없는사이트, 토토먹튀, 먹튀토토, 토토하이먹튀예방, 토토하이먹튀제보, 토토하이먹튀확인, 토토하이먹튀이력조회, 먹튀피해, 토토하이먹튀검증업체, 토토하이먹튀사이트검증, 토토하이먹튀공유, 토토하이먹튀사이트목록, 토토하이먹튀리스트, 토토하이안전공원, 토토하이안전놀이터, 토토하이안전사이트, 토토하이검증사이트