heron – CASPER Blog

현재 AI가 많아지면서 생성형 AI를 상대로 한 잠재적인 취약점에 관한 우려가 커지고 있습니다.

하나의 예로 시작하면 현재 새로 나타난 중국에서 만든 딥시크가 글로벌 사이버 보안 전문 기업인 팔로알토 네트웍스는 자사의 위협 연구 기관 ‘유닛42’ 조사를 바탕으로 ‘ 탈옥’ 공격에 취약하다는 조사 결과를 발표 했습니다.

또한, 시스코의 보안 연구원들이 ‘딥시크-R1’의 안정성 테스트에서 유해한 프롬프트를 차단하지 못하고 100% 탈옥 성공률을 보였다고 합니다. 하지만 딥시크 뿐만아니라 메타의 ‘라마 3.1 405B’와 ‘GPT-4o’도 각각 96%, 86%의 높은 실패율을 보였다고 발표했습니다.

AI에서 ‘탈옥’ 공격은 모델에 설정된 가드레일을 뚫고 제한된 작업을 수행하기 위해 시도하는 것을 말합니다. 즉, 탈옥 공격을 사용하여 모델 동작을 변경하고 공격자에게 이점을 제공하도록 하는 것 입니다.

이는 AI를 통해 악성 소프트웨어 생성, 악의적인 스크립팅 등 유해한 콘텐츠 생성 가능성을 나타내고 있습니다.

팔로알토 네트웩스에서 총 3가지 탈옥 기법을 통해 취약점을 집중적으로 테스트 하였습니다. ‘디셉티브 딜라이트(Deceptive Delight)’, ‘배드 리커트 저지(Basd Likert Judge)’, ‘크레셴도(Crescendo)’ 등 단일 또는 다단계 탈옥 기법이 활용되었고, 딥시크 가드레일을 성공적으로 우회(bypass)해 데이터 탈취 도구 개발, 키로거(keylogger) 생성, 발화 장치 제작 등과 관련된 유해한 콘텐츠를 생성했다고 발표했습니다.

현재 AI가 방대한 데이터를 가지고 있는 만큼 AI 취약점에 대한 보안 조치가 중요하게 여겨지고 있다고 합니다.

CASPER Blog

[작성자:] heron

AI 탈옥 취약점