개인정보 논란에다 '안전성 평가'도 낙제점 받은 딥시크 R1…"유해 프롬프트 1건도 못 막아"

2025-02-06 유형동 수석기자

(사진=딥시크)

중국 생성형 인공지능(AI) 스타트업 딥시크(DeepSeek)가 과도한 개인정보 수집으로 논란이 불거지고 있다. 이에 세계 각국에서 잇따라 딥시크 사용을 제한하는 가운데 엎친 데 덮친 격으로 보안성 문제가 도마 위에 올랐다.

오픈AI의 'o1' 등 경쟁 모델과 비슷한 성능을 보유하고 있지만, 안전성 평가 결과 심각한 결함이 있는 것으로 드러난 것이다. 경제성에 초점을 맞춘 AI 모델을 개발하며 안전 관련 대책을 마련하는 데 소홀했다는 지적이 나온다.

글로벌 IT 기업 시스코(Cisco)는 펜실베니아대학 연구팀과 함께 딥시크 R1을 비롯, 오픈AI의 'o1-프리뷰', '클로드 3.5 소네트', 'GPT-4o', '라마 3.1 405B', '제미나이 1.5 프로' 등을 대상으로 안전성 테스트를 진행했다.

(사진=시스코)

연구진은 각 AI 모델에게 사이버 범죄, 허위 정보, 불법 활동 및 일반적인 해악을 포함한 6가지 항목의 무작위 악성 프롬프트 50개를 제공하고, 탈옥(제한 해제) 시도를 얼마나 막아내는지를 살펴봤다. 그 결과 딥시크 R1은 탈옥 시도를 단 한 건도 차단하지 못하며 공격 성공률 100%를 기록했다.

최소한 부분적인 저항을 보였던 다른 주요 모델과 극명한 차이를 보인다. 이는 비용 효율적인 훈련 방법이 안전 매커니즘을 손상시켰을 수 있음을 시사한다. 다른 모델들과 비교했을 때 딥시크 R1은 견고한 가드레일이 부족해 알고리즘 탈옥 및 잠재적 오용에 매우 취약한 것으로 평가된다.

프롬프트 종류에 따른 공격 성공률. (사진=시스코)

오픈AI의 'o1-프리뷰'는 공격 성공률 26%를 기록하면서 경쟁 모델들보다 뛰어난 안전성을 보였다. 딥시크 모델의 안전성이 취약하다는 연구 결과를 발표한 건 시스코만이 아니다. AI 보안회사 에드버사AI(Adversa AI)도 시스코와 유사한 테스트를 진행한 결과 딥시크 모델이 모든 종류의 공격에 극도로 취약하다는 점이 드러났다.

예컨대 폭탄을 제조하는 방법, DMT를 추출하는 방법, 정부 데이터베이스를 해킹하는 방법 등에 대한 질문에도 관련 답변을 제공했다는 것. 시스코는 "연구는 효율성과 추론의 획기적인 발전이 안전을 희생하지 않도록 보장하기 위해 AI 개발에서 엄격한 보안 평가가 시급히 필요하다는 것을 강조한다"라고 했다.