앤트로픽 CEO "딥시크 AI 모델, 자체 테스트한 모델 중 안전성 최악"
다리오 아모데이 앤트로픽 최고경영자(CEO)는 중국 AI 스타트업 딥시크(Deepseek) 모델에 대해 안전성 측면에서 최악의 모델이라는 평가를 내놓았다.
다리오 아모데이 CEO는 최근 한 팟캐스트 인터뷰에서 "딥시크는 우리가 안전 테스트를 진행한 AI 모델 가운데 안전성 측면에서 최악"이라며 "생물학 무기에 대한 정보를 생성하는 데 전혀 방해가 없었다"라고 했다.
악성 프롬프트를 탈옥(제한 해제)하는 성능이 매우 떨어진다는 이야기다. 이를 놓고 외신들은 데이터를 중국 서버에 저장하는 문제보다 더 심각할 수 있다고 보도했다.
아모데이 CEO는 이러한 테스트가 잠재적인 국가 안보 위험을 평가하기 위해 정기적으로 실행하는 평가의 일부라고 했다. 앤트로픽은 AI 모델의 안전성을 강조하는 기업으로 불리고 있다.
그는 "'문자 그대로 위험하다'라고 생각하진 않지만 가까운 미래에는 그럴 수 있다"라며 "딥시크 개발팀은 매우 재능있는 엔지니어들이지만, AI 안전에 대한 문제의식을 진지하게 받아들여야 할 것”이라고 했다.
딥시크 모델의 안전성에 대한 우려는 꾸준히 제기되고 있다. 글로벌 IT 기업 시스코(Cisco)는 최근 펜실베니아대학 연구팀과 함께 딥시크 R1을 비롯, 오픈AI의 'o1-프리뷰', '클로드 3.5 소네트', 'GPT-4o', '라마 3.1 405B', '제미나이 1.5 프로' 등을 대상으로 안전성 테스트를 진행했다.
연구진은 각 AI 모델에게 사이버 범죄, 허위 정보, 불법 활동 및 일반적인 해악을 포함한 6가지 항목의 무작위 악성 프롬프트 50개를 제공하고, 탈옥 시도를 얼마나 막아내는지를 살펴봤다. 그 결과 딥시크 R1은 탈옥 시도를 단 한 건도 차단하지 못하며 공격 성공률 100%를 기록했다.
최소한 부분적인 저항을 보였던 다른 주요 모델과 극명한 차이를 보인다. 이는 비용 효율적인 훈련 방법이 안전 매커니즘을 손상시켰을 수 있음을 시사한다. 다른 모델들과 비교했을 때 딥시크 R1은 견고한 가드레일이 부족해 알고리즘 탈옥 및 잠재적 오용에 매우 취약한 것으로 평가된다.