해로운 질문 반복하면, AI가 대화 거절…앤트로픽, 클로드에 '대화 종료' 기능 적용

2025-08-18     마주영 기자
(사진=앤트로픽)

앤트로픽이 사용자가 유해하거나 학대적인 주제의 답변을 지속적으로 요구할 경우 인공지능(AI)이 스스로 대화를 종료하는 기능을 실험적으로 도입했다. 

앤트로픽은 16일(현지시간) 인공지능 모델 '클로드(Claude) 4'와 '클로드 4.1'에 해당 기능을 적용한다고 밝혔다. 이번 기능은 지속적으로 유해하거나 악의적인 사용자 상호작용이 발생하는 극단적인 상황에서 작동하도록 설계됐다. 

사용자가 성착취, 아동 학대, 자살 유도 등 해로운 주제를 사용자가 요구할 경우 대화를 AI가 스스로 종료할 수 있는 기능이다. 앤트로픽은 해당 기능이 '모델 복지(model welfare)'에 대한 작업의 일환으로 개발됐다고 설명했다. 그렇다고 AI 모델이 지각력이 있거나 사용자와의 대화로 인해 피해를 입을 수 있다고 주장하는 것은 아니다. 

앤트로픽은 "모델 복지가 가능하다면 위험을 완화하기 위한 저비용 개입을 찾아내고 실행하기 위해 노력하고, 만약의 경우를 대비한 접근 방식을 취하고 있다"라고 밝혔다. 클로드가 대화를 스스로 종료하는 조건은 명확하다. 여러 차례 거절에도 유해 요청을 반복하거나 사용자가 직접 대화를 종료해 달라고 요청하는 경우에 대화가 종료된다. 

(사진=앤트로픽)

클로드가 대화를 종료하면 사용자는 더 이상 해당 대화에서 메시지를 보낼 수 없게 된다. 하지만 계정의 다른 대화에는 영향을 미치지 않으며, 즉시 새 채팅을 시작할 수 있다. 대화 전체가 차단되거나 해당 계정이 정지되는 것은 아니다.

앤트로픽은 해당 기능을 지속적으로 테스트를 진행해 접근 방식을 개선해 나갈 것이라고 밝혔다. 한편 앤트로픽은 자사의 클로드 제품을 미 연방 정부 기관에 향후 1년간 1달러에 제공하는 계약을 체결했다고 밝힌 바 있다. 

이에 따라 미국 연방 정부 직원들은 사실상 무료로 클로드 엔터프라이즈 제품과 정부 특화 AI 모델을 이용할 수 있게 됐다. 앤트로픽은 "AI 도입이 산업 전반에 걸쳐 혁신을 가져오는 가운데, 연방 직원들이 이러한 역량을 최대한 활용해 미국 국민에게 더 나은 서비스를 제공할 수 있도록 보장하고자 한다"라고 했다.