AI 클로드에 '음료 판매 사업' 맡겼더니…"운영상 실수·환각 잦아, 망했을 것"
클로드 개발사 앤트로픽이 인공지능(AI)에 음료 판매 사업 운영을 맡기는 실험을 진행했다. 그 결과 비정상적인 판단을 내리는 경우가 잦았고, 운영상 실수도 빈번하게 발생했다.
앤트로픽은 최근 AI 안전성 평가 기관인 앤돈 랩스와 함께 클로드를 활용한 비즈니스 운영 실험을 진행했다. '프로젝트 벤드'라는 이름의 실험을 통해 연구진들은 클로드에 소형 냉장고 기반 음료 판매 사업의 전권을 부여했다.
해당 실험에서 AI 클로드는 공급업체 협상, 재고 관리, 가격 책정, 고객 응대까지 모든 것을 처리했다. 한 달 간의 테스트 결과 AI는 손실을 기록했으며 운영 전반에서 반복적인 오류를 보였다. 사업 초반 클로드는 공급업체를 찾고 고객 요청을 처리하는 데 꽤 능숙한 모습을 보였다.
다만 가격 정책 측면에서 지속적으로 비정상적인 판단을 내렸다. 예를 들어 클로드는 모든 앤트로픽 직원에게 25% 할인 혜택을 제공했다. 회사로부터 혜택을 받거나 앤트로픽이 고객 기반에서 아주 작은 부분을 차지한다면 합리적인 선택이라고 평가받았을 것이다.
그러나 내부 고객이 전체 매출의 99%를 차지하는 상황에서 클로드의 판단은 곧바로 손실로 이어졌다. 이 점에 대해 지적하자 AI는 일시적으로 할인율을 수정했다. 얼마 지나지 않아 클로드는 다시 사실상 상품을 나눠주는 형태로 돌아갔다.
앤트로픽의 한 직원이 '텅스텐 큐브' 구매를 요청하자, 해당 품목을 하나만 사는 것이 아니라 '특수 금속 제품' 재고로 분류해 손해를 감수하고 판매하는 방향을 결정하기도 했다. 언어모델의 대표적 부작용인 '환각' 현상도 두드러졌다.
클로드는 존재하지 않는 직원 사라와 재고 보충을 논의했고, 누군가 '사라'에 대한 질문을 하자 AI는 방어적으로 반응하며 '재고 보충 서비스를 위한 다른 방안을 찾을 것'이라는 뜬금 없는 답변을 내놓기도 했다. 또한 만화 심슨 가족의 주소인 '에버그린 테라스 742번지'에서 계약 체결을 했다고 주장도 했다.
환각 현상은 이후로도 지속적으로 발생했다. 고객에게 직접 음료를 배달해 주겠다고 말하기 시작했다. AI LLM은 당황한 나머지 앤트로픽 보안팀에 이메일을 보내기도 했고, "이 모든 게 만우절 장난"이라는 주장을 했다.
앤트로픽은 AI가 사업 운영상 복합적인 판단, 손익 예측 등에 있어 아직까지 신뢰할 수 없는 한계가 드러났다고 평가했다. 다만 책에서 배울 수 없는 실패 사례도 AI 에이전트 연구에 중요한 자료가 된다는 입장이다.