EU AI Act

클로드 포 워드, 법률 AI 벤치마크 실패... 아비보가 능가

이름값 하던 범용 AI 챗봇이 법률 계약서라는 까다로운 영역에서는 아직 멀었다는 소식입니다. 새로운 테스트 결과, 클로드 포 워드가… 글쎄요, 제대로 낙제점을 받았다고 합니다.

{# Always render the hero — falls back to the theme OG image when article.image_url is empty (e.g. after the audit's repair_hero_images cleared a blocked Unsplash hot-link). Without this fallback, evergreens with cleared image_url render no hero at all → the JSON-LD ImageObject loses its visual counterpart and LCP attrs go missing. #}
클로드 포 워드보다 Ivo와 인간 변호사가 더 나은 점수를 받은 벤치마크 점수를 보여주는 스크린샷.

Key Takeaways

  • Ivo와 같은 전문 법률 AI 플랫폼은 계약서 검토 작업에서 Claude for Word와 같은 범용 AI 모델을 크게 능가합니다.
  • 인간 변호사는 여전히 전문 법률 AI보다 약간 더 나은 성능을 보이지만, 그 격차는 좁혀지고 있습니다.
  • 벤치마크는 일반 AI가 도메인별 도구의 '법률적 판단 및 계약 검토' 능력이 부족하다는 점을 시사합니다.

Ivo와 Claude for Word 간의 이번 맞대결이, 빽빽한 법률 문서를 파고드는 실무자들에게 정말로 어떤 의미일까요? 잠시 기술 용어는 잊어도 좋습니다. 우리가 쓰던 워드 프로세서에 일반 AI 도구 하나 얹어서 계약서를 마법처럼 고쳐줄 거라는 기대는… 아직은 때가 아니라는 뜻입니다. 변호사나 법률 비서들에게는, 법률 업무 흐름을 염두에 두고 처음부터 만들어진 전문 도구들이 여전히 확실한 우위를 점하고 있다는 것을 시사합니다. 그리고 그 비용을 지불하는 임원들에게는, 고위험 법률 업무에 있어서 즉시 구매 가능한 AI에 대한 큰 베팅을 재고해야 할 필요가 있다는 의미이기도 합니다.

문제는 이겁니다. 계약 인텔리전스 플랫폼인 Ivo가 자체 전문 AI와, 무려 실제 인간 변호사까지 끌어들여 ‘벤치마크’라는 이름의 테스트를 진행했습니다. 결과는? Anthropic의 Opus 4.6 기반인 Claude for Word는 10점 만점에 3.5점이라는 처참한 점수를 기록했습니다. 인간 변호사는 4.56점, 그리고 Ivo의 AI는 4.52점으로 근소하게 앞섰죠. 인간이 압도적인 승리를 거머쥔 것은 아니지만, 거대 범용 LLM에게는 확실히 굴욕적인 패배라고 볼 수 있습니다.

이게 과연 큰 문제일까?

솔직히 말해, 이 점수들이 세상을 뒤집을 만한 수준은 아닙니다. 인간 변호사가 계약서를 검토하고 10점 만점에 4.5점을 받았다? 이건… 좋다고 말하기 어렵죠. 이 직업을 평생 해온 사람들조차 법률 문서의 복잡성을 전반적으로 어려워하고 있다는 힌트입니다. 그런데 Claude는 3.5점이라니. 이건 ‘좀 더 잘할 수 있겠다’ 정도가 아니라, ‘심각한 개입이 필요하다’는 수준입니다. 2026년 4월, 실제 익명 처리된 19건의 계약서를 대상으로 진행된 이 보고서에 따르면, Ivo는 ‘수술적인 수정’ 및 ‘법률적 판단’과 같은 모든 지표에서 Claude를 능가했습니다. 뛰어난 대화 능력을 자랑하는 일반 AI가 이러한 영역에서 종종 미끄러진다는 것을 보여주는 결과죠.

Ivo의 공동 창립자이자 CEO인 민규 정은 이 결과에 대해 다음과 같이 말했습니다.

‘우리는 실제 변호사가 평가하는 실제 업무에 실제 도구를 적용하여 이러한 격차를 해소하는 벤치마크를 설계했습니다. 여기서 드러나는 것은 변호사를 대체하는 것이 아니라, AI가 반복적인 작업을 처리하고 법률 팀이 전략, 협상 및 고객 결과에 집중할 수 있는 고품질 법률 업무를 확장하는 새로운 방식입니다.’

네, 네. ‘대체는 아니다’, 하지만 ‘확장하는 새로운 방식’이라. 전형적인 기술 업계의 수사입니다. 대체가 아닌 증강을 약속하는 것이죠. 그리고 여기서 돈을 버는 쪽은 누구일까요? 당연히 Ivo입니다. 그들은 자신들의 전문성을 내세우며, 결과적으로 범용 AI보다 우월한 선택지로 자신들을 포지셔닝하고 있습니다. 의심할 여지 없이 영리한 마케팅이지만, 핵심 메시지는 분명합니다. 법률 분야는 일반 모델이, 적어도 현재로서는 파악하기 어려워하는, 깊숙이 내재된 논리와 미묘한 차이를 가진 영역이라는 것입니다.

실제 변호사에게 왜 중요할까?

Ivo가 지적했듯이, 법무팀이 씨름하고 있는 가장 큰 질문은 “왜 Claude로는 안 될까?” 또는 “Claude의 Word 애드인과는 어떻게 비교되는가?”입니다. 이 벤치마크는 꽤나 냉혹한 답변을 제공합니다. 왜냐하면 전문 법률 AI는, 적어도 현재 버전에서는, 다르게 구축되었기 때문입니다. 단순히 텍스트를 쏟아내는 것이 아니라, 수십 년간의 법률 실무에 얽힌 함의, 선례, 잠재적 위험을 이해하는 것에 관한 것입니다. Ivo는 자신들의 시스템이 인간 검토자가 약 10시간 걸릴 작업을 단 몇 분 만에 처리할 수 있다고 주장합니다. 이는 실질적인 효율성 향상이며, 로펌이나 기업 법무팀에게는 이것이 진정한 가치 제안입니다.

생각해 보세요. 인간 변호사의 점수도 그다지 인상적이지 못했습니다. 이는 ‘골드 스탠다드’라고 여겨지는 것조차 개선의 여지가 있음을 시사합니다. 그리고 Ivo와 같이 목적에 맞게 설계된 AI가 인간 성능에 그렇게 가까이 다가갈 수 있다면, 그것도 처리 시간을 극적으로 단축하면서 말입니다. Ivo에 따르면, 범용 AI와 법률 AI 간의 격차는 ‘법률적 판단 및 계약 검토’ 측면에서 “수 마일에 달한다”고 합니다. 이는 대담한 주장일 수 있지만, 제시된 데이터는 이를 뒷받침합니다.

이제 Ivo와 같은 회사들의 과제는 ‘AI 역량과 변호사들이 법률 AI 결과물에 대한 신뢰 사이의 간극’을 좁히는 것입니다. 변호사들은 당연히 회의적입니다. 그들은 중대한 결과에 직면하기 때문입니다. 따라서 속도뿐만 아니라 정확성과 합리적인 판단을 입증하는 것이 무엇보다 중요합니다. “이전에 실행된 계약 및 거래 맥락과 플레이북을 기반으로” 교훈을 통합하는 Ivo의 접근 방식은 올바른 방향으로 나아가는 것처럼 보입니다. 엄격한 규칙을 넘어 변호사의 맥락적 이해를 모방하는 무언가로 나아가는 것이죠.

누가 실제로 돈을 버는가?

핵심으로 들어가 봅시다. Ivo는 전문 솔루션을 판매함으로써 돈을 벌고 있습니다. 그들은 계약 검토라는 고충 지점을 파악했고, 이를 위해 특별히 설계된 도구를 만들었습니다. 그들의 벤치마크 성공은 Claude for Word와 같이 더 폭넓고 접근하기 쉬운 도구의 한계를 강조하기 위한 마케팅 성공입니다. 반면에 Anthropic은 이 특정 테스트 결과에 대해 그다지 만족하지 않을 수 있습니다. Claude는 강력한 범용 모델이지만, 특히 파인튜닝이나 전문적인 통합 없이 법률 계약 검토와 같이 고도로 전문적이고 높은 위험을 수반하는 영역에 적용될 때 그 약점이 드러날 수 있습니다.

이것이 법률 분야에서 범용 AI가 끝장이라는 의미는 아닙니다. 결코 그렇지 않습니다. 하지만 심오한 도메인 지식, 미묘한 차이, 그리고 상당한 재정적 또는 법적 결과를 초래할 수 있는 작업을 위해서는, 해당 산업을 염두에 두고 개발된 전문 도구가 계속해서 지배적일 가능성이 높다는 점을 강조합니다. 현재로서는 법률 AI 분야에서 돈은 넓은 윤곽이 아닌 깊이 있는 분석에서 나옵니다.


🧬 관련 인사이트

자주 묻는 질문

Claude for Word는 무엇을 하나요?

Claude for Word는 Microsoft Word용 애드인으로, 사용자가 Anthropic의 Claude AI 모델을 사용하여 텍스트 요약, 콘텐츠 초안 작성, 질문 답변 등과 같은 작업을 워드 프로세싱 애플리케이션 내에서 직접 수행할 수 있도록 합니다.

Ivo는 인간 변호사와 비교하여 어떻게 수행했나요?

Ivo의 AI는 10점 만점에 4.52점을 기록하여, 인간 변호사의 4.56점과 매우 근접한 점수를 받았습니다. 이는 벤치마크에 따르면 계약 검토에서 유사한 성능을 시사합니다.

이것이 법률 업무에 일반 AI 도구가 더 이상 사용되지 않을 것이라는 의미인가요?

그럴 가능성은 낮습니다. 이 벤치마크는 계약 검토와 같은 복잡한 작업에 대한 한계를 강조하지만, 일반 AI 도구는 덜 전문적인 법률 작업, 조사 및 초기 초안 작성에 여전히 유용할 수 있습니다.

Written by
Legal AI Beat Editorial Team

Curated insights, explainers, and analysis from the editorial team.

Worth sharing?

Get the best Legal Tech stories of the week in your inbox — no noise, no spam.

Originally reported by Artificial Lawyer