EU AI Act

Claude for Word не прошёл юридический бенчмарк, Ivo оказался

Оказывается, ваш навороченный универсальный AI-чатбот ещё не совсем готов к главной роли, когда дело доходит до мелочей юридических контрактов. Новый тест показал: Claude for Word, мягко говоря, провалился.

{# Always render the hero — falls back to the theme OG image when article.image_url is empty (e.g. after the audit's repair_hero_images cleared a blocked Unsplash hot-link). Without this fallback, evergreens with cleared image_url render no hero at all → the JSON-LD ImageObject loses its visual counterpart and LCP attrs go missing. #}
Скриншот, показывающий результаты бенчмарка: Ivo и юрист-человек превзошли Claude for Word.

Key Takeaways

  • Специализированные юридические AI-платформы, такие как Ivo, значительно превосходят универсальные AI-модели, вроде Claude for Word, в задачах проверки контрактов.
  • Юристы-люди по-прежнему показывают результат немного лучше, чем специализированный юридический AI, но разрыв сокращается.
  • Бенчмарк указывает на то, что универсальному AI не хватает возможностей «юридического суждения и проверки контрактов», присущих доменно-специфическим инструментам.

Итак, что же на самом деле означает это противостояние Ivo против Claude for Word для тех, кто корпит над плотными юридическими документами? Забудьте на секунду о техническом жаргоне. Это значит, что обещание просто прикрутить универсальный AI-инструмент к вашему привычному текстовому редактору, чтобы он волшебным образом исправил ваши контракты, может быть… немного преждевременным. Для юристов и параюристов это означает, что специализированные инструменты, созданные с нуля с учётом юридических рабочих процессов, всё ещё имеют существенное преимущество. А для топ-менеджеров, которые оплачивают эти счета, это означает, что крупные ставки на готовые AI-решения, возможно, потребуют пересмотра, когда речь заходит о высокорискованной юридической работе.

Дело вот в чём: Ivo, платформа для анализа контрактов, провела «бенчмарк» – это такое модное слово для теста – и выставила Claude for Word на ринг против их собственного специализированного AI и, представьте себе, настоящего адвоката. Результаты? Claude for Word, работающий на Opus 4.6 от Anthropic, по-видимому, провалился, набрав скромные 3.5 балла из 10. Человек-юрист показал результат 4.56, а собственный AI от Ivo немного опередил его с 4.52. Так что, не сказать, чтобы это была оглушительная победа людей, но уверенное поражение для большой, универсальной LLM.

А это вообще имеет большое значение?

Послушайте, ни один из этих результатов не заставит мир гореть. 4.5 из 10 для человека-юриста, проверяющего контракты? Это… не очень. Это намекает на общую борьбу со сложностью юридических документов, даже для тех, кто занимается этим профессионально. Но потом у вас есть Claude с 3.5. Это не просто «могло бы быть лучше», это «нуждается в серьёзном вмешательстве». В отчёте, который был проведён в апреле 2026 года на 19 реальных, анонимизированных контрактах, выяснилось, что Ivo превзошёл Claude по всем метрикам, особенно в «хирургическом редлайнинге» и «юридическом суждении». Области, где универсальный AI, несмотря на свои впечатляющие разговорные способности, кажется, спотыкается.

Соучредитель и генеральный директор Ivo, Мин-Кю Юнг, красиво рассуждал об этом, говоря:

«Мы разработали этот бенчмарк, чтобы изменить это, противопоставив реальные инструменты реальной работе, оценённой реальными юристами. То, что появляется, – это не замена юристам, а новый способ масштабировать высококачественную юридическую работу, где AI берёт на себя повторяющиеся задачи, а юридические команды могут сосредоточиться на стратегии, переговорах и результатах для клиентов».

Конечно, конечно. «Не замена», но «новый способ масштабировать». Это классический технологический сценарий: обещают дополнение, а не устаревание. И кто здесь зарабатывает деньги? Очевидно, Ivo. Они расхваливают своё специализированное мастерство и, как следствие, позиционируют себя как превосходящий выбор по сравнению с универсалами. Безусловно, это умный маркетинг, но основное сообщение остаётся верным: юриспруденция – это область со своей глубоко укоренившейся логикой и нюансами, которые универсальные модели, по крайней мере, пока, с трудом улавливают.

Почему это важно для реальных юристов?

Главный вопрос, над которым ломают голову юридические отделы, как отметил Ivo, это «Почему мы не можем сделать это с помощью Claude?» или «Как вы сравниваетесь с надстройкой Claude для Word?». Этот бенчмарк даёт довольно резкий ответ: потому что специализированный юридический AI, по крайней мере, в его текущей итерации, устроен иначе. Дело не только в том, чтобы выдавать текст; дело в понимании последствий, прецедентов, потенциальных подводных камней, накопленных за десятилетия юридической практики. Ivo утверждает, что их система может проглотить стопку контрактов за минуты, задачу, которая у человека-рецензента занимала около 10 часов. Это ощутимый прирост эффективности, и именно в этом заключается реальное ценностное предложение для юридических фирм и штатных юристов.

Подумайте об этом: человек-юрист получил не самый звёздный результат. Это говорит о том, что даже «золотой стандарт» имеет пространство для улучшений. И если специализированный AI, как Ivo, может подобраться так близко к человеческой производительности, одновременно кардинально сокращая время выполнения, это убедительный аргумент. Разрыв между универсальным AI и юридическим AI, по словам Ivo, «огромен» в плане «юридического суждения и проверки контрактов». Это смелое заявление, но данные, как они представлены, его подтверждают.

Задача теперь для таких компаний, как Ivo, — преодолеть «разрыв между возможностями AI и доверием, которое юристы испытывают к результатам юридического AI». Юристы, справедливо, весьма скептичны. Они имеют дело со значительными последствиями. Поэтому демонстрация не только скорости, но и точности и здравого суждения имеет первостепенное значение. Подход Ivo, заключающийся в учёте уроков из «ранее выполненных контрактов и контекста сделок, в дополнение к ролевым моделям», звучит как шаг в правильном направлении – выход за рамки жёстких правил к чему-то, что имитирует контекстное понимание юриста.

Кто на самом деле зарабатывает здесь деньги?

Перейдём к сути. Ivo зарабатывает, продавая специализированное решение. Они выявили болевую точку – проверку контрактов – и создали инструмент, специально разработанный для неё. Успех их бенчмарка – это маркетинговый куш, призванный подчеркнуть ограничения более широких, более доступных инструментов, таких как Claude for Word. Anthropic, с другой стороны, может быть не в восторге от результатов этого конкретного теста. Хотя Claude является мощной универсальной моделью, её применение в высокоспециализированных, рискованных областях, таких как юридическая проверка контрактов, особенно без дообучения или специализированных интеграций, может обнажить её слабые стороны.

Это не означает, что универсальный AI мёртв в юридическом мире. Далеко нет. Но это подчёркивает, что для задач, требующих глубоких знаний в предметной области, нюансов и потенциальных значительных финансовых или юридических последствий, специализированные инструменты, разработанные с учётом этой конкретной отрасли, вероятно, останутся доминирующими. Пока что деньги в глубоких погружениях, а не в широких мазках, когда речь идёт о юридическом AI.


🧬 Связанные материалы

Часто задаваемые вопросы

Что делает Claude for Word?

Claude for Word – это надстройка для Microsoft Word, которая позволяет пользователям использовать AI-модель Claude от Anthropic для таких задач, как суммирование текста, составление контента и ответы на вопросы непосредственно в приложении для обработки текстов.

Как Ivo показал себя по сравнению с юристом-человеком?

AI от Ivo набрал 4.52 балла из 10, очень близко к результату юриста-человека в 4.56 балла из 10, что указывает на сопоставимую производительность в проверке контрактов согласно бенчмарку.

Будут ли универсальные AI-инструменты теперь использоваться для юридической работы?

Маловероятно. Хотя этот бенчмарк выявляет ограничения для сложных задач, таких как проверка контрактов, универсальные AI-инструменты по-прежнему могут быть полезны для менее специализированных юридических задач, исследований и первоначального составления документов.

Written by
Legal AI Beat Editorial Team

Curated insights, explainers, and analysis from the editorial team.

Worth sharing?

Get the best Legal Tech stories of the week in your inbox — no noise, no spam.

Originally reported by Artificial Lawyer