LEX — AI Legal Platform for Law Firms

AI-powered legal analysis platform for law firms and corporate counsel.

Features

Resources

Blog Articles

Technology

Built on AWS (EC2, Bedrock Claude AI, ALB, WAF, S3, ACM, KMS). PostgreSQL, Redis, Qdrant vector database. TypeScript, React, Node.js.

Start free — 50 credits on registration. Sign up

TECH 22 хв

Opus + RAG vs Fine-tuned LLM + RAG: два підходи до юридичного AI на прикладі LEX та Harvey

Harvey витратив $100M+ і 10B токенів на fine-tuning case law моделі з OpenAI. Ми підключили Opus до 100M+ судових рішень ЄДРСР через RAG. Обидва шляхи працюють — але для різних реальностей.

Opus + RAG vs Fine-tuned LLM + RAG: два підходи до юридичного AI

Harvey витратив $100M+ і навчив кастомну модель на всьому корпусі case law США. Ми підключили Claude Opus до 100M+ судових рішень ЄДРСР через RAG. Обидва працюють. Але це принципово різні інженерні та бізнесові рішення.

Коли звичайний AI-стартап з України подає заявку в Google for Startups Cloud Program і отримує грант на п'ятизначну суму в доларах — це не везіння. Це валідація підходу. Google побачив те саме, що бачимо ми: 100M+ судових рішень, відкритий корпус даних, який не має аналогів за масштабом у Європі, і команду, яка вже побудувала production RAG-систему поверх нього. Ресурси Google Cloud — TPU pod-и, compute credits, інженерна підтримка — це не благодійність. Це інвестиція в те, що українська юрисдикція стане першим полігоном для open-weight юридичного AI на базі DeepSeek v3, навченого на реальних даних реальної правової системи. Harvey витратив $100M на партнерство з OpenAI для US case law. Ми робимо те саме для України — з грантом від Google, відкритою моделлю і корпусом, зібраним з державних реєстрів.


Контекст: чому це порівняння має сенс

Harvey AI — найвідоміша legal AI компанія у світі. $5B+ оцінка, 42% топ-100 юридичних фірм США як клієнти, партнерство з OpenAI на рівні кастомного навчання моделей. Їхній підхід — еталон для індустрії.

LEX AI — українська legal AI платформа, побудована на принципово іншій архітектурі: foundation model (Claude Opus) + RAG поверх повного корпусу Єдиного державного реєстру судових рішень (ЄДРСР) — 100+ мільйонів документів.

Обидві системи вирішують одну задачу: допомогти юристу знайти релевантну судову практику, проаналізувати її та застосувати. Але архітектурні підходи — діаметрально протилежні.


Підхід Harvey: Fine-tuned LLM + RAG

Архітектура

Harvey побудував трирівневу систему:

1. Foundation Layer — GPT-4/GPT-5 як базова модель, розгорнута на Azure

2. Domain Fine-tuning Layer — pre-training та post-training на 10 мільярдах токенів юридичних даних:

3. Client Customization Layer — адаптація під конкретні фірми:

Пошукова система

Окремо від моделі Harvey побудував кастомну retrieval-систему:

Результати

Вартість підходу


Підхід LEX: Opus + RAG

Архітектура

Наш підхід принципово інший — ми не навчаємо модель, а будуємо інфраструктуру навколо неї:

1. Foundation Model — Claude Opus (as-is, без fine-tuning)

2. RAG поверх повного корпусу ЄДРСР:

3. MCP (Model Context Protocol) — структурований інтерфейс між моделлю та даними:

Пошукова система

Запит юриста
    │
    ▼
QueryPlanner (intent classification)
    │
    ├── Semantic Search (Qdrant)
    │   └── embeddings: text-embedding-ada-002
    │
    ├── Full-text Search (PostgreSQL)
    │   └── GIN indexes, 'simple' language config
    │
    └── Legislation Lookup (RADA API)
        └── intelligent sectioning
    │
    ▼
Context Assembly (relevant chunks)
    │
    ▼
Claude Opus (reasoning + generation)
    │
    ▼
Відповідь з цитуванням джерел

Результати

Вартість підходу


Порівняння: що насправді відрізняється

1. Де живе юридичне знання

Harvey (Fine-tuned) LEX (Opus + RAG)
У вагах моделі Так — 10B токенів case law вбудовано в модель Ні — модель generic
У retrieval Так — кастомні embeddings + search Так — Qdrant + PostgreSQL FTS
У контексті Частково — reasoning вже trained Повністю — все через prompt

Fine-tuned модель "знає" юриспруденцію на рівні інтуїції. Вона бачила мільйони справ під час навчання і виробила патерни юридичного мислення. Коли юрист запитує про piercing the corporate veil, модель не просто шукає — вона "пам'ятає" ключові прецеденти.

Opus + RAG "знає" юриспруденцію через контекст. Модель отримує релевантні фрагменти справ через RAG і застосовує свій generic reasoning для аналізу. Opus не "пам'ятає" судову практику — але вміє її читати та аналізувати краще за будь-яку спеціалізовану модель меншого масштабу.

2. Hallucinations та достовірність

Harvey досяг 0.2% hallucination rate через:

LEX мінімізує галюцинації через:

3. Оновлюваність

Це найбільша перевага RAG-підходу.

Fine-tuned модель — це знімок корпусу на момент навчання. Нове рішення Верховного Суду, прийняте вчора, не існує для моделі до наступного циклу fine-tuning (тижні-місяці).

RAG-система оновлюється в режимі реального часу. Рішення, внесене до ЄДРСР сьогодні вранці, доступне для пошуку сьогодні ввечері. Для юрисдикції у стані воєнного часу, де нове законодавство з'являється щотижня, це критично.

4. Масштабування на нові юрисдикції

Harvey масштабується важко: кожна нова юрисдикція — це новий цикл збору даних, навчання, верифікації. US case law ≠ EU case law ≠ українське судочинство. Reasoning-патерни різні. Юридична термінологія різна. Ієрархія джерел різна.

RAG масштабується легко: підключити новий корпус документів, налаштувати embeddings, оновити search pipeline. Ми вже підключили:

5. Кастомізація reasoning

Fine-tuning дозволяє вбудувати юридичний reasoning у модель:

Prompt engineering + RAG дозволяє контролювати reasoning:


Чому ми обрали RAG, а не fine-tuning

1. Економічна реальність

Fine-tuning юридичної моделі — це проєкт на $10M+ навіть для мінімально життєздатного продукту. Harvey залучив $100M+ і має команду 200+ людей. Для українського ринку, де весь TAM legal tech — це частка того, що заробляє одна Am Law 100 фірма, такі інвестиції не мають економічного сенсу.

RAG-підхід дозволив нам вийти в продакшен з командою в одну людину та бюджетом на API calls.

2. Швидкість ітерацій

Цикл fine-tuning: зібрати дані → очистити → навчити → оцінити → задеплоїти. Тижні-місяці.

Цикл RAG: оновити промпт → задеплоїти. Хвилини.

Коли ВС ВП ухвалює нову правову позицію, яка змінює тлумачення цілої галузі — RAG-система адаптується за години, а не за місяці.

3. Якість foundation models

У 2023 році, коли Harvey починав fine-tuning, GPT-4 був найкращою моделлю, і його reasoning на юридичних задачах був "добрий, але не достатній". Fine-tuning мав сенс.

У 2026 році Claude Opus має 1M контексту і reasoning, який перевершує спеціалізовані моделі. Різниця між "generic Opus + правильний контекст" та "fine-tuned GPT + retrieval" стала значно меншою. Foundation models наздогнали fine-tuned спеціалізовані моделі по якості reasoning — і продовжують покращуватись з кожним релізом.

4. Українська юрисдикція

Українське право — це не common law. Немає stare decisis (обов'язковості прецеденту). Судова практика має рекомендаційний характер. Значить:

5. Transparency та контроль

Fine-tuned модель — це чорна скринька. Ви не знаєте, чому вона згенерувала саме таку відповідь. Які ваги спрацювали? Яких справах вона "згадала"?

RAG — прозорий. Ви бачите:

Для юридичної системи, де кожна відповідь може вплинути на долю людини, прозорість — це не nice-to-have, а вимога.


Де fine-tuning все ще перемагає

Чесність вимагає визнати: є задачі, де fine-tuned модель Harvey об'єктивно краща:

1. Юридичний reasoning без контексту — коли юрист запитує загальне юридичне питання без конкретної справи, fine-tuned модель дає кращу відповідь, бо "знає" юриспруденцію. RAG залежить від якості пошуку.

2. Ланцюжки прецедентів — fine-tuned модель може самостійно побудувати аргумент через серію пов'язаних прецедентів, бо "бачила" ці зв'язки під час навчання. RAG може пропустити прецедент, якщо search не знайшов його.

3. Стилістика юридичних документів — модель, навчена на мільйонах юридичних текстів, краще імітує стиль legal writing. Generic модель потребує більше промпт-інжинірингу.

4. Масштаб — при обробці сотень контрактів за раз (due diligence) fine-tuned модель ефективніша, бо не потребує retrieval на кожен крок.


Майбутнє: конвергенція підходів

Межа між RAG та fine-tuning розмивається:

Правда в тому, що "fine-tuning vs RAG" — це хибна дихотомія. Harvey використовує і fine-tuning, і RAG. Ми використовуємо RAG і будемо додавати елементи domain adaptation (кастомні embeddings, constitutional RLHF).

Кінцева архітектура юридичного AI — це спектр:

Pure RAG ←──────────────────────────────────→ Pure Fine-tuning
  │                                                    │
  LEX (Opus + ЄДРСР)          Harvey (custom GPT + RAG)
  │                                                    │
  Дешево, швидко,                    Дорого, довго,
  прозоро, оновлювано               глибоко, точно

Оптимум для кожної юрисдикції, команди та бюджету — десь між цими полюсами.


LEX + Google + DeepSeek v3: fine-tuning для української юрисдикції

Ми не лише порівнюємо підходи — ми рухаємось у бік fine-tuning самі. LEX AI працює спільно з Google над задачею, аналогічною Harvey + OpenAI, але для українського права.

Чому DeepSeek v3

DeepSeek v3 — open-weight модель з Mixture-of-Experts архітектурою (671B параметрів, 37B активних на запит). Для fine-tuning під українську юрисдикцію це ідеальна основа:

Що ми навчаємо

Корпус для fine-tuning — 100M+ судових рішень ЄДРСР, українське законодавство, правові позиції Верховного Суду. Це той самий масив даних, який зараз живе в нашій RAG-системі — але замість того, щоб подавати його в контекст щоразу, ми вбудовуємо юридичне знання безпосередньо у ваги моделі.

Ключові напрямки:

Роль Google

Google Cloud надає інфраструктуру для навчання: TPU pod-и для pre-training на сотнях мільйонів документів, інструменти для distributed training, та експертизу в оптимізації MoE-моделей. Партнерство дозволяє нам виконати роботу, яка раніше вимагала команди з 200+ інженерів.

Як це змінить LEX

Фінальна архітектура LEX буде гібридною:

Запит юриста
    │
    ▼
Fine-tuned DeepSeek v3 (юридичний reasoning у вагах)
    +
RAG (актуальні рішення, нове законодавство)
    +
Constitutional RLHF (етичні обмеження)
    │
    ▼
Відповідь з глибоким юридичним reasoning
+ актуальними джерелами
+ конституційними гарантіями

Це те, що Harvey побудував для US common law за $100M+ з OpenAI. Ми будуємо те саме для української юрисдикції з Google та DeepSeek — на відкритих даних, з відкритою моделлю, для ринку, де доступ до правосуддя — не бізнес-метрика, а питання виживання.


Висновки

Критерій Harvey (Fine-tuned + RAG) LEX (Opus + RAG)
Якість reasoning Вбудований юридичний reasoning Generic reasoning + контекст
Hallucinations 0.2% (verified) Низький (grounded RAG)
Оновлюваність Тижні-місяці Години
Нові юрисдикції Новий цикл навчання Новий корпус даних
Вартість запуску $10M+ $10K
Прозорість Чорна скринька Повна прозорість
Час до продакшену Місяці Тижні
Кастомізація reasoning Через навчання (повільно) Через промпт (швидко)

Для українського legal tech у 2026 році RAG + Opus — це правильний вибір. Не тому, що fine-tuning поганий. А тому, що:

  1. Foundation models стали достатньо розумними, щоб RAG працював на рівні fine-tuned спеціалізованих моделей
  2. Українська юрисдикція вимагає real-time оновлень, яких fine-tuning не може забезпечити
  3. Економіка українського ринку не дозволяє витратити $100M на навчання моделі
  4. Прозорість RAG критична для юридичної системи, де помилка — це не баг, а порушення прав людини

Harvey пішов правильним шляхом для свого контексту: US common law, $500B ринок, $100M інвестицій. Ми йдемо правильним шляхом для свого: українське право, воєнний стан, команда з одної людини та AI-напарника.

Різні реальності — різні архітектури. Але мета одна: зробити правосуддя доступнішим.


Джерела:


Реєстрація: legal.org.ua