LEX — AI Legal Platform for Law Firms

AI-powered legal analysis platform for law firms and corporate counsel.

Features

Resources

Blog Articles

Technology

Built on AWS (EC2, Bedrock Claude AI, ALB, WAF, S3, ACM, KMS). PostgreSQL, Redis, Qdrant vector database. TypeScript, React, Node.js.

Start free — 50 credits on registration. Sign up

TECH 16 хв

Проблема Long Tail при RLHF-навчанні юридичної моделі

5 категорій покривають 90% корпусу ЄДРСР. Як Long Tail руйнує RLHF, чому модель стає «цивілістом» і які стратегії подолання ми впроваджуємо на GCP за $240K/6 міс.

Проблема Long Tail при RLHF-навчанні юридичної моделі LEX AI


Вступ

При навчанні спеціалізованої юридичної моделі LEX AI на корпусі українських відкритих реєстрів (50M+ судових рішень ЄДРСР, реєстри юридичних осіб, дані НАЗК, парламентські дані) ми зіткнулися з фундаментальною статистичною проблемою — Long Tail distribution (розподіл з довгим хвостом).

Ця стаття описує, як Long Tail впливає на якість RLHF-навчання, які конкретні ризики це створює для юридичної моделі та які архітектурні рішення ми впроваджуємо на інфраструктурі GCP протягом 6-місячного циклу розробки.


1. Що таке Long Tail у контексті юридичних даних

Розподіл з довгим хвостом

У класичному розподілі з довгим хвостом невелика кількість категорій покриває більшість випадків ("голова"), тоді як величезна кількість рідкісних категорій становить незначну частку кожна, але сумарно — значну частину корпусу ("хвіст").

Частота
│
│████
│████
│████████
│████████
│████████████
│████████████████
│████████████████████████
│████████████████████████████████████████████████████████████............
└──────────────────────────────────────────────────────────────────────→
  "Голова"                    "Тіло"                    "Довгий хвіст"
  Цивільні спори,          Адмін. справи,            Морське право,
  кримінальні справи,      земельні спори,           космічне право,
  сімейне право            інтел. власність          авіаційне право,
                                                     права корінних народів

Конкретні цифри з ЄДРСР

Аналіз корпусу ЄДРСР показує характерний Long Tail:

Категорія % від корпусу Кількість рішень
Цивільні справи (договірні спори) ~35% ~17.5M
Кримінальні справи ~20% ~10M
Адміністративні справи ~15% ~7.5M
Господарські справи ~12% ~6M
Сімейне право ~8% ~4M
Земельні спори ~4% ~2M
Інтелектуальна власність ~2% ~1M
Банкрутство ~1.5% ~750K
Морське/транспортне право ~0.8% ~400K
Виборчі спори ~0.3% ~150K
Міжнародне приватне право ~0.15% ~75K
Екологічне право ~0.1% ~50K
Космічне/авіаційне право ~0.01% ~5K
Інші рідкісні категорії (сумарно) ~1.14% ~570K

Головний висновок: 5 найпоширеніших категорій покривають 90% корпусу. Решта — десятки категорій, кожна з яких представлена мізерно.


2. Як Long Tail руйнує RLHF

2.1. Проблема переважання: модель стає "цивілістом"

При стандартному RLHF-навчанні reward model навчається переважно на прикладах з "голови" розподілу. Це означає:

Практичний приклад: Користувач запитує про спір щодо прав на селекційне досягнення (рослинний сорт). Модель, натренована на мільйонах цивільних справ, застосовує загальні норми ЦК України замість спеціального Закону "Про охорону прав на сорти рослин", бо reward model ніколи не бачила достатньо прикладів з цієї галузі, щоб відрізнити правильну відповідь від поверхневої.

2.2. Reward hacking на рідкісних категоріях

Коли reward model не має достатньо прикладів для оцінки відповіді з Long Tail категорії, виникає reward hacking — модель знаходить патерни, які отримують високий reward, але не є правильними:

2.3. Колапс різноманітності (Mode Collapse)

RLHF з довгохвостовим розподілом провокує mode collapse:

До RLHF:
  Модель генерує 15 різних стратегій аргументації для морських справ

Після наївного RLHF:
  Модель генерує 2-3 "безпечні" стратегії, які максимізують reward,
  але не враховують специфіку морського права

Це особливо небезпечно для юридичної моделі: у праві немає "усередненої правильної відповіді". Кожна справа унікальна, і втрата різноманітності аргументації означає втрату якості.


3. Вплив на LEX AI: конкретні ризики

3.1. Упередження у пошуку судової практики

Семантичний пошук LEX AI використовує embeddings, навчені переважно на поширених категоріях. Це означає:

3.2. Нерівність доступу до правосуддя

Long Tail створює парадокс: ті, хто найбільше потребує допомоги AI (люди з рідкісними правовими проблемами), отримують найгіршу якість.

Людина з типовим договірним спором отримує точний, детальний аналіз з релевантними прецедентами. Людина з рідкісним спором у сфері екологічного права отримує поверхневу відповідь з нерелевантними аналогіями.

Це суперечить місії LEX AI — демократизації доступу до правової інформації.

3.3. Часова нерівномірність

Окремий вимір Long Tail — часовий:

Приклад: Закон про банкрутство кардинально змінився у 2018 році (Кодекс з процедур банкрутства замінив Закон про відновлення платоспроможності). Рішень за старим законом у корпусі значно більше, і без спеціальної обробки модель може посилатися на скасовані норми.

3.4. Регіональний Long Tail

Розподіл судових рішень по регіонах також нерівномірний:

Модель може некоректно узагальнювати практику столичних судів на регіони з іншою судовою культурою.


4. Стратегії подолання Long Tail при навчанні LEX AI

4.1. Curriculum Learning з адаптивним семплінгом

Замість рівномірного або пропорційного семплінгу під час навчання на GCP, ми впроваджуємо адаптивну стратегію:

Етап 1 (тижні 1-4): Пропорційний семплінг
  → Модель вивчає загальну структуру юридичної мови

Етап 2 (тижні 5-12): Інверсний семплінг (oversampling Long Tail)
  → Рідкісні категорії подаються з множником x10-x50
  → Модель вивчає специфіку кожної категорії

Етап 3 (тижні 13-18): Збалансований семплінг
  → 50% голова + 50% хвіст
  → Модель балансує загальні та спеціальні знання

Етап 4 (тижні 19-24): Fine-tuning по категоріях
  → Окремі LoRA-адаптери для найпроблемніших категорій
  → Routing: класифікатор визначає категорію → активує відповідний адаптер

4.2. Спеціалізовані Reward Models

Замість однієї reward model навчаємо кілька:

Reward Model Спеціалізація Навчальні дані
RM-General Загальна юридична якість Весь корпус
RM-Civil Цивільні та господарські Цивільний + ГК
RM-Criminal Кримінальні КК + КПК
RM-Admin Адміністративні КАС + КАСУ
RM-Rare Рідкісні категорії Oversampled Long Tail
RM-Temporal Часова актуальність Рішення 2020-2026

При генерації відповіді класифікатор визначає категорію та зважує output кількох reward models.

4.3. Synthetic Data Generation для Long Tail

Для категорій з критично малою кількістю прикладів (< 10K рішень) генеруємо синтетичні дані:

  1. Варіації реальних справ: беремо реальне рішення з рідкісної категорії та генеруємо варіації зі зміненими обставинами (інші суми, дати, сторони) при збереженні правової логіки
  2. Переклад з інших юрисдикцій: адаптація прецедентів з подібних правових систем (Польща, Литва, Естонія — також пострадянські, але з більшим корпусом у деяких категоріях)
  3. Експертна валідація: кожен синтетичний приклад перевіряється юристом-спеціалістом у відповідній галузі

Важливе застереження: синтетичні дані не повинні перевищувати 30% від навчального набору для будь-якої категорії, щоб уникнути "замкненого кола" де модель навчається на власних генераціях.

4.4. Calibrated Uncertainty для Long Tail

Модель повинна знати, чого вона не знає. Для цього впроваджуємо калібровану невпевненість:

Запит: "Знайди практику щодо спорів про права на топографії інтегральних мікросхем"

Відповідь без калібрації:
  "За судовою практикою, права на топографії захищаються відповідно до
   ст. 154 ЦК України..." [впевнено, але потенційно неточно]

Відповідь з калібрацією:
  "⚠️ Ця категорія представлена обмежено в навчальних даних (<500 рішень).
   Рівень впевненості: низький.
   Знайдено 12 релевантних рішень. Рекомендується перевірка з
   профільним юристом у сфері інтелектуальної власності.
   Основний закон: ЗУ 'Про охорону прав на топографії інтегральних мікросхем'..."

Це реалізується через:


5. Інфраструктура GCP для роботи з Long Tail

5.1. Архітектура навчання

┌─────────────────────────────────────────────────────────┐
│                    GCP europe-west4                      │
│                                                         │
│  ┌──────────────┐    ┌──────────────┐    ┌───────────┐  │
│  │  Cloud        │    │  Vertex AI   │    │  GCS      │  │
│  │  Storage      │───→│  Training    │───→│  Model    │  │
│  │  (Дані ЄДРСР) │    │  (H100 x8)   │    │  Registry │  │
│  └──────────────┘    └──────┬───────┘    └─────┬─────┘  │
│                             │                   │        │
│  ┌──────────────┐    ┌──────▼───────┐    ┌─────▼─────┐  │
│  │  BigQuery     │    │  RLHF        │    │  Vertex   │  │
│  │  (Аналітика   │    │  Pipeline    │    │  Endpoint │  │
│  │   Long Tail)  │    │  (Ray + vLLM)│    │  (Serving)│  │
│  └──────────────┘    └──────────────┘    └───────────┘  │
│                                                         │
│  ┌──────────────┐    ┌──────────────┐                   │
│  │  Labelbox /   │    │  Monitoring  │                   │
│  │  RLHF Studio  │───→│  (Tail       │                   │
│  │  (Анотація)   │    │   Metrics)   │                   │
│  └──────────────┘    └──────────────┘                   │
└─────────────────────────────────────────────────────────┘

5.2. Моніторинг Long Tail у продакшені

Після деплою моделі критично важливо відстежувати якість по категоріях:

5.3. Бюджет навчання

Оцінка вартості 6-місячного циклу на GCP:

Компонент Конфігурація Вартість/місяць
Training (H100 x8) A3 High, spot instances ~$15,000
RLHF Pipeline A2 Ultra, preemptible ~$8,000
Storage (ЄДРСР + синтетичні) Cloud Storage + BigQuery ~$2,000
Serving (inference) L4 GPU, autoscaling ~$5,000
Annotation (Labelbox) 5 юристів-анотаторів ~$10,000
Разом ~$40,000/міс
6 місяців ~$240,000

6. Метрики успіху

Для оцінки подолання Long Tail проблеми використовуємо:

6.1. Tail Coverage Index (TCI)

TCI = (Середня якість Long Tail категорій) / (Середня якість Head категорій)

Цільове значення: TCI ≥ 0.85
(якість для рідкісних категорій — не менше 85% від якості для поширених)

6.2. Worst-Category Accuracy (WCA)

WCA = min(accuracy_i) для всіх категорій i

Цільове значення: WCA ≥ 0.70
(навіть найгірша категорія має мати accuracy ≥ 70%)

6.3. Calibration Error по категоріях

ECE_tail = |P(correct | confidence=p, category ∈ Tail) - p|

Цільове значення: ECE_tail ≤ 0.10
(впевненість моделі для Long Tail має відповідати реальній точності
 з похибкою не більше 10%)

6.4. Hallucination Rate по категоріях

HR_tail = (Кількість галюцинацій норм у Tail) / (Загальна кількість відповідей у Tail)

Цільове значення: HR_tail ≤ 0.05
(не більше 5% відповідей з Long Tail містять вигадані норми)

7. Етичний вимір Long Tail

7.1. Long Tail як питання справедливості

Проблема Long Tail — це не лише технічне питання. Це питання справедливості:

7.2. Зв'язок з безпекою моделі

Long Tail безпосередньо пов'язаний з проблемами безпеки, описаними у нашій попередній статті:

7.3. Право на якісну AI-допомогу

Ми вважаємо, що кожен користувач має право на якісну AI-допомогу незалежно від поширеності його правової проблеми. Це означає:

  1. Прозорість: модель чесно повідомляє про обмеження своїх знань у конкретній категорії
  2. Рівний мінімум якості: жодна категорія не повинна мати accuracy нижче встановленого порогу
  3. Направлення до експерта: для Long Tail категорій модель активніше рекомендує звернутися до профільного юриста
  4. Постійне вдосконалення: збір даних та зворотного зв'язку для поступового покращення якості в хвості розподілу

Висновок

Long Tail — це не баг, який можна "виправити" одноразово. Це фундаментальна властивість юридичних даних, з якою модель LEX AI повинна навчитися працювати коректно.

Ключові принципи:

  1. Визнання проблеми: Long Tail існує і впливає на якість — це перший крок до вирішення
  2. Адаптивне навчання: oversampling, спеціалізовані reward models, synthetic data — комплекс технік для балансування розподілу
  3. Калібрована невпевненість: модель повинна знати межі своїх знань і чесно комунікувати їх
  4. Етична відповідальність: Long Tail — це питання справедливості, а не лише точності
  5. Безперервний моніторинг: відстеження якості по категоріях у продакшені та оперативне реагування

Якість юридичної AI-моделі вимірюється не середньою точністю, а точністю у найгіршому випадку. Бо саме в найгіршому випадку людина потребує допомоги найбільше.


ТОВ "Лекс ЕйАй", 2026.