Проблема Long Tail при RLHF-навчанні юридичної моделі
5 категорій покривають 90% корпусу ЄДРСР. Як Long Tail руйнує RLHF, чому модель стає «цивілістом» і які стратегії подолання ми впроваджуємо на GCP за $240K/6 міс.
Проблема Long Tail при RLHF-навчанні юридичної моделі LEX AI
Вступ
При навчанні спеціалізованої юридичної моделі LEX AI на корпусі українських відкритих реєстрів (50M+ судових рішень ЄДРСР, реєстри юридичних осіб, дані НАЗК, парламентські дані) ми зіткнулися з фундаментальною статистичною проблемою — Long Tail distribution (розподіл з довгим хвостом).
Ця стаття описує, як Long Tail впливає на якість RLHF-навчання, які конкретні ризики це створює для юридичної моделі та які архітектурні рішення ми впроваджуємо на інфраструктурі GCP протягом 6-місячного циклу розробки.
1. Що таке Long Tail у контексті юридичних даних
Розподіл з довгим хвостом
У класичному розподілі з довгим хвостом невелика кількість категорій покриває більшість випадків ("голова"), тоді як величезна кількість рідкісних категорій становить незначну частку кожна, але сумарно — значну частину корпусу ("хвіст").
Частота
│
│████
│████
│████████
│████████
│████████████
│████████████████
│████████████████████████
│████████████████████████████████████████████████████████████............
└──────────────────────────────────────────────────────────────────────→
"Голова" "Тіло" "Довгий хвіст"
Цивільні спори, Адмін. справи, Морське право,
кримінальні справи, земельні спори, космічне право,
сімейне право інтел. власність авіаційне право,
права корінних народів
Конкретні цифри з ЄДРСР
Аналіз корпусу ЄДРСР показує характерний Long Tail:
| Категорія | % від корпусу | Кількість рішень |
|---|---|---|
| Цивільні справи (договірні спори) | ~35% | ~17.5M |
| Кримінальні справи | ~20% | ~10M |
| Адміністративні справи | ~15% | ~7.5M |
| Господарські справи | ~12% | ~6M |
| Сімейне право | ~8% | ~4M |
| Земельні спори | ~4% | ~2M |
| Інтелектуальна власність | ~2% | ~1M |
| Банкрутство | ~1.5% | ~750K |
| Морське/транспортне право | ~0.8% | ~400K |
| Виборчі спори | ~0.3% | ~150K |
| Міжнародне приватне право | ~0.15% | ~75K |
| Екологічне право | ~0.1% | ~50K |
| Космічне/авіаційне право | ~0.01% | ~5K |
| Інші рідкісні категорії (сумарно) | ~1.14% | ~570K |
Головний висновок: 5 найпоширеніших категорій покривають 90% корпусу. Решта — десятки категорій, кожна з яких представлена мізерно.
2. Як Long Tail руйнує RLHF
2.1. Проблема переважання: модель стає "цивілістом"
При стандартному RLHF-навчанні reward model навчається переважно на прикладах з "голови" розподілу. Це означає:
- Reward model оптимізується під цивільні та кримінальні справи, оскільки саме ці категорії домінують у навчальних даних
- Human feedback зміщений: анотатори-юристи частіше оцінюють відповіді з поширених категорій, бо краще в них розуміються
- Модель навчається "грати в середнє": генерує безпечні, узагальнені відповіді, які отримують високі reward-оцінки для типових справ, але є поверхневими для рідкісних
Практичний приклад: Користувач запитує про спір щодо прав на селекційне досягнення (рослинний сорт). Модель, натренована на мільйонах цивільних справ, застосовує загальні норми ЦК України замість спеціального Закону "Про охорону прав на сорти рослин", бо reward model ніколи не бачила достатньо прикладів з цієї галузі, щоб відрізнити правильну відповідь від поверхневої.
2.2. Reward hacking на рідкісних категоріях
Коли reward model не має достатньо прикладів для оцінки відповіді з Long Tail категорії, виникає reward hacking — модель знаходить патерни, які отримують високий reward, але не є правильними:
- Формальна впевненість: модель генерує відповідь з високою впевненістю та юридичною термінологією, що "обманює" reward model, але містить фактичні помилки
- Перенос аналогій: модель застосовує логіку з поширених категорій до рідкісних, де вона не працює (наприклад, застосовує строки позовної давності з цивільного права до адміністративних справ)
- Галюцинації норм: модель "вигадує" статті законів або посилається на реальні статті з неправильним змістом, оскільки reward model не має достатньо прикладів для верифікації
2.3. Колапс різноманітності (Mode Collapse)
RLHF з довгохвостовим розподілом провокує mode collapse:
До RLHF:
Модель генерує 15 різних стратегій аргументації для морських справ
Після наївного RLHF:
Модель генерує 2-3 "безпечні" стратегії, які максимізують reward,
але не враховують специфіку морського права
Це особливо небезпечно для юридичної моделі: у праві немає "усередненої правильної відповіді". Кожна справа унікальна, і втрата різноманітності аргументації означає втрату якості.
3. Вплив на LEX AI: конкретні ризики
3.1. Упередження у пошуку судової практики
Семантичний пошук LEX AI використовує embeddings, навчені переважно на поширених категоріях. Це означає:
- При пошуку прецедентів для рідкісної категорії модель повертає схожі за текстом, але нерелевантні за суттю рішення з поширених категорій
- Embedding-простір "стискає" рідкісні категорії в малий регіон, де втрачається розрізнення між підкатегоріями
- Користувач отримує ілюзію повноти пошуку, хоча насправді модель пропускає ключові рішення
3.2. Нерівність доступу до правосуддя
Long Tail створює парадокс: ті, хто найбільше потребує допомоги AI (люди з рідкісними правовими проблемами), отримують найгіршу якість.
Людина з типовим договірним спором отримує точний, детальний аналіз з релевантними прецедентами. Людина з рідкісним спором у сфері екологічного права отримує поверхневу відповідь з нерелевантними аналогіями.
Це суперечить місії LEX AI — демократизації доступу до правової інформації.
3.3. Часова нерівномірність
Окремий вимір Long Tail — часовий:
- Законодавство змінюється, але старі судові рішення залишаються в корпусі
- Рішення за старими редакціями законів кількісно переважають рішення за новими
- Модель може рекомендувати застарілу практику, особливо для категорій з малою кількістю нових рішень
Приклад: Закон про банкрутство кардинально змінився у 2018 році (Кодекс з процедур банкрутства замінив Закон про відновлення платоспроможності). Рішень за старим законом у корпусі значно більше, і без спеціальної обробки модель може посилатися на скасовані норми.
3.4. Регіональний Long Tail
Розподіл судових рішень по регіонах також нерівномірний:
- Київ, Харків, Одеса, Дніпро — домінують у корпусі
- Малі обласні центри та районні суди — значно менше рішень
- Після 2022 року — суди з тимчасово окупованих територій повністю відсутні
Модель може некоректно узагальнювати практику столичних судів на регіони з іншою судовою культурою.
4. Стратегії подолання Long Tail при навчанні LEX AI
4.1. Curriculum Learning з адаптивним семплінгом
Замість рівномірного або пропорційного семплінгу під час навчання на GCP, ми впроваджуємо адаптивну стратегію:
Етап 1 (тижні 1-4): Пропорційний семплінг
→ Модель вивчає загальну структуру юридичної мови
Етап 2 (тижні 5-12): Інверсний семплінг (oversampling Long Tail)
→ Рідкісні категорії подаються з множником x10-x50
→ Модель вивчає специфіку кожної категорії
Етап 3 (тижні 13-18): Збалансований семплінг
→ 50% голова + 50% хвіст
→ Модель балансує загальні та спеціальні знання
Етап 4 (тижні 19-24): Fine-tuning по категоріях
→ Окремі LoRA-адаптери для найпроблемніших категорій
→ Routing: класифікатор визначає категорію → активує відповідний адаптер
4.2. Спеціалізовані Reward Models
Замість однієї reward model навчаємо кілька:
| Reward Model | Спеціалізація | Навчальні дані |
|---|---|---|
| RM-General | Загальна юридична якість | Весь корпус |
| RM-Civil | Цивільні та господарські | Цивільний + ГК |
| RM-Criminal | Кримінальні | КК + КПК |
| RM-Admin | Адміністративні | КАС + КАСУ |
| RM-Rare | Рідкісні категорії | Oversampled Long Tail |
| RM-Temporal | Часова актуальність | Рішення 2020-2026 |
При генерації відповіді класифікатор визначає категорію та зважує output кількох reward models.
4.3. Synthetic Data Generation для Long Tail
Для категорій з критично малою кількістю прикладів (< 10K рішень) генеруємо синтетичні дані:
- Варіації реальних справ: беремо реальне рішення з рідкісної категорії та генеруємо варіації зі зміненими обставинами (інші суми, дати, сторони) при збереженні правової логіки
- Переклад з інших юрисдикцій: адаптація прецедентів з подібних правових систем (Польща, Литва, Естонія — також пострадянські, але з більшим корпусом у деяких категоріях)
- Експертна валідація: кожен синтетичний приклад перевіряється юристом-спеціалістом у відповідній галузі
Важливе застереження: синтетичні дані не повинні перевищувати 30% від навчального набору для будь-якої категорії, щоб уникнути "замкненого кола" де модель навчається на власних генераціях.
4.4. Calibrated Uncertainty для Long Tail
Модель повинна знати, чого вона не знає. Для цього впроваджуємо калібровану невпевненість:
Запит: "Знайди практику щодо спорів про права на топографії інтегральних мікросхем"
Відповідь без калібрації:
"За судовою практикою, права на топографії захищаються відповідно до
ст. 154 ЦК України..." [впевнено, але потенційно неточно]
Відповідь з калібрацією:
"⚠️ Ця категорія представлена обмежено в навчальних даних (<500 рішень).
Рівень впевненості: низький.
Знайдено 12 релевантних рішень. Рекомендується перевірка з
профільним юристом у сфері інтелектуальної власності.
Основний закон: ЗУ 'Про охорону прав на топографії інтегральних мікросхем'..."
Це реалізується через:
- Density estimation в embedding-просторі: якщо запит потрапляє в розріджений регіон — сигнал низької впевненості
- Ensemble disagreement: якщо кілька LoRA-адаптерів дають різні відповіді — сигнал невпевненості
- Frequency-based prior: якщо категорія запиту має < N прикладів у корпусі — автоматичне застереження
5. Інфраструктура GCP для роботи з Long Tail
5.1. Архітектура навчання
┌─────────────────────────────────────────────────────────┐
│ GCP europe-west4 │
│ │
│ ┌──────────────┐ ┌──────────────┐ ┌───────────┐ │
│ │ Cloud │ │ Vertex AI │ │ GCS │ │
│ │ Storage │───→│ Training │───→│ Model │ │
│ │ (Дані ЄДРСР) │ │ (H100 x8) │ │ Registry │ │
│ └──────────────┘ └──────┬───────┘ └─────┬─────┘ │
│ │ │ │
│ ┌──────────────┐ ┌──────▼───────┐ ┌─────▼─────┐ │
│ │ BigQuery │ │ RLHF │ │ Vertex │ │
│ │ (Аналітика │ │ Pipeline │ │ Endpoint │ │
│ │ Long Tail) │ │ (Ray + vLLM)│ │ (Serving)│ │
│ └──────────────┘ └──────────────┘ └───────────┘ │
│ │
│ ┌──────────────┐ ┌──────────────┐ │
│ │ Labelbox / │ │ Monitoring │ │
│ │ RLHF Studio │───→│ (Tail │ │
│ │ (Анотація) │ │ Metrics) │ │
│ └──────────────┘ └──────────────┘ │
└─────────────────────────────────────────────────────────┘
5.2. Моніторинг Long Tail у продакшені
Після деплою моделі критично важливо відстежувати якість по категоріях:
- Per-category accuracy: автоматичне порівняння відповідей моделі з експертними оцінками, розбите по категоріях
- Tail drift detection: якщо якість для Long Tail категорії падає нижче порогу — автоматичний алерт та тригер для донавчання
- User feedback loop: збір зворотного зв'язку від користувачів з категоризацією — дозволяє ідентифікувати нові проблемні категорії
5.3. Бюджет навчання
Оцінка вартості 6-місячного циклу на GCP:
| Компонент | Конфігурація | Вартість/місяць |
|---|---|---|
| Training (H100 x8) | A3 High, spot instances | ~$15,000 |
| RLHF Pipeline | A2 Ultra, preemptible | ~$8,000 |
| Storage (ЄДРСР + синтетичні) | Cloud Storage + BigQuery | ~$2,000 |
| Serving (inference) | L4 GPU, autoscaling | ~$5,000 |
| Annotation (Labelbox) | 5 юристів-анотаторів | ~$10,000 |
| Разом | ~$40,000/міс | |
| 6 місяців | ~$240,000 |
6. Метрики успіху
Для оцінки подолання Long Tail проблеми використовуємо:
6.1. Tail Coverage Index (TCI)
TCI = (Середня якість Long Tail категорій) / (Середня якість Head категорій)
Цільове значення: TCI ≥ 0.85
(якість для рідкісних категорій — не менше 85% від якості для поширених)
6.2. Worst-Category Accuracy (WCA)
WCA = min(accuracy_i) для всіх категорій i
Цільове значення: WCA ≥ 0.70
(навіть найгірша категорія має мати accuracy ≥ 70%)
6.3. Calibration Error по категоріях
ECE_tail = |P(correct | confidence=p, category ∈ Tail) - p|
Цільове значення: ECE_tail ≤ 0.10
(впевненість моделі для Long Tail має відповідати реальній точності
з похибкою не більше 10%)
6.4. Hallucination Rate по категоріях
HR_tail = (Кількість галюцинацій норм у Tail) / (Загальна кількість відповідей у Tail)
Цільове значення: HR_tail ≤ 0.05
(не більше 5% відповідей з Long Tail містять вигадані норми)
7. Етичний вимір Long Tail
7.1. Long Tail як питання справедливості
Проблема Long Tail — це не лише технічне питання. Це питання справедливості:
- Людина з рідкісною правовою проблемою вже перебуває у вразливому становищі — менше юристів спеціалізуються на її питанні, менше прецедентів для аргументації
- Якщо AI-модель додатково погіршує якість обслуговування для таких випадків — це системне посилення нерівності
- Лекс ЕйАй як компанія, місія якої — демократизація доступу до права, не може ігнорувати цю проблему
7.2. Зв'язок з безпекою моделі
Long Tail безпосередньо пов'язаний з проблемами безпеки, описаними у нашій попередній статті:
- Низька впевненість + висока формальність = небезпека: модель, яка впевнено відповідає на питання з категорії, де має мало даних, є більш небезпечною, ніж модель, яка чесно визнає обмеження
- Long Tail у контексті обвинувачення: якщо модель погано розуміє рідкісну категорію права, вона може некоректно класифікувати дії особи як правопорушення, коли насправді діє спеціальна норма
- Презумпція невинуватості та Long Tail: для рідкісних категорій модель повинна бути ще більш обережною з висновками, оскільки має менше підстав для впевненості
7.3. Право на якісну AI-допомогу
Ми вважаємо, що кожен користувач має право на якісну AI-допомогу незалежно від поширеності його правової проблеми. Це означає:
- Прозорість: модель чесно повідомляє про обмеження своїх знань у конкретній категорії
- Рівний мінімум якості: жодна категорія не повинна мати accuracy нижче встановленого порогу
- Направлення до експерта: для Long Tail категорій модель активніше рекомендує звернутися до профільного юриста
- Постійне вдосконалення: збір даних та зворотного зв'язку для поступового покращення якості в хвості розподілу
Висновок
Long Tail — це не баг, який можна "виправити" одноразово. Це фундаментальна властивість юридичних даних, з якою модель LEX AI повинна навчитися працювати коректно.
Ключові принципи:
- Визнання проблеми: Long Tail існує і впливає на якість — це перший крок до вирішення
- Адаптивне навчання: oversampling, спеціалізовані reward models, synthetic data — комплекс технік для балансування розподілу
- Калібрована невпевненість: модель повинна знати межі своїх знань і чесно комунікувати їх
- Етична відповідальність: Long Tail — це питання справедливості, а не лише точності
- Безперервний моніторинг: відстеження якості по категоріях у продакшені та оперативне реагування
Якість юридичної AI-моделі вимірюється не середньою точністю, а точністю у найгіршому випадку. Бо саме в найгіршому випадку людина потребує допомоги найбільше.
ТОВ "Лекс ЕйАй", 2026.