Статті про AI в юриспруденції, юридичні технології, аналіз судових рішень, fine-tuning LLM на судовій практиці та цифрову трансформацію правничої практики.
Follow-up to our tokenizer fertility study. Five experiments across SIB-200, EU Acts (24 languages), and ULP datasets. Tokenizer fertility is domain-invariant (1.63x on news vs 1.60x on legal). Few-shot degradation is task-dependent, not language-intrinsic. Ukrainian costs 20-40% more to tokenize than cognate Slavic languages.
ACADEMIC15 min read (experiments in progress)
#Few-Shot Learning#Tokenizer#Ukrainian NLP#Cross-Lingual#SIB-200#Slavic Languages
Half a billion citation edges extracted from 100.7 million Ukrainian court decisions reveal that judicial citation structure encodes legal domain boundaries without supervision and predicts future legislative importance with near-perfect accuracy (AUC = 0.9984).
Edit-traces from production agentic workflows produce alignment signal that is denser, more outcome-predictive, and distributionally unlike conventional RLHF preference data. 80.7% of edits are substantive rewrites; binary rejection correlates with 78% positive outcomes — the strongest oversight signal.
Ontology-based filtering of human oversight signal predicts downstream outcome quality: sessions classified as full oversight by a formal domain constitution exhibit 3-6x higher rejection rate, concentrating the most informative alignment action.
ACADEMICPDF, 30 pages
#Cybernetics & Systems Analysis#Ontology#OWL 2 DL#Alignment#Formal Methods
Sixty percent of context tokens in current LLM agentic sessions are wasted — redundant re-explanation of decisions already made in prior sessions. The key insight: the memory layer produces alignment data (retrieval-correction signal), not just consumes it.
Tokenizer fertility varies 1.6x across foundation models on Ukrainian legal text, yet this cost-critical dimension is absent from model selection practice. Qwen 3 consumes 60% more tokens than Llama-family; NVIDIA Nemotron Super 3 (120B) outperforms Mistral Large 3 at 1/3 the cost.
ACADEMICPDF, 24 pages
#arXiv preprint#Tokenizer#Ukrainian NLP#Foundation Models#Legal AI
Під попередньою статтею прийшов коментар: "задача змістилася від доступу до практики до управління її неоднорідністю". Точне формулювання. Розбираємо, чому ваги авторитетності у RAG — полмера, що саме додає тренінг власної моделі, і чому в проді потрібні обидва шари.
У нас на проді ~1.5 ТБ ЄДРСР із векторами + ~550 ГБ реєстрів, законодавства, іспанських джерел і EU-Lex. Якщо прогнати це крізь MoE-модель розміру DeepSeek V3, масштабовану до 860B на TPU v5p — що вийде? Розбираємо датасет, архітектуру, ціну прогону і властивості моделі.
ЄДРСР — вся судова практика України у відкритому доступі. 44M+ векторів у Qdrant, 14.3M цивільних справ уже оброблено з 33.7M. Розбираємо пайплайн: чанкінг, паралелізм, checkpoint/resume, виділений EC2 для Qdrant, і скільки це коштує.
Наш OSINT-продукт SneakyPiper.com робить due diligence для американського бізнесу. Під капотом — 16.7M сущностей OpenSanctions, 31K класифікованих тем із даркнет-форумів, жива стрічка ransomware-жертв і GitHub credential leaks. Розбираємо, звідки що беремо і як це працює у проді.
Google Cloud перед виділенням GPU ставить 5 питань. Ми розібрали їх у 9 ML-компетенцій — від LoRA на 70B і continued pre-training DeepSeek-V3 685B до RLHF із конституційним alignment і capacity planning для $200K+ training run. Конкретні приклади з нашого stack.
TECH12 хв
#Machine Learning#LLM#Hiring#RLHF#Fine-tuning#Vertex AI
Конкретні бакети задач, які чекають контрибʼюторів: OpenData-адаптери, ML-експерименти, frontend, performance, тести. Наш єдиний "інтервʼю" — ваш перший pull request. AI-assisted код вітається — ми самі щодня пишемо з Claude Code.
LEX AI відкриває платформу як open source. Запрошуємо сильних інженерів — AI/ML, backend, data, frontend — долучатися контрибʼюторами або приєднуватися до команди. Що вже відкрито, кого шукаємо, і як долучитися.
Ваш ноутбук не має 32 CPU. npm install конкурує за диск з Docker. TypeScript падає з OOM на великому монорепо, а Playwright не витягує паралелізм. Розбираємо, як перенести GitHub Actions runners на AWS — від c7g Spot до actions-runner-controller на EKS — і отримати 3-5× пришвидшення білду без пекла на локальній машині.
Harvey витратив $100M+ і 10B токенів на fine-tuning case law моделі з OpenAI. Ми підключили Opus до 100M+ судових рішень ЄДРСР через RAG. Обидва шляхи працюють — але для різних реальностей.
TECH22 хв
#LLM#Fine-tuning#RAG#Claude Opus#Harvey AI#OpenAI#Google#DeepSeek#EDRSR#Legal AI
800+ сесій, 10 000+ повідомлень, 1 200+ комітів, 328 000 рядків коду, 40 000+ bash-команд — і жодного найнятого розробника. Реальна статистика 50 днів безперервної роботи з Claude Code для побудови legal tech платформи.
Як забезпечити, щоб модель з доступом до 50M+ записів не стала інструментом тиску на невинних? Три закони Азімова адаптовані до юридичного AI, сценарії загроз та архітектурні рішення.
5 категорій покривають 90% корпусу ЄДРСР. Як Long Tail руйнує RLHF, чому модель стає «цивілістом» і які стратегії подолання ми впроваджуємо на GCP за $240K/6 міс.
Як статті 3, 28, 32, 62 Конституції стають reward-функціями при RLHF-навчанні. Презумпція невинуватості як hardcoded правило, конституційні колізії та benchmark з 500+ сценаріїв.
Три окремі моделі — суддя, прокурор, адвокат — з інформаційною ізоляцією відтворюють змагальність. Інстанційна спеціалізація, дерево результатів та adversarial training на GCP.
30 статей, 9 розділів, відкрита ліцензія. ТОВ «Лекс ЕйАй» ініціює розробку галузевого стандарту для LegalTech моделей — від презумпції невинуватості до захисту у воєнний час, з прямою імплементацією у reward model.
3 сервіси, 1 PostgreSQL, спільний Redis, один docker-compose — і ілюзія незалежності. Як розпізнати distributed monolith у власній архітектурі, коли він корисний, і коли настає час справжнього розділення.
Multi-IP імпорт, автоматичний scheduler, freshness-моніторинг, міжнародна експансія — інженерія data pipeline для відкритих даних. Від першого 404 до стабільного оновлення 110+ таблиць щоночі.
Глибокий аналіз 5 справ Великої Палати ВС та рішень про штрафи ТЦК на основі повних текстів рішень та окремих думок суддів. Знайдено фактичні помилки, пропущені окремі думки суддів Мазура, Погрібного та Ємця, ключовий висновок про пропорційність та неточності щодо складу учасників.
ЄДРСР, санкції, патенти, адвокати, судді, законодавство, парламент, реєстри — усі джерела відкритих даних, які зараз працюють на продакшені. Що є, як користуватись, і що буде далі.
Ми зібрали 66 запитів, кожен з яких активує конкретний інструмент платформи — від пошуку судових рішень до перевірки торгових марок. Плюс 20 комплексних запитів, що задіюють 2–3 інструменти одночасно. Усі працюють із мінімальним використанням LLM — максимум точності, мінімум витрат.
56 інструментів замість 12 вкладок у браузері. Семантичний пошук по 45M рішень. Повнотекстовий аналіз за секунди. Due diligence одним запитом. Не заміна юриста — а екзоскелет для його мозку.
Імпорт іспанських правових даних з BOE та CENDOJ. Гео-детекція локалі. Автоматична локалізація на 4 мови. Нові MCP-інструменти для іспанського законодавства. Від Києва до Мадрида — одна кодова база.
ECDSA + SHA256 для хешування. Redis key mismatch між start та verify. QR-код і deep link. Оновлення даних ФОП/ТОВ при кожному логіні. 4 фікси за добу. Реальна історія інтеграції з Дією — без прикрас.
11 державних реєстрів з data.gov.ua імпортовано на платформу: виконавчі провадження, боржники, нотаріуси, банкрутство, ЄДРНПА та інші — всі доступні юристу через AI-чат.
Ми відкрили platform.legal.org.ua — портал для розробників, які хочуть інтегрувати юридичний AI у свої продукти. API-ключі, аналітика використання, документація на 56 інструментів, приклади для Python і TypeScript. MCP SSE, REST, batch — три транспорти на вибір. Від реєстрації до першого запиту — 5 хвилин.
126 934 рішень по ст. 407 КК. 26 926 справ по ухиленню від мобілізації. 1 721 постанова касації. Повнотекстовий пошук по 110M+ документів. Тексти законодавства за 2 секунди. Ланцюжки оскаржень. Все в одній платформі.
60 мільйонів повних текстів. 283 ГБ на 4 шардах. Кастомний RTF-парсер з depth-tracking для Windows-1251 кирилиці. Двофазний ETL з idempotent upsert через temp-таблиці. Application-level sharding по doc_id з незалежними backup domains. PostgreSQL shared memory exhaustion і три рівні захисту. Все на відкритих даних ЄДРСР.
Один SDK замість двох бібліотек. IAM замість API-ключів. Дані в ЄС замість США. Єдиний білінг замість двох інвойсів. Ось як ми перевели весь fallback-шар на AWS Bedrock — і чому це змінило більше, ніж ми очікували.
LEX AI тепер перевіряє контрагентів у Єдиному реєстрі боржників та верифікує банки через реєстр НБУ — автоматично, в один запит. 18 реєстрів замість 16.
Фронтенд парсив докази з тексту відповіді regex-ами — мобільний Safari зависав на секунду. Ми перенесли витяг доказів на бекенд, додали SSE-подію evidence, і тепер клієнт просто рендерить готові об\
Cloud Run з автоскейлінгом до нуля. Cloud SQL з автобекапами. Qdrant на виділеній VM. Вся інфраструктура за $280–430/міс з можливістю масштабування від 10 до 10 000 користувачів без змін архітектури.
Верифікація адвоката через реєстр ЄРАУ за 2 секунди. Онбордінг у 3 кроки. Запит консультації з документами зі сховища. Real-time чат між клієнтом і адвокатом. Escrow-платіж через Monobank. 10% комісія платформи. Повний цикл — від "мені потрібен адвокат" до оплаченої консультації.
Один токен. Одна команда. 56 юридичних AI-інструментів прямо в Claude Desktop. Пошук судової практики, аналіз законодавства, перевірка контрагентів — без відкриття браузера. Створіть токен у профілі, вставте команду в термінал, і LEX AI стає розширенням вашого робочого столу.
Ми інтегрували OpenAI та Anthropic із round-robin маршрутизацією. На архітектурній діаграмі це виглядало ідеально. У продакшені це ледь не вбило наш продукт. Один і той самий промпт давав різні результати залежно від провайдера. Дебагінг 5-крокового агентного циклу? Це не інженерія — це археологія. Ми все вирізали. Захардкодили одного провайдера. Найкращий рядок коду за рік.
Один endpoint. Три сервіси. 58 MCP-інструментів. Потрійний транспорт: stdio для Claude Desktop, HTTP REST для веб-додатків, SSE для стрімінгу. Кожен tool call проходить 11-кроковий пайплайн з трекінгом витрат на кожному етапі. Кількість інструментів зростатиме. Архітектурі все одно.
Ключові слова знаходять те, що ви вже знаєте. Семантичний пошук знаходить те, що вам потрібно. Ми розбили 12 українських кодексів на 5 191 статтю, векторизували кожну через VoyageAI embeddings, і тепер запит "відповідальність за неякісний ремонт" знаходить статті, які не містять жодного з цих слів.
AI впевнено цитує неіснуючі статті та вигадує номери справ. У юридичній сфері це не просто помилка — це мальпрактіс. Ми побудували два рівні захисту: HallucinationGuard перевіряє кожне твердження, CitationValidator валідує кожне посилання. Нульова толерантність до вигадок.
Ми починали як REST API з 10 ендпоінтами. Зараз у нас 70 MCP-інструментів через 3 сервіси з потрійним транспортом. MCP дав нам те, чого REST не міг: стандартний спосіб для AI самостійно знаходити і використовувати інструменти. AI стає клієнтом, а не вами.
Паспорт у смартфоні — тепер ключ до юридичного AI. Ми інтегрували Дія.Підпис для авторизації: deep link на мобільному, QR-код на десктопі, ECDSA + SHA256 для хешування, і юрист підтверджує особу тим самим додатком, яким показує документи на блокпості. Без паролів. Без реєстрації. Один тап — і ви в системі.
AI не замінить юриста. Але юрист у фірмі навпроти, який використовує AI? Ось ваша справжня конкуренція. Його аналіз практики покриває 300 справ замість 30. Його due diligence перевіряє 16 реєстрів за 2 секунди. Він не білить менше годин — він білить ті самі години за драматично кращий результат.
Ви шукаєте "відшкодування збитків за затоплення квартири" і не знаходите справу, де суд пише про "деліктну відповідальність за пошкодження майна внаслідок аварії інженерних мереж". Ключові слова знаходять слова. Семантичний пошук знаходить значення.
Людина переглядає 30-40 рішень за сесію. AI обробляє 200-300 за хвилину. Але справа не в швидкості — справа в повноті. Коли ви бачите всю картину, а не фрагмент, стратегічні рішення стають якісно іншими.
Перевірка контрагента: 4 сайти реєстрів, 30 хвилин ручної роботи, і все одно можете пропустити виконавче провадження. Або: один запит, 2 секунди, 18 реєстрів, повна картина — ЄДРПОУ, засновники, бенефіціари, боржники, виконавчі провадження, банкрутство, банки НБУ.
Юристи не можуть використовувати ChatGPT для клієнтських справ — дані потрапляють на сервери OpenAI. Ми побудували платформу, де кожна справа ізольована, кожна дія в аудит-трейлі, legal holds блокують видалення, а GDPR — не галочка, а архітектура.