Статьи об AI в юриспруденции, юридических технологиях, анализе судебных решений, fine-tuning LLM на судебной практике и цифровой трансформации правовой практики.
Follow-up to our tokenizer fertility study. Five experiments across SIB-200, EU Acts (24 languages), and ULP datasets. Tokenizer fertility is domain-invariant (1.63x on news vs 1.60x on legal). Few-shot degradation is task-dependent, not language-intrinsic. Ukrainian costs 20-40% more to tokenize than cognate Slavic languages.
ACADEMIC15 min read (experiments in progress)
#Few-Shot Learning#Tokenizer#Ukrainian NLP#Cross-Lingual#SIB-200#Slavic Languages
Half a billion citation edges extracted from 100.7 million Ukrainian court decisions reveal that judicial citation structure encodes legal domain boundaries without supervision and predicts future legislative importance with near-perfect accuracy (AUC = 0.9984).
Edit-traces from production agentic workflows produce alignment signal that is denser, more outcome-predictive, and distributionally unlike conventional RLHF preference data. 80.7% of edits are substantive rewrites; binary rejection correlates with 78% positive outcomes — the strongest oversight signal.
Ontology-based filtering of human oversight signal predicts downstream outcome quality: sessions classified as full oversight by a formal domain constitution exhibit 3-6x higher rejection rate, concentrating the most informative alignment action.
ACADEMICPDF, 30 pages
#Cybernetics & Systems Analysis#Ontology#OWL 2 DL#Alignment#Formal Methods
Sixty percent of context tokens in current LLM agentic sessions are wasted — redundant re-explanation of decisions already made in prior sessions. The key insight: the memory layer produces alignment data (retrieval-correction signal), not just consumes it.
Tokenizer fertility varies 1.6x across foundation models on Ukrainian legal text, yet this cost-critical dimension is absent from model selection practice. Qwen 3 consumes 60% more tokens than Llama-family; NVIDIA Nemotron Super 3 (120B) outperforms Mistral Large 3 at 1/3 the cost.
ACADEMICPDF, 24 pages
#arXiv preprint#Tokenizer#Ukrainian NLP#Foundation Models#Legal AI
Під попередньою статтею прийшов коментар: "задача змістилася від доступу до практики до управління її неоднорідністю". Точне формулювання. Розбираємо, чому ваги авторитетності у RAG — полмера, що саме додає тренінг власної моделі, і чому в проді потрібні обидва шари.
У нас на проді ~1.5 ТБ ЄДРСР із векторами + ~550 ГБ реєстрів, законодавства, іспанських джерел і EU-Lex. Якщо прогнати це крізь MoE-модель розміру DeepSeek V3, масштабовану до 860B на TPU v5p — що вийде? Розбираємо датасет, архітектуру, ціну прогону і властивості моделі.
ЕГРСР — Единый государственный реестр судебных решений Украины — это по сути вся судебная практика в открытом доступе. Сейчас в проде крутится векторизация последней большой когорты — 33.7M гражданских дел через Voyage AI voyage-3.5. Разбираем пайплайн: чанкинг, параллелизм, checkpoint/resume, прод-инцидент с postgres OOM, и сколько это стоит.
Наш OSINT-продукт SneakyPiper.com делает due diligence для американского бизнеса. Под капотом — 16.7M сущностей OpenSanctions, 31K AI-классифицированных тем с darknet-форумов, живой поток ransomware-жертв и GitHub credential leaks. Разбираем что лежит в проде, с цифрами.
Google Cloud перед выделением GPU задаёт 5 вопросов. Мы разобрали их в 9 ML-компетенций — от LoRA на 70B и continued pre-training DeepSeek-V3 685B до RLHF с конституционным alignment и capacity planning для $200K+ training run. Конкретные примеры из нашего стека.
TECH12 мин
#Machine Learning#LLM#Hiring#RLHF#Fine-tuning#Vertex AI
Конкретные бакеты задач, ждущие контрибьюторов: OpenData-адаптеры, ML-эксперименты, frontend, performance, тесты. Наше единственное "собеседование" — ваш первый pull request. AI-assisted код приветствуется — мы сами ежедневно пишем с Claude Code.
LEX AI открывает платформу как open source. Приглашаем сильных инженеров — AI/ML, backend, data, frontend — подключаться контрибьюторами или присоединяться к команде. Что уже открыто, кого ищем, и как подключиться.
Ваш ноутбук — это не 32 CPU. npm install конкурирует за диск с Docker. TypeScript падает с OOM на большом монорепо, а Playwright не вытягивает параллелизм. Разбираем, как перенести GitHub Actions runners на AWS — от c7g Spot до actions-runner-controller на EKS — и получить 3-5× ускорение сборки без ада на локальной машине.
Harvey витратив $100M+ і 10B токенів на fine-tuning case law моделі з OpenAI. Ми підключили Opus до 100M+ судових рішень ЄДРСР через RAG. Обидва шляхи працюють — але для різних реальностей.
TECH22 хв
#LLM#Fine-tuning#RAG#Claude Opus#Harvey AI#OpenAI#Google#DeepSeek#EDRSR#Legal AI
800+ сессий, 10 000+ сообщений, 1 200+ коммитов, 328 000 строк кода, 40 000+ bash-команд — и ни одного нанятого разработчика. Реальная статистика 50 дней непрерывной работы с Claude Code для построения legal tech платформы.
Как обеспечить, чтобы модель с доступом к 50M+ записей не стала инструментом давления на невиновных? Три закона Азимова адаптированы для юридического AI, сценарии угроз и архитектурные решения.
5 категорий покрывают 90% корпуса ЕРДРСР. Как Long Tail разрушает RLHF, почему модель становится «цивилистом» и какие стратегии преодоления мы внедряем на GCP за $240K/6 мес.
Как статьи 3, 28, 32, 62 Конституции становятся reward-функциями при RLHF-обучении. Презумпция невиновности как hardcoded правило, конституционные коллизии и benchmark из 500+ сценариев.
Три отдельные модели — судья, прокурор, адвокат — с информационной изоляцией воспроизводят состязательность. Инстанционная специализация, дерево результатов и adversarial training на GCP.
30 статей, 9 разделов, открытая лицензия. ТОВ «Лекс ЕйАй» инициирует отраслевой стандарт для LegalTech моделей — от презумпции невиновности до защиты в военное время, с прямой имплементацией в reward model.
3 сервіси, 1 PostgreSQL, спільний Redis, один docker-compose — і ілюзія незалежності. Як розпізнати distributed monolith у власній архітектурі, коли він корисний, і коли настає час справжнього розділення.
Multi-IP импорт, автоматический scheduler, freshness-мониторинг, международная экспансия — инженерия data pipeline для открытых данных. От первого 404 до стабильного обновления 110+ таблиц каждую ночь.
Глибокий аналіз 5 справ Великої Палати ВС та рішень про штрафи ТЦК на основі повних текстів рішень та окремих думок суддів. Знайдено фактичні помилки, пропущені окремі думки суддів Мазура, Погрібного та Ємця, ключовий висновок про пропорційність та неточності щодо складу учасників.
5 параллельных white-hat агентов проверили платформу на соответствие GDPR и OWASP Top 10. Нашли 23 уязвимости — от SQL-инъекций до Google Ads без consent. Исправили 10 критичных за одну сессию. Полная архитектура безопасности: Cloudflare, TLS 1.3, CSP, rate limiting, WebAuthn, E2EE.
ЄДРСР, санкції, патенти, адвокати, судді, законодавство, парламент, реєстри — усі джерела відкритих даних, які зараз працюють на продакшені. Що є, як користуватись, і що буде далі.
Ми зібрали 66 запитів, кожен з яких активує конкретний інструмент платформи — від пошуку судових рішень до перевірки торгових марок. Плюс 20 комплексних запитів, що задіюють 2–3 інструменти одночасно. Усі працюють із мінімальним використанням LLM — максимум точності, мінімум витрат.
56 инструментов вместо 12 вкладок в браузере. Семантический поиск по 45M решений. Полнотекстовый анализ за секунды. Due diligence одним запросом. Не замена юриста — а экзоскелет для его мозга.
Импорт испанских правовых данных из BOE и CENDOJ. Гео-детекция локали. Автоматическая локализация на 4 языка. Новые MCP-инструменты для испанского законодательства.
ECDSA + SHA256 для хеширования. Redis key mismatch между start и verify. QR-код и deep link. Обновление данных ФОП/ООО при каждом логине. 4 фикса за сутки.
11 государственных реестров с data.gov.ua импортированы на платформу: исполнительные производства, должники, нотариусы, банкротство, ЕГРНПА и другие — все доступно юристу через AI-чат.
Мы открыли platform.legal.org.ua — портал для разработчиков, которые хотят интегрировать юридический AI в свои продукты. API-ключи, аналитика использования, документация на 56 инструментов, примеры для Python и TypeScript. MCP SSE, REST, batch — три транспорта на выбор. От регистрации до первого запроса — 5 минут.
126 934 рішень по ст. 407 КК. 26 926 справ по ухиленню від мобілізації. 1 721 постанова касації. Повнотекстовий пошук по 110M+ документів. Тексти законодавства за 2 секунди. Ланцюжки оскаржень. Все в одній платформі.
60 миллионов полных текстов. 283 ГБ на 4 шардах. Кастомный RTF-парсер с depth-tracking для Windows-1251 кириллицы. Двухфазный ETL с idempotent upsert через temp-таблицы. Application-level sharding по doc_id с независимыми backup domains. PostgreSQL shared memory exhaustion и три уровня защиты. Всё на открытых данных ЕГРСР.
Один SDK вместо двух библиотек. IAM вместо API-ключей. Данные в ЕС вместо США. Единый биллинг вместо двух инвойсов. Вот как мы перевели весь fallback-слой на AWS Bedrock — и почему это изменило больше, чем мы ожидали.
LEX AI теперь проверяет контрагентов в Едином реестре должников и верифицирует банки через реестр НБУ — автоматически, в один запрос. 18 реестров вместо 16.
Фронтенд парсил доказательства из текста ответа regex-ами — мобильный Safari зависал на секунду. Мы перенесли извлечение доказательств на бэкенд, добавили SSE-событие evidence, и теперь клиент просто рендерит готовые объекты. Время до первого доказательства: с 2.1с до 0.8с.
Cloud Run с автоскейлингом до нуля. Cloud SQL с автобекапами. Qdrant на выделенной VM. Вся инфраструктура за $280-430/мес с возможностью масштабирования от 10 до 10 000 пользователей без изменений архитектуры.
Верификация адвоката через реестр ЕРАУ за 2 секунды. Онбординг в 3 шага. Запрос консультации с документами из хранилища. Real-time чат между клиентом и адвокатом. Escrow-платёж через Monobank. 10% комиссия платформы. Полный цикл — от «мне нужен адвокат» до оплаченной консультации.
Один токен. Одна команда. 56 юридических AI-инструментов прямо в Claude Desktop. Поиск судебной практики, анализ законодательства, проверка контрагентов — без открытия браузера. Создайте токен в профиле, вставьте команду в терминал, и LEX AI становится расширением вашего рабочего стола.
Мы интегрировали OpenAI и Anthropic с round-robin маршрутизацией. На архитектурной диаграмме это выглядело идеально. В продакшене это едва не убило наш продукт. Один и тот же промпт давал разные результаты в зависимости от провайдера. Дебаггинг 5-шагового агентного цикла? Это не инженерия — это археология. Мы всё вырезали. Захардкодили одного провайдера. Лучшая строка кода за год.
Один endpoint. Три сервиса. 58 MCP-инструментов. Тройной транспорт: stdio для Claude Desktop, HTTP REST для веб-приложений, SSE для стриминга. Каждый tool call проходит 11-шаговый пайплайн с трекингом затрат на каждом этапе. Количество инструментов будет расти. Архитектуре всё равно.
Ключевые слова находят то, что вы уже знаете. Семантический поиск находит то, что вам нужно. Мы разбили 12 украинских кодексов на 5 191 статью, векторизировали каждую через VoyageAI embeddings, и теперь запрос «ответственность за некачественный ремонт» находит статьи, которые не содержат ни одного из этих слов.
AI уверенно цитирует несуществующие статьи и выдумывает номера дел. В юридической сфере это не просто ошибка — это мальпрактис. Мы построили два уровня защиты: HallucinationGuard проверяет каждое утверждение, CitationValidator валидирует каждую ссылку. Нулевая толерантность к выдумкам.
Мы начинали как REST API с 10 эндпоинтами. Сейчас у нас 70 MCP-инструментов через 3 сервиса с тройным транспортом. MCP дал нам то, чего REST не мог: стандартный способ для AI самостоятельно находить и использовать инструменты. AI становится клиентом, а не вами.
Паспорт в смартфоне — теперь ключ к юридическому AI. Мы интегрировали Дiя.Подпись для авторизации: deep link на мобильном, QR-код на десктопе, ECDSA + SHA256 для хеширования, и юрист подтверждает личность тем же приложением, которым показывает документы на блокпосте. Без паролей. Без регистрации. Один тап — и вы в системе.
Юрист хранит договоры в Nextcloud, переписку в Google Drive, а судебную практику ищет в ЕГРСР. Три разные системы, три разных окна, ноль связи между ними. MCP Connect объединяет всё в один интерфейс: AI анализирует ваш договор из Nextcloud, находит релевантную практику из ЕГРСР и проверяет контрагента в реестрах — за один запрос.
AI не заменит юриста. Но юрист в фирме напротив, который использует AI? Вот ваша настоящая конкуренция. Его анализ практики покрывает 300 дел вместо 30. Его due diligence проверяет 16 реестров за 2 секунды. Он не биллит меньше часов — он биллит те же часы за драматически лучший результат.
Вы ищете «возмещение ущерба за затопление квартиры» и не находите дело, где суд пишет о «деликтной ответственности за повреждение имущества вследствие аварии инженерных сетей». Ключевые слова находят слова. Семантический поиск находит значение.
Человек просматривает 30-40 решений за сессию. AI обрабатывает 200-300 в минуту. Но дело не в скорости — дело в полноте. Когда вы видите всю картину, а не фрагмент, стратегические решения становятся качественно другими.
Проверка контрагента: 4 сайта реестров, 30 минут ручной работы, и всё равно можете пропустить исполнительное производство. Или: один запрос, 2 секунды, 18 реестров, полная картина — ЕГРПОУ, учредители, бенефициары, должники, исполнительные производства, банкротство, банки НБУ.
Юристы не могут использовать ChatGPT для клиентских дел — данные попадают на серверы OpenAI. Мы построили платформу, где каждое дело изолировано, каждое действие в аудит-трейле, legal holds блокируют удаление, а GDPR — не галочка, а архитектура.