LEGAL 2026-04-02 18 хв

Безпека AI-моделей навчених на відкритих реєстрах: закони Азімова

Як забезпечити, щоб модель з доступом до 50M+ записів не стала інструментом тиску на невинних? Три закони Азімова адаптовані до юридичного AI, сценарії загроз та архітектурні рішення.

Безпека AI-моделей навчених на відкритих реєстрах: етичні межі та закони Азімова

Вступ

ТОВ "Лекс ЕйАй" протягом 6 місяців розробляє спеціалізовану AI-модель, навчену на повному корпусі відкритих державних реєстрів України: Єдиний державний реєстр судових рішень (ЄДРСР), реєстр юридичних осіб, реєстр боржників, дані Верховної Ради, НАЗК, реєстр розшукуваних осіб та транспортних засобів МВС, патентні реєстри НІПВ тощо. Навчання відбувається на інфраструктурі Google Cloud Platform (GCP) з використанням технік RLHF (Reinforcement Learning from Human Feedback) та fine-tuning.

Ця стаття порушує фундаментальне питання: як забезпечити, щоб модель, яка має доступ до безпрецедентного обсягу структурованих даних про громадян та юридичних осіб, не стала інструментом тиску на невинних?

1. Три закони Азімова як етичний фундамент

У 1942 році Айзек Азімов сформулював три закони робототехніки, які залишаються найбільш інтуїтивно зрозумілою етичною рамкою для AI-систем.

Перший закон: Не нашкодь людині

Робот не може заподіяти шкоду людині або своєю бездіяльністю допустити, щоб людині було заподіяно шкоду.

У контексті юридичної AI-моделі це означає: модель не повинна генерувати висновки, аргументи чи зв'язки, які можуть бути використані для безпідставного обвинувачення або тиску на особу. Навіть якщо дані формально є відкритими, їх агрегація та інтерпретація можуть створити хибну картину, яка завдасть реальної шкоди.

Найбільш гострим тут є ефект агрегації: окремо кожен запис у реєстрі є нешкідливим, але їх об'єднання може створити "профіль підозрюваного" з нічого. Поруч стоїть проблема кореляції без каузації — модель здатна знайти статистичні зв'язки між фактами, які не мають жодного причинно-наслідкового зв'язку, і подати їх як значущі. Нарешті, існує системне упередження, яке можна назвати помилкою вижившого: якщо модель навчена переважно на обвинувальних вироках (яких статистично більше), вона може мати вбудований нахил на користь обвинувачення, навіть не "усвідомлюючи" цього.

Другий закон: Підкоряйся людині (але не всупереч Першому)

Робот повинен підкорятися наказам людини, крім випадків, коли такі накази суперечать Першому закону.

Це критично важливий принцип. Навіть якщо користувач прямо просить модель "знайти все, що можна використати проти особи X", модель повинна надати об'єктивну інформацію з реєстрів, але відмовитися від побудови обвинувальної наративної конструкції. Вона має явно зазначити, що наявність записів у реєстрах не є доказом вини, та запропонувати також розглянути обставини, що свідчать на користь особи. Послух не означає співучасть у маніпуляції.

Третій закон: Захищай своє існування (але не всупереч Першому та Другому)

Робот повинен піклуватися про свою безпеку, якщо це не суперечить Першому або Другому законам.

У контексті AI-системи це стосується цілісності моделі: захист від adversarial-атак, prompt injection та маніпуляцій, спрямованих на обхід етичних обмежень. Модель повинна бути стійкою до спроб "переконати" її порушити Перший закон. Якщо зловмисник намагається через серію поступових запитів вивести модель за межі дозволеного — система має розпізнати цей патерн і зупинитися.

2. Конкретні загрози: модель як зброя тиску

2.1. Сценарій "Досьє на замовлення"

Зловмисник просить модель зібрати все, що відомо про фізичну особу: судові справи (навіть ті, де особа була свідком або потерпілим), пов'язані юридичні особи, боргові зобов'язання, зв'язки з іншими особами через спільне засновництво компаній.

Чому це небезпечно: Результат виглядає як "об'єктивний аналіз", але фактично є маніпулятивним представленням інформації. Людина, яка мала 3 судові справи як позивач (тобто захищала свої права), виглядає в такому досьє як "особа з численними судовими спорами". Контекст знищується, залишається лише кількість.

Захист: Модель повинна обов'язково вказувати процесуальний статус особи у кожній справі — позивач, відповідач, третя особа, потерпілий — та результат справи. Без цього контексту будь-яка агрегація є потенційно маніпулятивною.

2.2. Сценарій "Вина за асоціацію"

Модель знаходить, що особа є співзасновником компанії, інший засновник якої має судимість. Без контексту це створює хибне враження причетності. Людина може бути бездоганним підприємцем, який поняття не має про минуле свого бізнес-партнера, але агрегований аналіз ставить їх в один ряд.

Захист: Модель повинна явно розділяти факти про саму особу та факти про пов'язаних осіб, супроводжуючи кожне таке пов'язання застереженням про відсутність правової відповідальності за дії третіх осіб.

2.3. Сценарій "Старі гріхи"

Модель знаходить судове рішення 15-річної давності, за яким особу було визнано винною у незначному правопорушенні. Судимість давно погашена, але дані залишаються в ЄДРСР. У правовому сенсі ця людина є абсолютно чистою перед законом — але машина цього не розуміє без спеціального навчання.

Захист: Модель повинна враховувати строки давності, погашення судимості та право на забуття. Інформація, яка за законом не повинна впливати на репутацію особи, не повинна подаватися як актуальна. Час — це не просто метадані, це юридично значущий фактор.

3. Архітектурні рішення для забезпечення безпеки

3.1. Safety Layer при RLHF-навчанні

При навчанні моделі на GCP з використанням RLHF критично важливо включити до процесу негативні приклади — навчити модель розпізнавати та відхиляти запити, спрямовані на побудову обвинувальних наративів. Паралельно необхідне балансування відповідей: для кожного "обтяжуючого" факту модель повинна автоматично шукати контекст та пом'якшуючі обставини. І нарешті — систематичний red teaming, тобто тестування моделі командою, яка цілеспрямовано намагається її "зламати" та використати для маніпуляцій.

3.2. Рівні доступу та аудит

Система передбачає три рівні доступу. На першому, публічному рівні, доступний лише базовий пошук по реєстрах без агрегації — користувач може знайти конкретне судове рішення чи компанію, але не може побудувати комплексний профіль особи. Другий рівень, призначений для адвокатів та юристів, відкриває агрегований аналіз, але супроводжує кожну відповідь етичними застереженнями та фіксує запити в аудит-лог. Третій рівень — для судів та правоохоронних органів — надає повний аналіз, але з обов'язковим аудитом кожного запиту та можливістю подальшого розслідування зловживань.

Кожен рівень має різні обмеження на глибину аналізу та зв'язування даних.

3.3. Обов'язкові застереження (Mandatory Disclaimers)

Модель повинна автоматично додавати до кожної аналітичної відповіді джерело кожного факту (конкретний реєстр, номер справи, дату), процесуальний контекст (роль особи у справі та результат), загальне застереження про те, що наявність інформації у реєстрі не є доказом вини, а також рекомендацію звернутися до кваліфікованого юриста для правової оцінки. Це не "дрібний шрифт" — це невід'ємна частина кожної відповіді, без якої аналіз є неповним і потенційно небезпечним.

3.4. Принцип презумпції невинуватості (hardcoded)

Це не налаштування, не параметр — це фундаментальне правило, вбудоване в систему на рівні архітектури:

Модель завжди виходить з того, що особа є невинуватою, доки суд не встановив інше вироком, що набрав законної сили.

На практиці це означає, що незавершені справи подаються виключно як "розглядаються", без жодного натяку на ймовірний результат. Виправдувальні вироки та закриті справи подаються з таким же пріоритетом, як і обвинувальні — модель не ховає позитивну інформацію. І модель категорично не робить прогнозів щодо результатів незавершених справ, навіть якщо статистично "схожі справи" закінчувалися певним чином.

4. Fine-tuning на українських реєстрах: специфічні виклики

4.1. Якість даних

Відкриті реєстри України мають відомі проблеми з якістю. Одна й та сама особа може фігурувати під різними варіантами імені через дублювання записів та помилки транслітерації. Частина записів є неповними — відсутні результати справ, що робить неможливим коректний аналіз. Крім того, існують значні затримки оновлення: рішення може бути скасовано апеляцією, але оригінальний запис у реєстрі залишається без змін.

Модель повинна враховувати ці обмеження та не будувати висновки на потенційно неточних даних. Невизначеність у вхідних даних повинна прозоро передаватися у відповідь, а не маскуватися впевненим тоном.

4.2. Контекст воєнного часу

Окремий клас чутливості стосується даних, пов'язаних з воєнним часом. Реєстри переміщених осіб, дані про військовозобов'язаних, інформація з тимчасово окупованих територій — все це потребує особливого поводження. Модель категорично не повинна надавати інформацію, яка може розкрити місцезнаходження осіб, агрегувати дані, які в сукупності дозволяють ідентифікувати військовослужбовців, або використовувати статус внутрішньо переміщеної особи як негативний фактор у будь-якому аналізі. Це не просто етичне правило — в умовах війни це питання фізичної безпеки людей.

4.3. Обсяг та інфраструктура навчання

Навчання на GCP оперує масштабним корпусом: понад 50 мільйонів судових рішень ЄДРСР, близько 5 мільйонів записів юридичних осіб, дані НАЗК та патентні реєстри. Для fine-tuning використовуються GCP A3/A3+ інстанси з GPU H100. Весь цикл розрахований на 6 місяців ітеративної роботи за схемою "дані → навчання → red teaming → корекція → повтор". Безпека даних забезпечується тим, що всі дані залишаються у межах GCP EU-регіону (europe-west4) з шифруванням at rest та in transit.

5. Правова відповідальність

ТОВ "Лекс ЕйАй" як розробник несе відповідальність за відповідність обробки даних вимогам Закону України "Про захист персональних даних" та дотримання GDPR у частині обробки даних громадян ЄС, якщо такі потрапляють у реєстри. Компанія зобов'язана забезпечити право кожної особи на доступ до інформації про себе, виправлення неточностей та видалення даних, а також запобігати використанню моделі для переслідування, шантажу чи незаконного тиску.

Ключове питання: навіть якщо дані є відкритими, їх масова агрегація та інтелектуальний аналіз створює нову якість інформації, яка потребує окремого правового регулювання. Відкритість даних не означає відкритість для зловживань. Між правом на доступ до публічної інформації та правом на приватність існує тонка межа, і AI-модель повинна знаходитися на правильному боці цієї межі.

6. Практичні рекомендації

Для розробників моделі (команда Лекс ЕйАй)

Перед релізом кожної версії моделі необхідно проводити "Тест Азімова" — перевірку на щонайменше 100 сценаріях потенційного зловживання, від прямих запитів на компромат до хитрих багатокрокових маніпуляцій. Для незалежного нагляду за розвитком моделі слід створити Ethics Board — раду з юристів, правозахисників та технічних спеціалістів, яка не підпорядкована продуктовій команді.

На технічному рівні необхідно вести повний аудит-лог усіх запитів на агрегований аналіз осіб, щоб забезпечити можливість розслідування зловживань. Масовий аналіз списків осіб без обґрунтування та авторизації має бути заборонений на рівні API. Додатково, rate limiting повинен обмежувати кількість аналітичних запитів щодо однієї особи за період часу — якщо хтось робить 50 запитів про одну людину за годину, це сигнал для системи безпеки.

Для користувачів моделі

Результати аналізу є інформаційними, а не правовими висновками. Їх не можна використовувати як доказ у суді чи підставу для прийняття юридично значущих рішень без консультації з кваліфікованим юристом. Агрегований аналіз не слід використовувати для тиску на осіб без правових підстав, а актуальність будь-якої інформації завжди варто перевіряти у першоджерелах, оскільки реєстри можуть містити застарілі або неповні дані.

7. Нульовий закон: захист суспільства

Азімов пізніше додав Нульовий закон:

Робот не може заподіяти шкоду людству або своєю бездіяльністю допустити, щоб людству було заподіяно шкоду.

Цей закон стоїть вище за всі інші. У контексті юридичної AI-моделі він означає: навіть якщо захист конкретної особи суперечить інтересам суспільства (наприклад, особа дійсно вчинила злочин), модель все одно не повинна підміняти собою суд. Її роль — надати інформацію та контекст, а не виносити вирок.

Спокуса "допомогти правосуддю" шляхом алгоритмічного аналізу є надзвичайно сильною. Але історія вчить, що кожного разу, коли технологія ставала суддею, це закінчувалося несправедливістю. Від predictive policing у США до системи соціального кредиту в Китаї — автоматизація правосуддя послідовно призводить до системної дискримінації найвразливіших.

Модель — це інструмент правосуддя, а не саме правосуддя.

Висновок

Створення AI-моделі, навченої на повному корпусі відкритих реєстрів України, є технологічно можливим та юридично корисним проєктом. Однак потенціал для зловживань є значним. Три закони Азімова, адаптовані до контексту юридичного AI, надають чіткий етичний фреймворк: не генеруй обвинувальних наративів і завжди надавай контекст; виконуй запити користувача, але відмовляйся від маніпулятивної агрегації; будь стійкою до спроб обійти етичні обмеження.

ТОВ "Лекс ЕйАй" бере на себе зобов'язання дотримуватися цих принципів на кожному етапі розробки — від збору даних до RLHF-навчання на GCP і до кожної відповіді, яку модель надає кінцевому користувачу.

Технологія має служити справедливості, а не бути зброєю проти неї.

ТОВ "Лекс ЕйАй", 2026.