LEX — AI Legal Platform for Law Firms

AI-powered legal analysis platform for law firms and corporate counsel.

Features

Resources

Blog Articles

Technology

Built on AWS (EC2, Bedrock Claude AI, ALB, WAF, S3, ACM, KMS). PostgreSQL, Redis, Qdrant vector database. TypeScript, React, Node.js.

Start free — 50 credits on registration. Sign up

TECH 10 хв

SneakyPiper: 16.7M entities, 31K dark-web subjects, 30+ OSINT джерел у продакшні

Наш OSINT-продукт SneakyPiper.com робить due diligence для американського бізнесу. Під капотом — 16.7M сущностей OpenSanctions, 31K класифікованих тем із даркнет-форумів, жива стрічка ransomware-жертв і GitHub credential leaks. Розбираємо, звідки що беремо і як це працює у проді.

SneakyPiper: 16.7M entities, 31K dark-web subjects, 30+ OSINT джерел у продакшні

SneakyPiper.com — другий продукт нашої компанії після LEX AI. Це AI-powered due diligence та OSINT-платформа для американського бізнесу: санкції, corporate intelligence, моніторинг даркнету, корпоративні реєстри, threat intel. Розбираємо, що конкретно лежить у продакшн-базі і як це працює.


Що таке SneakyPiper

Коли американський бізнес вступає у нову угоду — партнерство, інвестиція, contractor hire, aquisition — виникає стандартний список питань: чи немає компанії у санкційних списках, чи не банкрот її власник, чи не з'являлися її домени/IP у breach databases, чи немає її керівників у Red Notices INTERPOL. У великих корпораціях це роблять спеціалізовані compliance-команди, платячи LexisNexis, Dun & Bradstreet, Thomson Reuters десятки тисяч доларів на рік.

SneakyPiper робить те саме для малого і середнього бізнесу за дрібницю — автоматизовано через агрегацію відкритих даних і AI-аналіз. Платформа зведена на чотирьох шарах:

  1. Live OSINT-запити до 30+ зовнішніх сервісів — OpenSanctions, INTERPOL, HIBP, Dehashed, IntelX, AbuseIPDB, VirusTotal, Companies House, LeakCheck, і далі
  2. Власна агрегована база sanctions/PEP/crime — yente (локальний OpenSanctions instance) із повним catalog
  3. Власний dark-web collector — живий моніторинг tor-форумів, ransomware-сайтів, paste-сервісів, github leak detection
  4. Orchestration layer — класифікація запитів, кешування, AI-brief через інтеграцію з LEX AI

Все це обгорнуто у FastAPI-бекенд (Python 3.11) + React/Vite фронтенд. Деплой на AWS EC2 у Франкфурті.


Що конкретно лежить у продакшн-базі (станом на сьогодні)

Шар 1: OpenSanctions via yente (локальний instance)

Yente — це офіційний самохостабельний API OpenSanctions. Ми крутимо його локально і синхронізуємо щодня. Станом на сьогодні:

Топ-20 датасетів за обсягом:

# Dataset Entities
1 default (all merged) 4,146,759
2 peps (Politically Exposed Persons) 1,791,470
3 enrichers 1,341,668
4 wd_categories (Wikidata) 656,644
5 ext_ru_egrul (Russian Unified State Register) 593,892
6 debarment (World Bank, US SAM etc.) 579,305
7 wd_peps (Wikidata PEPs) 574,984
8 crime (criminal records, wanted) 510,744
9 ann_pep_positions 502,929
10 securities 501,862
11 regulatory 385,412
12 wikidata 360,730
13 ext_gleif (LEI Reference Data) 330,791
14 sanctions (consolidated) 278,647
15 us_sam_exclusions 267,806
16 maritime 264,941
17 br_pep (Brazilian PEPs) 253,827
18 ext_gb_fca_firds (UK Financial Instruments) 215,197
19 ext_eu_esma_firds (EU Financial Instruments) 214,946
20 special_interest 174,829

Серед інших помітних джерел: US OFAC SDN (69,526), US Sanctions (86,910), Ukrainian NSDC Sanctions (60,741), Singapore gov directors (55,144), Polish wanted (53,631), EU Sanctions (38,089), Iranian UANI entities, Israeli MOD terrorists list, Monaco fund freezes, French treasury asset freezes.

У чому сенс локального instance: запит до опублікованого OpenSanctions API обмежений 100 req/sec на API-ключ і тягне 200-400ms латентності. Свій instance — sub-50ms і без rate limits. Також ми отримуємо full-text search із fuzzy-matching.

Шар 2: Dark-web Intelligence Collector

Окремий мікросервіс, що тягне дані з tor-форумів, ransomware-сайтів, github repositories, paste-сервісів. Весь traffic — через Tor SOCKS proxy (для deep-web джерел) і residential proxy pool (для INTERPOL та деяких sanctions sites, які блокують datacenter IPs).

Станом на сьогодні:

Класифікація forum subjects:

Джерела даркнету, які ми моніторимо:

BFD Forum (5,445 пости), Darknet Army (4,662), LockBit 3.0 mirror (3,478), Breach Forums dark (2,193), Orion (1,858), Dark Forums (1,384), Rehub (289), Spear (166), Dragon Force (47), Nitrogen (43), Insomnia (26), Krybit (25+), Genesis (18), RansomEXX (11), DaiXin (21), Rhysida (5), Brain Cipher (9), Scattered Spider, SafePay, FunkSec, Medusa, Anubis — і далі. Більшість — через offline mirrors, бо самі онiоn-сайти часто падають.

Активні crawlers (оновлюються в реальному часі):

Приклад останнього запуску (17 квітня 2026, 14:44 UTC):

forum_classifier   → ok, 7 records added
forum_body_fetcher → ok, 4 records added
forum_monitor      → ok, 1,229 records added
github_leaks       → ok, 240 records added
ransomlook         → ok, 141 records added

Це тільки за остатні 30 хвилин.

Шар 3: Live адаптери до зовнішніх сервісів

15 адаптерів у backend/app/adapters/:

Шар 4: Orchestration i кеш


Як це все живе у проді

Інфраструктура

Deploy pipeline

Self-hosted GitHub Actions runner, CI/CD з 4 кроків:

  1. Lint frontendtsc -b
  2. Build & push backend — Docker image → GHCR (ghcr.io/overthelex/sneakypiper-backend)
  3. Build frontend — Vite production bundle
  4. Deployscp фронт + pull latest image на EC2, docker compose up -d

Plus health check після деплою: frontend response + /api/v1/health на backend. Якщо щось падає — CI fail.

Тег випуску — автоматичний по даті: 2026.04.17, 2026.04.17-1, і далі.

Що НЕ живе на цьому EC2

Це правильний trade-off: compute-heavy речі там, де їм зручно, а presentation-layer — близько до користувачів у Франкфурті.


Ліцензування і авторське право

Усі дані, які ми збираємо і показуємо — відкриті публічні джерела. Жоден з адаптерів не скрейпить платний контент, не обходить paywall, не бреше user-agent'ом про те, що ми не бот. Ми робимо те, що робить будь-який compliance-офіцер у банку вручну — просто швидше і з кращою агрегацією.

OpenSanctions — CC-BY 4.0. INTERPOL Red Notices — публічна база. World Bank Debarment — публічна. NVD/CISA — public domain. Forum posts — публічні на tor-мережі, ми не логiнимось і не обходимо reg-walls.

Наша цінність не в "секретних даних", а в агрегації, swiftness, класифікації і evidence-based scoring.


Чому це все цікаво як open-source контрибьютору

SneakyPiper — частина нашої відкритої екосистеми. Хоча він має свій окремий репозиторій (не в overthelex/secondlayer), патерни там ті ж:

Якщо вам цікаво писати нові адаптери (regulatory registries, національні sanctions lists, sector-specific intel), додавати підтримку нових dark-web джерел, або будувати scoring-алгоритми — пишіть. Ми можемо обговорити, як долучатися напряму до SneakyPiper або через суміжні задачі у LEX AI (деякі адаптери переиспользуются).


Сайт: https://sneakypiper.com Сам продукт: AI-powered due diligence для американського бізнесу Контакт для partnership/contribution: vladimir@legal.org.ua


Наступне: розмова з основниками — навіщо компанії з Києва робити OSINT-продукт для американського ринку, і як ми дійшли до архітектури "30+ adapters + yente + dark-web collector".