LEX — AI Legal Platform for Law Firms

AI-powered legal analysis platform for law firms and corporate counsel.

Features

Resources

Blog Articles

Technology

Built on AWS (EC2, Bedrock Claude AI, ALB, WAF, S3, ACM, KMS). PostgreSQL, Redis, Qdrant vector database. TypeScript, React, Node.js.

Start free — 50 credits on registration. Sign up

TECH 10 мин

SneakyPiper: 16.7M сущностей, 31K тем с darknet-форумов, 30+ OSINT-источников в проде

Наш OSINT-продукт SneakyPiper.com делает due diligence для американского бизнеса. Под капотом — 16.7M сущностей OpenSanctions, 31K AI-классифицированных тем с darknet-форумов, живой поток ransomware-жертв и GitHub credential leaks. Разбираем что лежит в проде, с цифрами.

SneakyPiper: 16.7M сущностей, 31K тем с darknet-форумов, 30+ OSINT-источников в проде

SneakyPiper.com — наш второй продукт после LEX AI. Это AI-powered due diligence и OSINT-платформа для американского бизнеса: санкции, corporate intelligence, мониторинг darknet, корпоративные реестры, threat intel. Разбираем, что конкретно лежит в production-базе и как это работает.


Что такое SneakyPiper

Когда американский бизнес вступает в новую сделку — партнёрство, инвестицию, contractor hire, acquisition — возникает стандартный чек-лист: нет ли компании в санкционных списках, не банкрот ли её владелец, не появлялись ли её домены/IP в breach databases, нет ли её руководителей в Red Notices INTERPOL. В крупных корпорациях этим занимаются специализированные compliance-команды, платя LexisNexis, Dun & Bradstreet, Thomson Reuters десятки тысяч долларов в год.

SneakyPiper делает то же самое для малого и среднего бизнеса за копейки — автоматизированно через агрегацию открытых данных и AI-анализ. Платформа построена на четырёх слоях:

  1. Live OSINT-запросы к 30+ внешним сервисам — OpenSanctions, INTERPOL, HIBP, Dehashed, IntelX, AbuseIPDB, VirusTotal, Companies House, LeakCheck, и дальше
  2. Собственная агрегированная база sanctions/PEP/crime — yente (локальный OpenSanctions instance) с полным catalog
  3. Собственный dark-web collector — живой мониторинг tor-форумов, ransomware-сайтов, paste-сервисов, github leak detection
  4. Orchestration layer — классификация запросов, кэширование, AI-brief через интеграцию с LEX AI

Всё это обёрнуто в FastAPI-бэкенд (Python 3.11) + React/Vite фронтенд. Деплой на AWS EC2 во Франкфурте.


Что конкретно лежит в production-базе (снимок на сегодня)

Слой 1: OpenSanctions через yente (локальный instance)

Yente — официальный self-hostable API OpenSanctions. Мы крутим его локально и синхронизируем ежедневно. На сегодня:

Топ-20 датасетов по объёму:

# Dataset Entities
1 default (all merged) 4,146,759
2 peps (Politically Exposed Persons) 1,791,470
3 enrichers 1,341,668
4 wd_categories (Wikidata) 656,644
5 ext_ru_egrul (Russian Unified State Register) 593,892
6 debarment (World Bank, US SAM etc.) 579,305
7 wd_peps (Wikidata PEPs) 574,984
8 crime (criminal records, wanted) 510,744
9 ann_pep_positions 502,929
10 securities 501,862
11 regulatory 385,412
12 wikidata 360,730
13 ext_gleif (LEI Reference Data) 330,791
14 sanctions (consolidated) 278,647
15 us_sam_exclusions 267,806
16 maritime 264,941
17 br_pep (Brazilian PEPs) 253,827
18 ext_gb_fca_firds (UK Financial Instruments) 215,197
19 ext_eu_esma_firds (EU Financial Instruments) 214,946
20 special_interest 174,829

Другие заметные источники: US OFAC SDN (69,526), US Sanctions (86,910), Ukrainian NSDC Sanctions (60,741), Singapore gov directors (55,144), Polish wanted (53,631), EU Sanctions (38,089), Iranian UANI entities, Israeli MOD terrorists list, Monaco fund freezes, French treasury asset freezes.

Зачем локальный instance: публичный OpenSanctions API — 100 req/sec rate limit и 200–400ms латентности. Свой instance — sub-50ms без лимитов. Плюс полнотекстовый поиск с fuzzy-matching.

Слой 2: Dark-web Intelligence Collector

Отдельный микросервис, тянущий данные с tor-форумов, ransomware-сайтов, github repositories, paste-сервисов. Весь traffic — через Tor SOCKS proxy (для deep-web) и residential proxy pool (для INTERPOL и некоторых sanctions-сайтов, блокирующих datacenter IPs).

На сегодня:

Классификация forum subjects:

Darknet-источники, которые мы мониторим:

BFD Forum (5,445 постов), Darknet Army (4,662), LockBit 3.0 mirror (3,478), Breach Forums dark (2,193), Orion (1,858), Dark Forums (1,384), Rehub (289), Spear (166), Dragon Force (47), Nitrogen (43), Insomnia (26), Krybit (25+), Genesis (18), RansomEXX (11), DaiXin (21), Rhysida (5), Brain Cipher (9), Scattered Spider, SafePay, FunkSec, Medusa, Anubis — и дальше. Большинство — через offline mirrors, потому что сами onion-сайты часто падают.

Активные crawlers (обновляются в реальном времени):

Пример последнего запуска (17 апреля 2026, 14:44 UTC):

forum_classifier   → ok, 7 records added
forum_body_fetcher → ok, 4 records added
forum_monitor      → ok, 1,229 records added
github_leaks       → ok, 240 records added
ransomlook         → ok, 141 records added

Это только за последние 30 минут.

Слой 3: Live-адаптеры к внешним сервисам

15 адаптеров в backend/app/adapters/:

Слой 4: Orchestration и кэш


Как это всё живёт в проде

Инфраструктура

Deploy pipeline

Self-hosted GitHub Actions runner, CI/CD из 4 шагов:

  1. Lint frontendtsc -b
  2. Build & push backend — Docker image → GHCR (ghcr.io/overthelex/sneakypiper-backend)
  3. Build frontend — Vite production bundle
  4. Deployscp фронт + pull latest image на EC2, docker compose up -d

Плюс health check после деплоя: frontend response + /api/v1/health на backend. Если что-то падает — CI fail.

Тег релиза — автоматический по дате: 2026.04.17, 2026.04.17-1, и дальше.

Что НЕ живёт на этом EC2

Это правильный trade-off: compute-heavy вещи там, где им удобно, а presentation-layer — близко к пользователям во Франкфурте.


Лицензирование и авторское право

Все данные, которые мы собираем и показываем — открытые публичные источники. Ни один из адаптеров не скрейпит платный контент, не обходит paywall, не врёт user-agent'ом о том, что мы не бот. Мы делаем то, что делает любой compliance-офицер в банке вручную — просто быстрее и с лучшей агрегацией.

OpenSanctions — CC-BY 4.0. INTERPOL Red Notices — публичная база. World Bank Debarment — публичная. NVD/CISA — public domain. Forum posts — публичные в tor-сети, мы не логинимся и не обходим reg-walls.

Наша ценность не в "секретных данных", а в агрегации, скорости, классификации и evidence-based scoring.


Почему это интересно open-source контрибьютору

SneakyPiper — часть нашей открытой экосистемы. Хотя у него свой отдельный репозиторий (не в overthelex/secondlayer), паттерны там те же:

Если вам интересно писать новые адаптеры (regulatory registries, национальные sanctions lists, sector-specific intel), добавлять поддержку новых dark-web источников, или строить scoring-алгоритмы — пишите. Обсудим, как подключаться напрямую к SneakyPiper или через смежные задачи в LEX AI (некоторые адаптеры переиспользуются).


Сайт: https://sneakypiper.com Сам продукт: AI-powered due diligence для американского бизнеса Контакт для partnership/contribution: vladimir@legal.org.ua


Следующее: разговор с основателями — зачем компании из Киева делать OSINT-продукт для американского рынка, и как мы пришли к архитектуре "30+ adapters + yente + dark-web collector".