Semantic Search
Embeddings multi-idioma con sentence-transformers, búsqueda vectorial HNSW y re-ranking con cross-encoder.
Document Processing
Parsers especializados para Markdown, PDF, HTB writeups, MITRE ATT&CK y exploit-db dumps.
API Integration
REST + gRPC endpoints para integración con Gandalf Gateway, exportación JSON y webhooks custom.
Arquitectura del Motor RAG
Beorn procesa conocimiento ofensivo y lo indexa con embeddings semánticos, permitiendo búsqueda contextual en <50ms con precisión superior a keyword-based search.
🔍 Beorn RAG Engine v1.6.2
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
[Query] técnicas SSRF bypass
[Collections] web, common
[Documents] Searching 4,217 chunks across 892 documents...
⚡ Top Results (semantic similarity)
━━ Result 1 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
📄 Title: SSRF Bypass Techniques (HackTricks)
📊 Score: 0.94 (semantic) | 0.89 (after re-ranking)
🔖 Source: hacktricks/web/ssrf-server-side-request-forgery.md
📅 Indexed: 2025-10-15T08:23:11Z
━ Snippet ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
DNS Rebinding allows bypassing SSRF filters by serving
different IPs on subsequent DNS lookups. First query
returns whitelisted IP, second returns internal target.
Common bypass vectors:
• 127.0.0.1 → 127.1, 0x7f.1, 0177.0.0.1
• IPv6: ::1, ::ffff:127.0.0.1
• URL encoding: %31%32%37.%30.%30.%31
• Redirect chains: external → internal
• DNS rebinding with short TTL (1-2s)
━━ Result 2 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
📄 Title: Cloud Metadata SSRF (PortSwigger)
📊 Score: 0.91 (semantic) | 0.87 (after re-ranking)
🔖 Source: portswigger/server-side-topics/ssrf.md
📅 Indexed: 2025-09-28T14:47:33Z
━ Snippet ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
Cloud providers expose metadata APIs at predictable IPs:
• AWS: http://169.254.169.254/latest/meta-data/
• GCP: http://metadata.google.internal/
• Azure: http://169.254.169.254/metadata/instance
Bypass WAF filters via:
• Alternate encodings: 0xA9FEA9FE (169.254.169.254)
• Short URLs: tinyurl.com/aws-metadata
• CNAME records pointing to metadata IP
━━ Result 3 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
📄 Title: Protocol Handler SSRF (OWASP)
📊 Score: 0.87 (semantic) | 0.84 (after re-ranking)
🔖 Source: owasp/cheatsheets/ssrf-prevention.md
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
✅ Query complete | 3 results in 47ms
Pipeline de Procesamiento
Document Ingestion
Crawlers automáticos monitorizan fuentes configuradas (repos Git, RSS, directorios locales). Detectan cambios vía content hashing (BLAKE3) y disparan pipelines de procesamiento.
src/ingest/crawlers.py
Chunking & Metadata Extraction
Segmentación semántica con RecursiveCharacterTextSplitter (512 tokens, overlap 128). Extracción de metadata (CVE IDs, MITRE ATT&CK TIDs, código embebido) vía regex + NER models.
src/processing/chunker.py
Embedding Generation
Generación de embeddings con all-MiniLM-L6-v2 (384 dims, 14K tokens/s en CPU). Batch processing paralelo + GPU acceleration opcional vía ONNX Runtime. Cache embeddings para dedup.
src/embeddings/generator.py
FAISS Indexing
Construcción de índice HNSW con M=32, efSearch=64 para balance precisión/velocidad. Quantización IVF+PQ para colecciones >1M chunks. Versionado atómico con copy-on-write.
src/index/faiss_builder.py
Colecciones Especializadas
Beorn organiza conocimiento en colecciones temáticas con índices independientes, permitiendo queries multi-collection con ranking agregado.
Web Collection
Writeups de XSS, SSRF, SQLi, CSRF, deserialization y vulnerabilidades web modernas. Incluye payloads, bypasses y exploitation chains.
Binary Collection
Técnicas de buffer overflow, ROP chains, heap exploitation, ret2libc y bypasses de ASLR/DEP. Incluye exploits anotados de exploit-db.
Crypto Collection
Ataques a cifrado débil, padding oracles, timing attacks, weak random generators y key recovery techniques. CryptoHack, CryptoPals included.
AD Collection
Active Directory pentesting: Kerberoasting, NTLM relay, DCSync, GPO abuse, lateral movement y privilege escalation en entornos Windows.
Cloud Collection
AWS, GCP, Azure misconfigurations, IAM privilege escalation, bucket enumeration, serverless exploitation y container escapes (k8s, Docker).
Mobile Collection
Android/iOS reversing, insecure data storage, certificate pinning bypass, IPC exploitation y técnicas de dynamic instrumentation con Frida.
📦 Colecciones Custom
Importa tus propios playbooks, notes de campaigns pasadas o documentación interna. Beorn procesa cualquier formato (Markdown, PDF, DOCX, HTML) y mantiene privacidad total con indexado local.
Especificaciones Técnicas
Optimizado para deployments on-premise con privacidad total. No requiere conexión externa, todos los modelos corren localmente.
Indexing
- ✓ Vector DB: FAISS (Meta AI) con índice HNSW + IVF
- ✓ Embeddings: all-MiniLM-L6-v2 (384 dims, 14K tok/s)
- ✓ Chunk size: 512 tokens, overlap 128 (configurable)
- ✓ Capacity: 10M+ chunks, 45ms p95 query latency
Retrieval
- ✓ Search: Semantic (cosine similarity) + hybrid (BM25)
- ✓ Re-ranking: Cross-encoder (ms-marco-MiniLM)
- ✓ Filters: Metadata (source, date, tags), score threshold
- ✓ Top-K: Configurable (default 5), max 100 results
Processing
- ✓ Formats: Markdown, PDF, HTML, DOCX, TXT, JSON
- ✓ Parsers: Unstructured.io + custom HTB/MITRE parsers
- ✓ NER: CVE IDs, MITRE TIDs, tool names, hostnames
- ✓ Throughput: ~500 docs/min (CPU), 2K+ docs/min (GPU)
Deployment
- ✓ Runtime: Python 3.11+, PyTorch (CPU/CUDA/ROCm)
- ✓ APIs: REST (FastAPI), gRPC, CLI interactivo
- ✓ Storage: 50GB base + ~200MB per 10K documents
- ✓ Backup: Atomic snapshots con versioning Git-style
Contextualiza tus Operaciones con RAG
Accede a la beta privada de Beorn CLI y recibe colecciones pre-cargadas con 50K+ documentos de fuentes curadas (HackTricks, PortSwigger, MITRE, exploit-db).