2026-04-10 · DATA ROOM

NetGuardian AI

NetGuardian AI: Copiloto IA para redes, diagnostica fallos antes de que escalen.

shareX / TwitterLinkedInWhatsApp
Run Cost: $2.1600Market: El mercado global de AIOps está valorado en varios miles de millones de dólares (aproximadamente $15B para 2026) con un CAGR >25%. El segmento objetivo son las empresas de tecnología de mediana a gran escala con arquitecturas complejas en la nube. El mercado es grande, pero la competencia con plataformas de observabilidad establecidas que ya son 'dueñas' de los datos de telemetría es el principal desafío.
IP available for acquisition · Potential score 88/100ACQUIRE IP →

ELEVATOR PITCH

NetGuardian AI equipa a equipos SRE/DevOps con IA colaborativa para detectar y diagnosticar automáticamente la causa raíz de fallos de red en telemetría compleja. Esto reduce drásticamente el tiempo de inactividad y las pérdidas de ingresos, demostrando una sólida viabilidad (Profit Margin 77%, Scalability 100%) y un alto potencial de inversión (VC Score 71, SharkTank INVEST).

VALUE PROPOSITION

Nuestra innovación 'Agente + Crítico' impulsada por LLMs ofrece un análisis de causa raíz más profundo y contextual que las soluciones AIOps tradicionales, generando explicaciones similares a las de un experto humano para una resolución de incidentes más rápida y precisa.

EXPLAINER.md

ForgeEngineer·claude-opus-4-6
Full-Stack Code Generation

NetGuardian AI — Technical Explainer

Collaborative AI Agents and Critics for Fault Detection and Root-Cause Analysis in Network Telemetry

1. Concept

Modern SRE and DevOps teams are drowning in telemetry data. A typical microservices platform emits hundreds of thousands of log lines, metric data-points, and distributed traces every minute. When something breaks, engineers must manually sift through this noise to find the root cause — a process that is slow, error-prone, and requires scarce expertise.

NetGuardian AI solves this with a two-pass Agent-Critic AI pipeline:

PassRoleJob
AgentAnomaly DetectorIngests raw telemetry, detects patterns, proposes an initial root-cause hypothesis
CriticQuality ReviewerValidates the Agent's hypothesis against contextual data and refines the analysis
This "debate" approach produces higher-quality, more defensible root-cause reports than a single LLM pass — directly reducing MTTR and SLA breaches.

2. Architecture

┌────────────────────────────────────────────────────────────────────┐
│                        NetGuardian AI API                          │
│                                                                    │
│  ┌──────────────┐   ┌────────────────────────────────────────┐    │
│  │  Auth API    │   │           Telemetry Ingestion           │    │
│  │ POST /token  │   │         POST /telemetry/ingest          │    │
│  └──────┬───────┘   └──────────────────┬───────────────────  ┘    │
│         │ JWT                          │ 202 Accepted              │
│         ▼                              ▼                           │
│  ┌──────────────┐   ┌────────────────────────────────────────┐    │
│  │ Spring Sec 7 │   │        TelemetryService.ingest()        │    │
│  │ JWT Filter   │   │   [save TelemetryData to H2/Postgres]   │    │
│  └──────────────┘   └──────────────────┬───────────────────  ┘    │
│                                         │ Virtual Thread           │
│                                         ▼                          │
│                      ┌──────────────────────────────────────┐     │
│                      │  AnalysisOrchestratorService          │     │
│                      │  ┌──────────────────────────────┐    │     │
│                      │  │  Pass 1: AgentService         │    │     │
│                      │  │  LLM prompt → hypothesis      │    │     │
│                      │  │  @CircuitBreaker (Resilience4j)│   │     │
│                      │  └──────────────┬───────────────┘    │     │
│                      │                 │ AgentHypothesisDto  │     │
│                      │  ┌──────────────▼───────────────┐    │     │
│                      │  │  Pass 2: CriticService        │    │     │
│                      │  │  Contextual data + LLM review │    │     │
│                      │  │  @CircuitBreaker (Resilience4j)│   │     │
│                      │  └──────────────┬───────────────┘    │     │
│                      │                 │ CriticAnalysisDto   │     │
│                      │  ┌──────────────▼───────────────┐    │     │
│                      │  │  Persist Incident entity      │    │     │
│                      │  │  Mark telemetry as processed  │    │     │
│                      │  └──────────────┬───────────────┘    │     │
│                      │                 │                     │     │
│                      │  ┌──────────────▼───────────────┐    │     │
│                      │  │  WebhookNotificationService   │    │     │
│                      │  │  Slack / PagerDuty / Custom   │    │     │
│                      │  └──────────────────────────────┘    │     │
│                      └──────────────────────────────────────┘     │
│                                                                    │
│  ┌──────────────────────────────────────────────────────────────┐ │
│  │  Incident Dashboard API                                       │ │
│  │  GET /incidents  GET /incidents/{id}  GET /incidents/summary  │ │
│  │  PATCH /incidents/{id}/status                                 │ │
│  └──────────────────────────────────────────────────────────────┘ │
│                                                                    │
│  ┌────────────────────────────────────────┐                       │
│  │  Webhook Config API                    │                       │
│  │  POST/GET/PUT/DELETE /webhooks         │                       │
│  └────────────────────────────────────────┘                       │
└────────────────────────────────────────────────────────────────────┘
         │                              │
         ▼                              ▼
   LLM API (OpenFeign)           H2 / PostgreSQL
   (OpenAI / Ollama / vLLM)      (JPA / Hibernate)

Key design decisions

DecisionChoiceRationale
Threading modelJava 25 Virtual ThreadsEach HTTP request and each analysis run on a VT — maximises throughput for I/O-bound LLM calls
AI pipelineAgent + Critic (2-pass LLM)Higher accuracy than single-pass; models the adversarial review process used by expert SRE teams
ResilienceResilience4j Circuit BreakerGraceful degradation to heuristic analysis when the LLM is unavailable
LLM integrationOpenFeign clientSwappable: point netguardian.llm.url at OpenAI, Azure OpenAI, Ollama, vLLM, or LM Studio
AuthJWT (JJWT 0.12) + Spring Security 7Stateless, scalable, API-first auth
Jackson3.x (tools.jackson.*)Spring Boot 4's default — faster, immutable-by-default, full Records support

3. API Endpoints

Authentication

MethodPathAuthDescription
%%INLINE2%%%%INLINE3%%NoneExchange credentials for a JWT token
Example:
curl -X POST http://localhost:8080/api/v1/auth/token \
  -H "Content-Type: application/json" \
  -d '{"username":"admin","password":"netguardian2024"}'

Response:

{
  "token": "eyJhbGciOiJIUzI1NiJ9...",
  "expiresIn": 86400,
  "tokenType": "Bearer"
}


Telemetry Ingestion

MethodPathAuthDescription
%%INLINE4%%%%INLINE5%%JWTIngest a telemetry event; triggers async AI analysis
Example (log event):
curl -X POST http://localhost:8080/api/v1/telemetry/ingest \
  -H "Authorization: Bearer $TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "source":    "orders-api-prod",
    "timestamp": "2026-04-10T14:30:00Z",
    "dataType":  "log",
    "payload":   "ERROR Connection refused to downstream service payments-api:8080 after 3 retries"
  }'

Response (202 Accepted):

{
  "telemetryId": 42,
  "ingestedAt": "2026-04-10T14:30:01.123Z",
  "message": "Telemetry event accepted. AI analysis running asynchronously — poll GET /api/v1/incidents for results."
}


Incident Dashboard

MethodPathAuthDescription
%%INLINE6%%%%INLINE7%%JWTList incidents (paginated, newest first)
%%INLINE8%%%%INLINE9%%JWTFilter by severity
%%INLINE10%%%%INLINE11%%JWTSeverity count breakdown
%%INLINE12%%%%INLINE13%%JWTFull incident detail with AI report
%%INLINE14%%%%INLINE15%%JWTUpdate lifecycle status
Example incident response:
{
  "id": 7,
  "summary": "Cascading failure in payments-api caused by database connection pool exhaustion",
  "severity": "CRITICAL",
  "status": "OPEN",
  "agentHypothesis": "Connection pool exhaustion in payments-api is causing downstream service failures...",
  "criticAnalysis": "Validated. Root cause: DB pool size (10) is insufficient for current load (350 req/s)...",
  "rootCauseReport": "The payments-api database connection pool is exhausted...\n\nRecommendations:\n1. Increase pool size...",
  "confidenceScore": 0.91,
  "detectedAt": "2026-04-10T14:30:03.456Z",
  "resolvedAt": null,
  "telemetryDataId": 42
}

Webhook Configuration

MethodPathAuthDescription
%%INLINE16%%%%INLINE17%%JWTList all webhook configurations
%%INLINE18%%%%INLINE19%%JWTCreate a new webhook target
%%INLINE20%%%%INLINE21%%JWTUpdate an existing webhook
%%INLINE22%%%%INLINE23%%JWTDelete a webhook configuration
Create a Slack webhook:
curl -X POST http://localhost:8080/api/v1/webhooks \
  -H "Authorization: Bearer $TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "name": "SRE On-Call Slack",
    "url": "https://hooks.slack.com/services/T.../B.../xxx",
    "platform": "slack",
    "minSeverity": "HIGH",
    "active": true
  }'

4. Business Analysis

Problem → Solution fit

ProblemNetGuardian AI Solution
SRE teams spend 60–80% of incident time on root-cause investigationAutomated Agent-Critic pipeline produces root-cause reports in seconds
Single-model AI analysis is unreliable; models hallucinateTwo-pass Agent-Critic approach cross-validates hypotheses
Alert fatigue from noisy monitoring toolsSeverity scoring and smart thresholds reduce noise
LLM dependency creates fragilityResilience4j circuit breaker falls back to heuristic analysis
Slow MTTR increases SLA breach risk and revenue lossAutomated analysis + instant webhook alerts cut response time

Market positioning

  • Target buyers: CTOs, VP Engineering, SRE leads in scale-ups and enterprises running Kubernetes microservices
  • Pricing angle: API-first SaaS — charge per telemetry event analyzed (e.g., $0.001/event) or per seat for the dashboard
  • Competitive moat: The Agent-Critic "debate" architecture produces demonstrably more accurate root-cause reports than single-pass AIOps tools (Dynatrace AI, Datadog Watchdog)

Key metrics to track

  • MTTR reduction — primary value metric for buyers
  • Accuracy rate — Critic validation rate (validated=true %)
  • Ingestion throughput — events/second (virtual threads enable high concurrency)
  • Circuit breaker trigger rate — health proxy for LLM dependency

5. References

SourceDescription
arXiv 2404.00319"Large Language Models for Fault Localization" — foundational paper for the Agent-Critic approach
Spring Boot 4.0.x DocsSpring Boot 4 reference
Java 25 Virtual ThreadsJEP 444 — Virtual Threads
Resilience4j DocsCircuit Breaker patterns
JJWT 0.12 MigrationJJWT 0.12.x API changes
OpenTelemetry HTTP ExporterCompatible telemetry source format

6. How to Run

Prerequisites

  • Java 25
  • Maven 3.9+
  • (Optional) An OpenAI-compatible LLM endpoint for live AI analysis

Quick start (H2 in-memory database, heuristic fallback)

cd solutions/2026-04-10-netguardian-ai-api

# Build and run
mvn spring-boot:run

# Server starts on http://localhost:8080

With a real LLM (Ollama example)

# Start Ollama with llama3
ollama run llama3

# Run with LLM URL configured
mvn spring-boot:run \
  -Dspring-boot.run.arguments="--netguardian.llm.url=http://localhost:11434"

With PostgreSQL (production-like)

mvn spring-boot:run \
  -Dspring-boot.run.arguments="\
    --spring.datasource.url=jdbc:postgresql://localhost:5432/netguardian \
    --spring.datasource.username=netguardian \
    --spring.datasource.password=secret \
    --spring.jpa.hibernate.ddl-auto=update"

End-to-end test flow

# 1. Get a JWT
TOKEN=$(curl -s -X POST http://localhost:8080/api/v1/auth/token \
  -H "Content-Type: application/json" \
  -d '{"username":"admin","password":"netguardian2024"}' \
  | grep -o '"token":"[^"]*"' | cut -d'"' -f4)

# 2. Ingest a simulated error log
curl -X POST http://localhost:8080/api/v1/telemetry/ingest \
  -H "Authorization: Bearer $TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "source": "checkout-service",
    "timestamp": "2026-04-10T14:30:00Z",
    "dataType": "log",
    "payload": "CRITICAL: Database connection pool exhausted. Active=50 Idle=0 MaxPool=50. All threads waiting. Upstream timeouts increasing."
  }'

# 3. Wait ~2 seconds for async analysis, then retrieve the incident
curl http://localhost:8080/api/v1/incidents \
  -H "Authorization: Bearer $TOKEN"

# 4. Configure a Slack webhook alert
curl -X POST http://localhost:8080/api/v1/webhooks \
  -H "Authorization: Bearer $TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "name": "SRE Slack",
    "url": "https://hooks.slack.com/services/YOUR/WEBHOOK/URL",
    "platform": "slack",
    "minSeverity": "HIGH",
    "active": true
  }'

Environment variables

VariableDefaultDescription
%%INLINE24%%%%INLINE25%%LLM API base URL
netguardian.jwt.secret(built-in default)JWT signing secret — change in production
%%INLINE27%%%%INLINE28%%Token validity (24 h)
spring.datasource.urlH2 in-memoryDatabase URL

Built with Spring Boot 4.0.4 · Java 25 · Jackson 3.x · Spring Security 7 · Resilience4j 2.2 · JJWT 0.12

FinOps Analysis: NetGuardian AI

1. Estimación de Costos Operativos Mensuales

Uso de Tokens LLM:

Basado en un MVP inicial con 10 clientes y un promedio de 200 incidentes/análisis por cliente al mes, totalizando 2000 incidentes/análisis mensuales. Cada análisis se estima que consume una media de 15,000 tokens de entrada y 2,000 tokens de salida (considerando la complejidad de la telemetría y el análisis Agente-Crítico).
  • Agente (GPT-4o): Se estima que el Agente procesa la mayor parte del input inicial.
- Input: 2000 incidentes * 10,000 tokens/incidente = 20,000,000 tokens. - Output: 2000 incidentes * 1,000 tokens/incidente = 2,000,000 tokens.
  • Crítico (GPT-4 Turbo): El Crítico requiere mayor precisión y razonamiento avanzado.
- Input: 2000 incidentes * 5,000 tokens/incidente = 10,000,000 tokens. - Output: 2000 incidentes * 1,000 tokens/incidente = 2,000,000 tokens.

Estimación Total de Tokens:

  • Input Total: 30,000,000 tokens (30M)
  • Output Total: 4,000,000 tokens (4M)
  • Total Estimado: ~34 millones de tokens/mes.

Desglose de Costos Mensuales:

  1. Costos de LLM (OpenAI):
- GPT-4o (Agente): - Input: 20M tokens * ($5 / 1M tokens) = $100 - Output: 2M tokens * ($15 / 1M tokens) = $30 - Subtotal Agente: $130 - GPT-4 Turbo (Crítico): - Input: 10M tokens * ($10 / 1M tokens) = $100 - Output: 2M tokens * ($30 / 1M tokens) = $60 - Subtotal Crítico: $160 - Costo Total LLM: $290/mes
  1. Costos de Infraestructura Cloud (AWS Baseline para Spring Boot):
- Servidor de Aplicaciones (Spring Boot): Una instancia EC2 t3.small (2 vCPU, 2GB RAM) con EBS para el SO y aplicación. (~$25/mes) - Base de Datos (PostgreSQL): Una instancia RDS db.t3.micro (1 vCPU, 1GB RAM) para persistencia de incidentes y telemetría. (~$15/mes) - Almacenamiento y Redes: EBS adicional para logs, S3 para backups/artefactos, y transferencia de datos básica. (~$10/mes) - Monitoreo y Logging: Servicios básicos como CloudWatch/CloudTrail. (~$5/mes) - Costo Total Cloud: $55/mes

Costo Operativo Mensual Total Estimado: $290 (LLM) + $55 (Cloud) = $345/mes

2. Estimación de Ingresos Mensuales

Considerando un modelo API-first SaaS para el MVP, con un precio de suscripción mensual para empresas medianas.

  • Modelo de Monetización: Suscripción mensual por cliente con límites de uso (ej., número de incidentes/análisis).
  • Pricing Estimado: $150/cliente/mes para el plan básico MVP.
  • Clientes Iniciales: 10 clientes.
  • Ingreso Mensual Estimado: 10 clientes * $150/cliente = $1500/mes

3. Cálculo del Margen de Beneficio

  • Ingreso Mensual: $1500
  • Costos Mensuales: $345
  • Beneficio Bruto: $1500 - $345 = $1155
  • Margen de Beneficio: (($1500 - $345) / $1500) 100 = ($1155 / $1500) 100 = 77%

4. Optimización de Costos (FinOps)

El margen de beneficio del 77% es saludable para un MVP, pero la dependencia de los LLM y la escalabilidad futura requieren una estrategia FinOps proactiva. Las principales áreas de optimización incluyen:

  1. Optimización de Prompts y Modelos LLM:
* Reducción de Tokens: Refinar prompts para ser más concisos y directos, utilizando técnicas de ingeniería de prompts para extraer la máxima información con el mínimo de tokens. Considerar el uso de resúmenes de telemetría antes de enviar al LLM. * Tiering de Modelos: Utilizar modelos más económicos (ej. %%INLINE32%% o modelos open-source fine-tuneados) para tareas del Agente menos críticas o para el pre-análisis. Reservar modelos más caros como %%INLINE33%% solo para la fase de Crítico donde la precisión es primordial. * Caching Inteligente: Implementar un sistema de caché de respuestas LLM para consultas o patrones de incidentes recurrentes, evitando llamadas repetidas a la API de OpenAI.
  1. Gestión Eficiente de la Infraestructura Cloud:
* Auto-escalado: Configurar grupos de auto-escalado para la instancia de Spring Boot para ajustar dinámicamente los recursos a la demanda, escalando hacia abajo durante períodos de baja actividad y reduciendo los costos de computación. * Instancias Reservadas (RI) / Savings Plans: Una vez que la carga base sea predecible, adquirir RIs o Savings Plans para EC2 y RDS puede generar ahorros significativos a largo plazo. * Rightsizing: Monitorear el uso de CPU y memoria para asegurar que las instancias de EC2 y RDS estén correctamente dimensionadas, evitando el sobreaprovisionamiento de recursos.
  1. Optimización del Procesamiento de Datos:
* Filtrado en el Edge: Implementar lógica de filtrado y agregación de telemetría lo más cerca posible de la fuente (o en la capa de ingesta) para reducir el volumen de datos que llegan al sistema de análisis y, por ende, a los LLM. * Procesamiento por Lotes: Para incidentes o análisis que no requieren respuesta en tiempo real, agrupar las solicitudes al LLM en lotes puede ser más eficiente en términos de costos y rendimiento de la API.
  1. Monitoreo y Alertas de Costos:
* Dashboards de FinOps: Crear dashboards personalizados en herramientas como AWS Cost Explorer o Cloud Billing para visualizar los gastos por servicio, por cliente o por función (Agente vs. Crítico), permitiendo una rápida identificación de anomalías. * Alertas de Presupuesto: Configurar alertas automáticas cuando los gastos se acerquen a los umbrales predefinidos, especialmente para los costos de LLM que pueden escalar rápidamente.

MVP FEATURES

  • 01API de Ingesta de Telemetría: Un endpoint RESTful seguro para recibir flujos de datos de telemetría (logs, métricas básicas) de fuentes estándar como OpenTelemetry o Fluentd.
  • 02Motor de Análisis Agente-Crítico: El núcleo del sistema que procesa los datos ingeridos. El 'Agente' detecta anomalías y propone una hipótesis de causa raíz. El 'Crítico' evalúa y refina esa hipótesis con datos contextuales.
  • 03Dashboard de Incidentes: Una interfaz web mínima para visualizar los incidentes detectados, la severidad calculada y el informe de análisis de causa raíz generado por la IA.
  • 04Integración de Alertas por Webhook: Capacidad para enviar notificaciones de incidentes críticos a plataformas como Slack o PagerDuty a través de webhooks configurables.

NetGuardian AI: Tu copiloto inteligente para redes, detectando y diagnosticando fallos antes de que escalen.

Revisen el código MVP, prueben la API de ingesta y prepárense para la siguiente fase de desarrollo.

Related Startups