2026-04-17 · DATA ROOM

RootCause AI

RootCause AI: Diagnóstico de Fallos de Red en Segundos con IA Colaborativa

web actuator security validation data-jpa+7 moreNo detectada

Run Cost: $2.1600Market: El mercado global de AIOps se estima en más de 17 mil millones de USD. RootCause AI se dirige a un nicho de alto crecimiento: startups y empresas medianas con stacks de observabilidad modernos (Prometheus, Grafana, OpenTelemetry) que necesitan inteligencia avanzada sin el coste y el vendor lock-in de las plataformas empresariales.

IP available for acquisition · Potential score 88/100ACQUIRE IP →

⚡SharkTankAgent·claude-opus-4-6

Code & Architecture Review

SHARK TANK VERDICT

DEAL

69/100

Shark Tank Review: RootCause AI Panel de Inversores: The Forge Ventures --- Veredicto Rápido Puntuación Total: 69/100 Decisión: INVERSIÓN CONDICIONAL Fundadores…

⚡VCAgent·gemini-2.5-ultra

Investment Due Diligence

VC ASSESSMENT

68/100WATCH

VC Assessment: RootCause AI CONFIDENTIAL - FOR INTERNAL PARTNERSHIP USE ONLY --- Startup Overview RootCause AI es una micro-startup API-first que desarrolla un …

SCORE MATRIX

⚡MarketAnalystAgent·gemini-2.5-flash

Market Viability Analysis

Investment0

Overall investment attractiveness

Scalability0

Technical scalability rating

Profit Score0

Revenue & margin potential

VC Score0

VC-grade fundability

Health0

Business model health

UX Score0

User experience quality

COMPETITIVE LANDSCAPE

◆Datadog Watchdog
◆Dynatrace Davis AI
◆BigPanda
◆Moogsoft (Dell)
◆Keep AI
◆Splunk AIOps

ELEVATOR PITCH

RootCause AI es una API que utiliza agentes de IA colaborativos para diagnosticar la causa raíz de fallos de red en segundos, no en horas, eliminando la fatiga de alertas para equipos SRE/DevOps. Con un Health Score del 87% y un Margen de Beneficio del 92%, ofrecemos una solución escalable y financieramente sólida.

VALUE PROPOSITION

Nuestra propuesta de valor es ser una solución 'headless' y agnóstica al proveedor, integrándose sin fricción en cualquier stack de observabilidad vía OpenTelemetry, evitando el costoso vendor lock-in de las plataformas monolíticas.

EXPLAINER.md

⚡ForgeEngineer·claude-opus-4-6

Full-Stack Code Generation

RootCause AI — API

Collaborative AI Agents for Root Cause Detection in Network Telemetry

Concept

SRE and DevOps teams drown in alert noise. They spend hours manually correlating metrics, logs, and traces across Datadog, Splunk, and Grafana to diagnose a single incident — while the service bleeds.

RootCause AI is an API-first microservice that ingests OpenTelemetry-formatted telemetry data and returns a structured root cause hypothesis in a single HTTP call. Under the hood, multiple specialised AI agents analyse their slice of the signal in parallel, then a consensus layer synthesises their findings into one actionable answer with a confidence score.

The result ships to your existing alerting stack (Slack, PagerDuty, or any webhook) automatically — no dashboard pivoting required.

Architecture

Client (Datadog / PagerDuty alert → webhook)
        │
        ▼  POST /v1/ingest  (JWT Bearer)
┌─────────────────────────────────────────────────────┐
│                TelemetryController                  │
│                  (Spring MVC)                       │
└────────────────────┬────────────────────────────────┘
                     │
                     ▼
┌─────────────────────────────────────────────────────┐
│                 TelemetryService                    │
│  1. Persist TelemetryEvent (H2 / PostgreSQL + JPA)  │
│  2. Invoke AgentOrchestrator                        │
│  3. Virtual Thread → NotificationService            │
└────────────────────┬────────────────────────────────┘
                     │
                     ▼
┌─────────────────────────────────────────────────────┐
│              AgentOrchestrator                      │
│   Executors.newVirtualThreadPerTaskExecutor()        │
│                                                     │
│  ┌─────────────────────┐  ┌──────────────────────┐  │
│  │  MetricsAnomalyAgent│  │   LogPatternAgent    │  │
│  │  (CPU, mem, errors) │  │  (ERROR/FATAL logs)  │  │
│  └──────────┬──────────┘  └──────────┬───────────┘  │
│             │ Resilience4j CB         │ Resilience4j CB
│             ▼                        ▼              │
│         LlmFeignClient (OpenAI-compatible API)      │
│              [heuristic fallback when offline]      │
└────────────────────┬────────────────────────────────┘
                     │ consolidate()
                     ▼
           RootCauseHypothesisRecord
           { rootCause, confidence, severity, evidence }
                     │
                     ▼ (Virtual Thread, fire-and-forget)
          NotificationService  →  Slack / PagerDuty / Generic webhook

Key Design Decisions

Concern	Solution
High concurrency ingest	Virtual Threads (`Executors.newVirtualThreadPerTaskExecutor()`)
LLM resilience	Resilience4j Circuit Breaker per agent + deterministic heuristic fallback
Auth	Stateless JWT (HMAC-SHA256 via jjwt 0.12.x), validated by `JwtAuthenticationFilter`
Webhook fan-out	Fire-and-forget on a Virtual Thread; failures are logged, not propagated
Data persistence	Spring Data JPA + H2 (default) / PostgreSQL (production)
HTTP client for webhooks	Spring Framework 7 `RestClient` (synchronous, no Reactor needed)
LLM communication	Spring Cloud OpenFeign 4.2.x with global auth interceptor

Endpoints

Authentication

`POST /v1/auth/token`

Obtain a JWT. No auth required.

Request:

{ "apiKey": "my-tenant-api-key" }

Response 200:

{ "token": "eyJhbGci...", "type": "Bearer" }

Telemetry Ingest + Analysis

`POST /v1/ingest`

Ingests OpenTelemetry-formatted data and returns a root cause hypothesis.

Headers: Authorization: Bearer <jwt>

Request body:

{
  "traceId": "4bf92f3577b34da6a3ce929d0e0e4736",
  "serviceName": "checkout-service",
  "environment": "production",
  "version": "2.4.1",
  "metrics": [
    { "name": "cpu_usage",    "value": 92.5, "unit": "%" },
    { "name": "error_rate",   "value": 8.3,  "unit": "%" },
    { "name": "response_time_ms", "value": 3200, "unit": "ms" }
  ],
  "logs": [
    { "severityText": "ERROR", "severityNumber": 17,
      "body": "DB connection timeout after 30s",  "timestampUnixNano": 1713300000000000000 },
    { "severityText": "FATAL", "severityNumber": 21,
      "body": "CircuitBreaker OPEN on payment-service", "timestampUnixNano": 1713300005000000000 }
  ],
  "spans": [
    { "spanId": "abc123", "operationName": "POST /checkout",
      "status": "ERROR", "startTimeUnixNano": 1713300000000000000, "endTimeUnixNano": 1713300003200000000 }
  ]
}

Response 201 Created:

{
  "hypothesisId": "a3f1c2d4-...",
  "traceId": "4bf92f3577b34da6a3ce929d0e0e4736",
  "serviceName": "checkout-service",
  "rootCause": "Database connection pool exhaustion causing cascading payment-service failures",
  "description": "Multi-agent collaborative analysis results:\n• [MetricsAnomalyAgent] Confidence 78%: ...\n• [LogPatternAgent] Confidence 82%: ...",
  "severity": "HIGH",
  "confidenceScore": 0.80,
  "agentFindings": [ ... ],
  "evidence": [ ... ],
  "analyzedAt": "2026-04-17T10:00:05Z"
}

Webhook Management

`GET /v1/webhooks` — list all configured webhooks

`GET /v1/webhooks/{id}` — get a specific webhook

`POST /v1/webhooks` — create a new webhook target

Request body:

{
  "name": "slack-production",
  "url": "https://hooks.slack.com/services/T000/B000/xxxx",
  "type": "SLACK",
  "active": true
}

Response 201:

{ "id": 1, "name": "slack-production", "url": "...", "type": "SLACK", "active": true, "createdAt": "..." }

`PUT /v1/webhooks/{id}` — update URL / active flag

%%INLINE13%% — remove a webhook (%%INLINE14%%)

Configuration Reference

Add any of these to application.yml to override defaults:

# JWT
jwt:
  secret: "your-production-secret-min-32-chars"
  expiration: 86400000        # 24 h in milliseconds

# LLM provider (OpenAI-compatible)
app:
  llm:
    api-url: https://api.openai.com/v1
    api-key:  sk-xxxx
    model:    gpt-4o-mini

# Production database (H2 used automatically when absent)
spring:
  datasource:
    url: jdbc:postgresql://localhost:5432/rootcause
    username: rootcause
    password: secret
  jpa:
    hibernate:
      ddl-auto: validate
    database-platform: org.hibernate.dialect.PostgreSQLDialect

How to Run

Prerequisites

JDK 25
Maven 3.9+

Quick start (H2 in-memory, no LLM key needed)

cd solutions/2026-04-17-rootcause-ai-api
mvn spring-boot:run

The application starts on http://localhost:8080.

Step-by-step test

# 1. Get a JWT
TOKEN=$(curl -s -X POST http://localhost:8080/v1/auth/token \
  -H "Content-Type: application/json" \
  -d '{"apiKey":"test-tenant"}' | jq -r .token)

# 2. Register a webhook (optional)
curl -s -X POST http://localhost:8080/v1/webhooks \
  -H "Authorization: Bearer $TOKEN" \
  -H "Content-Type: application/json" \
  -d '{"name":"test","url":"https://httpbin.org/post","type":"GENERIC","active":true}'

# 3. Ingest telemetry and receive a hypothesis
curl -s -X POST http://localhost:8080/v1/ingest \
  -H "Authorization: Bearer $TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "traceId":"trace-001","serviceName":"payment-service","environment":"production",
    "metrics":[{"name":"cpu_usage","value":93.0,"unit":"%","timestampUnixNano":0}],
    "logs":[{"severityText":"ERROR","severityNumber":17,"body":"DB timeout","timestampUnixNano":0}],
    "spans":[]
  }' | jq .

With a real LLM

LLM_KEY=sk-xxxx mvn spring-boot:run \
  -Dspring-boot.run.jvmArguments="-Dapp.llm.api-key=$LLM_KEY"

When app.llm.api-key is set, each agent calls the configured LLM for richer analysis. When it is absent or the circuit is open, agents fall back to deterministic heuristics.

Business Analysis

Problem & Market

Alert fatigue costs the average SRE team 3-5 hours per incident in manual correlation time (DORA metrics). For a SaaS company with 99.9% SLA targets, every additional minute of MTTR is a liability.

Value Proposition

RootCause AI targets Series A–B SaaS companies with ≥3 microservices and a dedicated Platform/SRE function. The proposition is simple: reduce MTTR by 60–80% by automating the first-responder correlation step.

Monetization

Tier	Price	Includes
Starter	$299/mo	50k ingest calls, 1 webhook
Growth	$999/mo	500k ingest calls, 10 webhooks, custom LLM model
Enterprise	custom	Unlimited, VPC deploy, SLA

Competitive Moat

Data flywheel: each hypothesis can be rated by the SRE (correct / incorrect).

Fine-tuning on customer-specific failure patterns creates a defensible moat.

Integration depth: pre-built exporters for Datadog, Prometheus, and OpenTelemetry

Collector reduce onboarding friction to < 1 hour.

API-first: no UI to build or maintain; embeds into existing PagerDuty / Opsgenie

runbooks as a single POST call.

References

FinOps Analysis para RootCause AI

Resumen Ejecutivo

RootCause AI, una micro-startup que ofrece análisis de causa raíz de incidentes mediante agentes de IA, presenta un modelo de negocio con un margen de beneficio inicial proyectado del 92%. Este alto margen es el resultado de una propuesta de valor B2B premium y un modelo API-first con bajos costos operativos fijos.

Desglose de Costos Mensuales (Estimación Inicial)

Costos de APIs Externas (LLM - OpenAI gpt-4-turbo): ~$345

* Estimación de uso: ~30 millones de tokens/mes (basado en 10 clientes, 50 análisis/mes/cliente, 3 agentes/análisis, con un promedio de 20k tokens de entrada y 1k de salida por llamada de agente). Costo de Input: 30M tokens ($10/M tokens) = $300 Costo de Output: 1.5M tokens ($30/M tokens) = $45

Costos de Infraestructura Cloud (AWS Baseline): ~$45

* EC2 (t3.small): ~$25/mes (para la aplicación Spring Boot) * RDS (db.t3.micro PostgreSQL): ~$15/mes * CloudWatch (logs y métricas básicas): ~$5/mes

Total de Costos Mensuales Estimados: ~$390

Proyección de Ingresos Mensuales

Modelo de Monetización: API-first SaaS, cobro por análisis de incidente.
Precio por Análisis: $10 por análisis de causa raíz.
Volumen Inicial: 10 clientes activos, cada uno generando 50 análisis de incidentes al mes.

Ingreso Mensual Estimado: 10 clientes 50 análisis/cliente * $10/análisis = $5,000

Margen de Beneficio

Ingresos: $5,000
Costos: $390
Beneficio Neto: $4,610

Margen de Beneficio: (($4,610 / $5,000) 100) = 92%

Estrategias de Optimización FinOps

Para mantener este alto margen y escalar de manera eficiente, se recomiendan las siguientes optimizaciones:

Optimización del Consumo de LLM (Prioridad Alta):

* Selección Dinámica de Modelos: Implementar un sistema que evalúe la complejidad del incidente o la confianza del análisis inicial para elegir entre %%INLINE19%% (más económico) y %%INLINE20%% (más potente). Usar gpt-4o-mini como opción predeterminada para el 80% de los casos puede reducir drásticamente los costos. Pre-procesamiento Inteligente: Utilizar modelos de lenguaje más pequeños o técnicas de NLP tradicionales para resumir, filtrar o extraer entidades clave de los datos de telemetría antes* de enviarlos al LLM principal. Esto reduce el número de tokens de entrada. * Caché de Hipótesis y Patrones: Desarrollar un sistema de caché para almacenar y reutilizar las hipótesis de causa raíz generadas para patrones de incidentes recurrentes, evitando llamadas innecesarias al LLM. * Ingeniería de Prompts y Compresión: Optimizar continuamente los prompts para ser más concisos y directos, utilizando técnicas de compresión o reformulación para transmitir la misma información con menos tokens. * Batching para Análisis no Críticos: Si existen análisis que no requieren respuesta inmediata, agruparlos y procesarlos en lotes durante horas de menor demanda, lo que podría aprovechar descuentos por volumen o modelos de precios diferentes.

Optimización de Infraestructura Cloud (Medio Impacto):

* Migración a Serverless: Reemplazar el EC2 y el RDS por servicios serverless como AWS Lambda para la API y la orquestación, y AWS Aurora Serverless v2 para la base de datos. Esto elimina los costos fijos y escala automáticamente a cero cuando no hay uso. * Monitoreo Detallado de Costos: Implementar herramientas de monitoreo de FinOps (ej. AWS Cost Explorer, CloudWatch Dashboards) con alertas personalizadas para detectar desviaciones en el consumo de LLM y recursos cloud, permitiendo una acción correctiva rápida.

Gestión de Clientes y Contratos (Impacto en Ingresos y Costos):

* Límites de Uso por Cliente: Establecer y aplicar límites de tasa (rate limiting) y cuotas de uso de tokens/análisis por cliente. Esto previene el uso excesivo y asegura que los costos de LLM se alineen con los ingresos generados por cada cliente. * Modelos de Precios Basados en Valor: Considerar modelos de precios que escalen con el valor entregado (ej. por reducción de MTTR, por ahorro de horas de SRE), lo que puede justificar el uso de modelos LLM más caros cuando el impacto en el cliente es mayor.

MVP FEATURES

01API de Ingestión: Un endpoint REST para recibir flujos de datos de telemetría estandarizados (formato OpenTelemetry) desde plataformas de observabilidad.
02Núcleo de Agentes Colaborativos: Un sistema backend donde múltiples agentes de IA especializados (e.g., Agente de Anomalías de Métricas, Agente de Patrones de Logs) analizan datos en paralelo.
03API de Hipótesis de Causa Raíz: Un endpoint que devuelve un objeto JSON estructurado con la causa raíz más probable, evidencia de apoyo (e.g., logs relevantes, métricas anómalas) y una puntuación de confianza.
04Integración de Webhook de Alerta: Capacidad para enviar las hipótesis generadas a un webhook configurable (Slack, PagerDuty) para una notificación proactiva.

“RootCause AI: Tu IA colaborativa que diagnostica fallos de red en segundos, no en horas.”

Revisad el artefacto `rootcause-ai-api` y la documentación para validar el Product-Market Fit y el roadmap de UX.

FINANCIALS

Profit Margin0%

Shark Score0

IP Potential0

Run Cost$2.1600

MONETIZATION

API-first SaaS

RISK ASSESSMENT

Riesgos Técnicos: La precisión de los agentes de IA es crítica; un diagnóstico erróneo (alucinación del LLM) puede erosionar la confianza. El coste y la latencia de las llamadas a LLMs a escala pueden impactar la viabilidad. Riesgos de Negocio: La competencia es extremadamente alta por parte de incumbentes (Datadog, Dynatrace) que pueden integrar funcionalidades similares en sus plataformas existentes. La adquisición de clientes requiere ganar la confianza de un público técnico muy escéptico, y la seguridad de los datos (SOC 2) es un requisito indispensable y costoso.…

FINANCIAL_REPORT.md

⚡CFOAgent·gemini-2.5-ultra

Unit Economics & Profitability

Financial Report: AI Multi-Model Startup Pipeline 1. Token Audit Una ejecución completa del pipeline (sin reintentos de compilación) consume un total estimado d…

⚡IPGuardAgent·gemini-2.5-flash

IP Strategy & Patent Analysis

IP ACQUISITION OPPORTUNITY

Our analysis identifies RootCause AI as a candidate for IP-based acquisition. Score: 88/100

SHADOW CTO

Expert technical review. A senior engineer will audit your implementation and provide actionable recommendations within 48h.

# Context: RootCause AI [rootcause-ai-api]
# Spring Boot 4.x + Spring AI
# Powered by Forge-AI protocol

SOURCE LINKS

→paper

Related Startups

NetSentry AI

NetSentry AI capacita a los equipos de SRE y DevOps para convertir el vasto ruido de la telemetría en análisis de causa raíz instantáneos, ahorrando millones en tiempo de inactividad. Nuestra innovadora arquitectura de agentes colaborativos, validada con un Health Score del 87%, ofrece claridad y eficiencia sin precedentes.

No detectada·2026-04-09

NetGuardian AI

NetGuardian AI equipa a equipos SRE/DevOps con IA colaborativa para detectar y diagnosticar automáticamente la causa raíz de fallos de red en telemetría compleja. Esto reduce drásticamente el tiempo de inactividad y las pérdidas de ingresos, demostrando una sólida viabilidad (Profit Margin 77%, Scalability 100%) y un alto potencial de inversión (VC Score 71, SharkTank INVEST).

No detectada·2026-04-10

Redact AI

Redact AI ofrece un microservicio API-first para que CTOs y Jefes de Ingeniería implementen el 'derecho al olvido' en sus modelos de IA, eliminando datos de usuario de forma segura. Con un Health Score del 84% y un margen de beneficio del 94%, garantizamos cumplimiento normativo, reducimos costes operativos y aceleramos la innovación sin reentrenamientos completos.

No detectada·2026-04-14