Skip to content

open-experiments/aiops-nextgen

Folders and files

NameName
Last commit message
Last commit date

Latest commit

Β 

History

56 Commits
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 

Repository files navigation

AIOps NextGen Platform

AI-driven Platform Operations for OpenShift Container Platform (OCP) and Cloud-Native Network Functions (CNFs).

Overview

AIOps NextGen is a unified observability and intelligence platform that provides:

  • Multi-cluster fleet management and monitoring
  • AI-powered insights with domain expert personas
  • Real-time GPU and CNF telemetry
  • Automated anomaly detection and root cause analysis
  • Natural language queries across metrics, traces, and logs

Target Platform

OpenShift Container Platform 4.16+ (x86_64, ARM64)

Design Principles

  • Air-Gapped Ready: Designed to work in environments without external internet access
  • On-Premises First: All core components run on-premises within OpenShift
  • Local LLM Preferred: Primary AI via vLLM with locally-hosted models (Llama, Mistral, Qwen); external AI APIs (Gemini, Claude, ChatGPT) supported as optional alternative
  • Self-Contained Storage: MinIO or OpenShift Data Foundation for object storage

Solution Architecture

β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”
β”‚                                   USERS                                             β”‚
β”‚                    Operators Β· SREs Β· Platform Engineers                            β”‚
β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”¬β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜
                                      β”‚
                                      β–Ό
β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”
β”‚                              PRESENTATION LAYER                                     β”‚
β”‚  β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”  β”‚
β”‚  β”‚                         Frontend (React + TypeScript)                         β”‚  β”‚
β”‚  β”‚   Fleet Dashboard β”‚ GPU Monitoring β”‚ AI Chat β”‚ Observability Explorer         β”‚  β”‚
β”‚  β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜  β”‚
β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”¬β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜
                                      β”‚ HTTPS / WSS
                                      β–Ό
β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”
β”‚                                ACCESS LAYER                                         β”‚
β”‚  β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”  β”‚
β”‚  β”‚                      API Gateway (FastAPI + OpenShift OAuth)                  β”‚  β”‚
β”‚  β”‚   REST API β”‚ WebSocket Proxy β”‚ MCP Protocol β”‚ Rate Limiting β”‚ RBAC            β”‚  β”‚
β”‚  β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜  β”‚
β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”¬β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”¬β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”¬β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”¬β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜
            β”‚                 β”‚                 β”‚                 β”‚
            β–Ό                 β–Ό                 β–Ό                 β–Ό
β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”
β”‚                               SERVICE LAYER                                         β”‚
β”‚                                                                                     β”‚
β”‚  β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”  β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”  β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”  β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β” β”‚
β”‚  β”‚ Cluster         β”‚  β”‚ Observability   β”‚  β”‚ Intelligence    β”‚  β”‚ Real-Time       β”‚ β”‚
β”‚  β”‚ Registry        β”‚  β”‚ Collector       β”‚  β”‚ Engine          β”‚  β”‚ Streaming       β”‚ β”‚
β”‚  β”‚                 β”‚  β”‚                 β”‚  β”‚                 β”‚  β”‚                 β”‚ β”‚
β”‚  β”‚ β€’ Fleet CRUD    β”‚  β”‚ β€’ Prometheus    β”‚  β”‚ β€’ LLM Router    β”‚  β”‚ β€’ WebSocket Hub β”‚ β”‚
β”‚  β”‚ β€’ Health Mon.   β”‚  β”‚ β€’ Tempo Traces  β”‚  β”‚ β€’ AI Personas   β”‚  β”‚ β€’ Event Routing β”‚ β”‚
β”‚  β”‚ β€’ Credentials   β”‚  β”‚ β€’ Loki Logs     β”‚  β”‚ β€’ Anomaly Det.  β”‚  β”‚ β€’ Subscriptions β”‚ β”‚
β”‚  β”‚ β€’ Capabilities  β”‚  β”‚ β€’ GPU Telemetry β”‚  β”‚ β€’ RCA Engine    β”‚  β”‚ β€’ Backpressure  β”‚ β”‚
β”‚  β””β”€β”€β”€β”€β”€β”€β”€β”€β”¬β”€β”€β”€β”€β”€β”€β”€β”€β”˜  β””β”€β”€β”€β”€β”€β”€β”€β”€β”¬β”€β”€β”€β”€β”€β”€β”€β”€β”˜  β””β”€β”€β”€β”€β”€β”€β”€β”€β”¬β”€β”€β”€β”€β”€β”€β”€β”€β”˜  β””β”€β”€β”€β”€β”€β”€β”€β”€β”¬β”€β”€β”€β”€β”€β”€β”€β”€β”˜ β”‚
β”‚           β”‚                    β”‚                    β”‚                    β”‚          β”‚
β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”Όβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”Όβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”Όβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”Όβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜
            β”‚                    β”‚                    β”‚                    β”‚
            β–Ό                    β–Ό                    β–Ό                    β–Ό
β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”
β”‚                                 DATA LAYER                                          β”‚
β”‚                                                                                     β”‚
β”‚  β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”  β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”  β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”  β”‚
β”‚  β”‚ PostgreSQL          β”‚  β”‚ Redis               β”‚  β”‚ Object Storage (MinIO/ODF)  β”‚  β”‚
β”‚  β”‚                     β”‚  β”‚                     β”‚  β”‚                             β”‚  β”‚
β”‚  β”‚ β€’ clusters schema   β”‚  β”‚ β€’ DB 0: PubSub      β”‚  β”‚ β€’ aiops-reports bucket      β”‚  β”‚
β”‚  β”‚ β€’ intelligence      β”‚  β”‚ β€’ DB 1: Rate Limit  β”‚  β”‚ β€’ aiops-attachments bucket  β”‚  β”‚
β”‚  β”‚   schema            β”‚  β”‚ β€’ DB 2: Cache       β”‚  β”‚                             β”‚  β”‚
β”‚  β”‚                     β”‚  β”‚ β€’ DB 3: Sessions    β”‚  β”‚                             β”‚  β”‚
β”‚  β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜  β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜  β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜  β”‚
β”‚                                                                                     β”‚
β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜
                                      β”‚
                                      β–Ό
β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”
β”‚                          ON-PREMISES INTEGRATIONS                                   β”‚
β”‚                                                                                     β”‚
β”‚  β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”  β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”  β”‚
β”‚  β”‚         SPOKE CLUSTERS               β”‚  β”‚      LLM INFERENCE                  β”‚  β”‚
β”‚  β”‚                                      β”‚  β”‚                                     β”‚  β”‚
β”‚  β”‚  β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β” β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β” β”Œβ”€β”€β”€β”€β”€β”€β”€β”  β”‚  β”‚  β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”β”‚  β”‚
β”‚  β”‚  β”‚Prometheusβ”‚ β”‚ Tempo   β”‚ β”‚ Loki  β”‚  β”‚  β”‚  β”‚           vLLM Server           β”‚β”‚  β”‚
β”‚  β”‚  β”‚ Metrics  β”‚ β”‚ Traces  β”‚ β”‚ Logs  β”‚  β”‚  β”‚  β”‚  β€’ Llama 3.x / Mistral / Qwen   β”‚β”‚  β”‚
β”‚  β”‚  β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜ β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜ β””β”€β”€β”€β”€β”€β”€β”€β”˜  β”‚  β”‚  β”‚  β€’ GPU Accelerated (A100/H100)  β”‚β”‚  β”‚
β”‚  β”‚                                      β”‚  β”‚  β”‚  β€’ OpenAI-Compatible API        β”‚β”‚  β”‚
β”‚  β”‚  100+ OCP Clusters (Hub-Spoke)       β”‚  β”‚  β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜β”‚  β”‚
β”‚  β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜  β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜  β”‚
β”‚                                                                                     β”‚
β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜

Data Flow Diagram

β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”
β”‚                              REQUEST FLOWS                                           β”‚
β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜

1. USER QUERY FLOW (Metrics/Traces/Logs)
   β”Œβ”€β”€β”€β”€β”€β”€β”     β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”     β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”     β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”     β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”
   β”‚ User │────▢│ Frontend│────▢│API Gateway│────▢│ Observability │────▢│ Spoke   β”‚
   β”‚      │◀────│         │◀────│           │◀────│ Collector     │◀────│ Cluster β”‚
   β””β”€β”€β”€β”€β”€β”€β”˜     β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜     β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜     β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜     β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜
                                                          β”‚
                                                          β–Ό
                                                   β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”
                                                   β”‚Cluster Reg. β”‚ (get endpoints)
                                                   β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜

2. AI CHAT FLOW (Natural Language β†’ Tool Calls β†’ Response)
   β”Œβ”€β”€β”€β”€β”€β”€β”     β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”     β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”     β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”
   β”‚ User │────▢│ Frontend│────▢│API Gateway│────▢│ Intelligence  β”‚
   β”‚      β”‚     β”‚         β”‚     β”‚           β”‚     β”‚ Engine        β”‚
   β””β”€β”€β”€β”€β”€β”€β”˜     β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜     β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜     β””β”€β”€β”€β”€β”€β”€β”€β”¬β”€β”€β”€β”€β”€β”€β”€β”˜
                    β–²                                     β”‚
                    β”‚ SSE Stream                          β–Ό
                    β”‚                              β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”
                    β”‚                              β”‚ LLM Providerβ”‚
                    β”‚                              β”‚(vLLM/ExtAPI)β”‚
                    β”‚                              β””β”€β”€β”€β”€β”€β”€β”¬β”€β”€β”€β”€β”€β”€β”˜
                    β”‚                                     β”‚
                    β”‚           Tool Calls                β–Ό
                    β”‚    β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”
                    β”‚    β”‚                                            β”‚
                    β”‚    β–Ό                                            β–Ό
                    β”‚ β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”                    β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”
                    └─│ Observability β”‚ (query_metrics,    β”‚ Cluster Registryβ”‚
                      β”‚ Collector     β”‚  search_traces)    β”‚ (list_clusters) β”‚
                      β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜                    β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜

3. REAL-TIME EVENT FLOW (Push Updates)
   β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”     β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”     β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”     β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”
   β”‚ Cluster Registry│────▢│   Redis   │────▢│ Real-Time    │────▢│ Frontendβ”‚
   β”‚ Obs. Collector  β”‚     β”‚  PubSub   β”‚     β”‚ Streaming    β”‚ WS  β”‚         β”‚
   β”‚ Intel. Engine   β”‚     β”‚           β”‚     β”‚              │────▢│         β”‚
   β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜     β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜     β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜     β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜
        (Publishers)                              (Router)         (Subscriber)

   Events: CLUSTER_STATUS_CHANGED, ALERT_FIRED, GPU_UPDATE, ANOMALY_DETECTED, etc.

4. ANOMALY DETECTION & RCA FLOW
   β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”     β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”     β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”     β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”
   β”‚ Observability │────▢│ Intelligence  │────▢│   Redis   │────▢│ Real-Time    β”‚
   β”‚ Collector     β”‚     β”‚ Engine        β”‚     β”‚  PubSub   β”‚     β”‚ Streaming    β”‚
   β”‚ (metrics)     β”‚     β”‚ (detect+RCA)  β”‚     β”‚           β”‚     β”‚              β”‚
   β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜     β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜     β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜     β””β”€β”€β”€β”€β”€β”€β”¬β”€β”€β”€β”€β”€β”€β”€β”˜
                                β”‚                                       β”‚
                                β–Ό                                       β–Ό
                         β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”                         β”Œβ”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”
                         β”‚ LLM Providerβ”‚                         β”‚  Frontend   β”‚
                         β”‚ (explain)   β”‚                         β”‚ (alert UI)  β”‚
                         β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜                         β””β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”€β”˜

Technology Stack

Layer Technology Purpose
Frontend React 18, TypeScript, Vite, Tailwind Modern SPA
Gateway FastAPI, OpenShift OAuth Auth, routing, rate limiting
Services Python 3.11+, FastAPI, SQLAlchemy Microservices
AI/LLM vLLM (preferred); Gemini/Claude/ChatGPT (optional) LLM inference
Data PostgreSQL 15, Redis 7, MinIO Persistence, cache, objects
Observability OpenTelemetry, Prometheus, Tempo, Loki Telemetry
Deployment Helm, Kustomize, OpenShift 4.16+ Container orchestration

Project Structure

aiops-nextgen/
β”œβ”€β”€ README.md                    # This file
β”œβ”€β”€ LICENSE                      # MIT License
β”œβ”€β”€ specs/                       # Component specifications
β”‚   β”œβ”€β”€ 00-overview.md          # Architecture overview
β”‚   β”œβ”€β”€ 01-data-models.md       # Shared data models
β”‚   β”œβ”€β”€ 02-cluster-registry.md  # Cluster Registry Service
β”‚   β”œβ”€β”€ 03-observability-collector.md  # Observability Collector
β”‚   β”œβ”€β”€ 04-intelligence-engine.md      # AI/LLM Engine
β”‚   β”œβ”€β”€ 05-realtime-streaming.md       # Real-time Streaming
β”‚   β”œβ”€β”€ 06-api-gateway.md              # API Gateway
β”‚   β”œβ”€β”€ 07-frontend.md                 # Frontend Application
β”‚   β”œβ”€β”€ 08-integration-matrix.md       # Integration contracts
β”‚   └── 09-deployment.md               # OpenShift deployment
β”œβ”€β”€ deploy/                      # Deployment manifests
β”‚   β”œβ”€β”€ helm/                   # Helm charts (future)
β”‚   └── openshift/              # Kustomize overlays for OpenShift
└── src/                        # Source code
    β”œβ”€β”€ shared/                 # Shared Python package (models, db, redis, config)
    β”œβ”€β”€ cluster-registry/       # Fleet management service
    β”œβ”€β”€ observability-collector/# Metrics federation service
    β”œβ”€β”€ intelligence-engine/    # AI/LLM service
    β”œβ”€β”€ realtime-streaming/     # WebSocket service
    β”œβ”€β”€ api-gateway/            # Entry point service
    β”œβ”€β”€ frontend/               # React SPA (pending)
    β”œβ”€β”€ docker-compose.yml      # Local development stack
    └── development-plan.md     # Implementation roadmap

Development Phases

Phase Focus Status
1 Foundation & Data Layer (shared models, PostgreSQL, Redis) βœ… Complete
2 Cluster Registry (fleet CRUD, health monitoring, events) βœ… Complete
3 Observability Collector (metrics, alerts, GPU telemetry) βœ… Complete
4 Intelligence Engine (LLM, personas, chat, tool calling) βœ… Complete
5 Real-time Streaming & API Gateway βœ… Complete
6 Frontend (React SPA) Pending

See src/development-plan.md for detailed task tracking.


Resource Requirements

Environment CPU Memory Storage
Development 2.6 cores 4.4 Gi 11 Gi
Production (HA) 8.2 cores 14.5 Gi 55 Gi
+ Local LLM (3B) +4 cores +16 Gi +50 Gi

Quick Start

Local Development

# Clone repository
git clone https://github.com/open-experiments/aiops-nextgen.git
cd aiops-nextgen

# Start infrastructure (PostgreSQL + Redis)
cd src && docker-compose up -d postgresql redis

# Start services (each in a separate terminal)
cd src/cluster-registry && uvicorn app.main:app --reload --port 8001
cd src/observability-collector && uvicorn app.main:app --reload --port 8002
cd src/intelligence-engine && uvicorn app.main:app --reload --port 8003
cd src/realtime-streaming && uvicorn app.main:app --reload --port 8004
cd src/api-gateway && uvicorn app.main:app --reload --port 8000

OpenShift Deployment

# Login to OpenShift
oc login --token=<token> --server=<api-server>

# Create namespace and deploy
oc new-project aiops-nextgen
oc apply -k deploy/openshift/

# Verify deployment
oc get pods -n aiops-nextgen

API Endpoints

Service Port Health Check
API Gateway 8000 GET /health, GET /ready
Cluster Registry 8001 GET /health, GET /ready
Observability Collector 8002 GET /health, GET /ready
Intelligence Engine 8003 GET /health, GET /ready
Real-Time Streaming 8004 GET /health, GET /ready

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors