CORTEX PRIME.
Lokal. Stabil. Praktisch.
Cortex Prime ist nicht nur ein Server – es ist ein vollständig durchdachtes On-Premise KI-Ökosystem, entwickelt für Teams mit höchsten Anforderungen an Datensouveränität und niedrige Latenz. Gleichzeitig ist es kein gewöhnliches Installationsskript, sondern die Betriebsanleitung für ein eigenes KI‑Rechenzentrum. In weniger als einer Stunde verwandelt es einen leeren Ubuntu‑Server in eine vollständig orchestrierte Plattform: mit RAM‑Drive für latenzfreie Antworten, integrierter Code‑Intelligenz (DeepWiki + Gitea) und einem durchdachten Monitoring‑Stack. Du sparst Monate an Entwicklungszeit, vermeidst teure Cloud‑Abhängigkeiten und erhältst eine wartbare, reproduzierbare Lösung, die auch strengste Datenschutzanforderungen erfüllt. Keine Bastelei, kein Vendor‑Lock‑in – nur eine professionelle KI‑Infrastruktur, die dir gehört.
Warum Cortex Prime?
Die Antwort auf Cloud-Abhängigkeit und Datenschutzbedenken in der modernen Softwareentwicklung.
Absolute Datenhoheit
100% Air-gapped fähig. Firmeneigener Quellcode und sensible Dokumente verlassen zu keinem Zeitpunkt die eigene Hardware. Kein Vendor-Lock-in, keine versteckten Telemetriedaten.
Zero-I/O Performance
Die Limitierung herkömmlicher Festplatten wird durch ein dediziertes Hochgeschwindigkeits-RAM-Drive umgangen. Vektordatenbanken und aktive KI-Modelle operieren latenzfrei im Arbeitsspeicher.
Tiefes Code-Verständnis
Dank der Kombination aus hochpräzisem Parsing (Docling), hybrider Vektorsuche und mächtigen Reranking-Modellen navigiert die KI mühelos durch komplexe Software-Architekturen.
Das 3-Ebenen Modell
Strikte logische und physische Trennung garantiert Ausfallsicherheit, nahtlose Upgrades und optimalen Schutz sensibler Daten.
Architektur-Übersicht
flowchart TB
subgraph A["Applikationsschicht (Docker)"]
direction LR
WEBUI["Open WebUI"]
PIPE["Pipelines"]
DOC["Docling"]
QD["Qdrant"]
DW["DeepWiki"]
GT["Gitea"]
end
subgraph B["Host-Dienste (Bare-Metal)"]
OLL["Ollama\n(native Inferenz)"]
SYN["Sync / Backup"]
end
subgraph C["Hardware-Ressourcen"]
GPU["NVIDIA GPU\n( direkt angebunden )"]
RAM["RAM-Drive\n(Latenzfrei)"]
SSD["SSD\n(Persistenz)"]
end
WEBUI --> PIPE & QD & OLL
PIPE --> DOC
DW --> GT & OLL
OLL --> GPU & RAM
QD --> RAM
SYN -.-> SSD
classDef app fill:#FFFFFF,stroke:#E2E8F0,stroke-width:1.5px,color:#1A2C3E;
classDef host fill:#F8FAFE,stroke:#CBD5E1,stroke-width:1.5px,color:#2A7FE1;
classDef hw fill:#F1F5F9,stroke:#94A3B8,stroke-width:1.5px,stroke-dasharray: 4 4,color:#475569;
class WEBUI,PIPE,DOC,QD,DW,GT app;
class OLL,SYN host;
class GPU,RAM,SSD hw;
Von der Applikation über die Host-Ebene bis zur Hardware: klare Trennung der Verantwortlichkeiten.
Orchestrierte Intelligenz
Jeder Service im Cortex Prime Oekosystem hat eine exakt definierte Aufgabe. Aktuell umfasst der Stack Open WebUI, Pipelines, Docling, Qdrant, DeepWiki, Gitea, Homepage, Dockge, Uptime Kuma, Gotify, Frontail und optional RackPeek.
Hinweis: Ollama bleibt absichtlich nativ auf dem Host und laeuft nicht als Docker-Container.
Open WebUI
Das Cockpit
Modernes Frontend fuer Chat, Projekte und Wissensraeume. Es steuert den Nutzerfluss und verbindet die Kernservices zu einem klaren Arbeitsablauf.
Die KI-Engine
Das Gehirn
Ollama laeuft bewusst nativ auf dem Host statt im Container. So bleibt der GPU-Zugriff direkt und die Inferenz stabil bei hoher Last.
Qdrant DB
Der Vektor-Tresor
Vektor-Datenbank fuer semantische Suche und Wissenskontext. Im Betrieb liegt sie im RAM-Drive und liefert schnelle Treffer fuer RAG-Anfragen.
Docling & Pipelines
Die Dokumenten-Analysten
Diese Kette bereitet Dokumente sauber fuer RAG vor. Docling extrahiert Struktur aus Dateien, Pipelines uebergibt den Inhalt kontrolliert an Suche und Chat.
Ops & Monitoring
Das Kontrollzentrum
Monitoring und Betrieb laufen ueber Homepage, Dockge, Kuma, Frontail und Gotify. So sind Status, Logs und Alarme zentral sichtbar.
DeepWiki
Code-Wiki
DeepWiki baut aus Repositories eine durchsuchbare Wissensbasis auf. Teams verstehen dadurch Architektur, Abhaengigkeiten und Codebereiche schneller.
Gitea
Git-Server lokal
Gitea verwaltet Repositories, Branches und Pull-Requests im eigenen Netz. Zusammen mit DeepWiki entsteht ein lokaler Entwicklungsfluss ohne Cloud-Abhaengigkeit.
Der intelligente Wissensraum
Standard-KI stößt bei komplexem Software-Code oft an ihre Grenzen. Cortex Prime löst dies durch eine ausgeklügelte Datenpipeline: Wissen wird erst strukturiert, dann clever gesucht und abschließend hochwertig formuliert.
Verstehen (Parsing)
Das System übernimmt komplexe Handbücher und Quelltexte und übersetzt deren Layout-Struktur originalgetreu in maschinenlesbares Markdown.
Finden (Hybrid Search)
Fragen an das System nutzen eine kombinierte Suche: Semantische Bedeutung (Vektoren) trifft auf exakte Stichwort-Treffer (BM25).
Antworten (Reranking)
Ein spezialisiertes Reranking-Modell bewertet die Relevanz der gefundenen Snippets, bevor das Haupt-Sprachmodell die finale, halluzinationsfreie Antwort generiert.
Ablauf im Wissensraum
sequenceDiagram
autonumber
participant U as User
participant W as WebUI
participant D as DeepWiki
participant G as Gitea
participant P as Parser
participant V as Vektor-DB
participant R as Reranker
participant M as LLM Engine
U->>W: Stellt spezifische Code-Frage
W->>D: Optional Code-Wiki Kontext anfordern
D->>G: Repository-Struktur lesen
D-->>W: Relevante Code-Kontexte liefern
W->>V: Hybride Suche (Vektor + Keyword)
V-->>R: Liefert Roh-Treffer (Top 20)
R-->>W: Bewertet Relevanz (Top 5 Snippets)
W->>M: Kontext + Prompt übergeben
M-->>W: Generiert fundierte Antwort
W-->>U: Präsentiert saubere Lösung
Ablauf: Anfrage -> Retrieval -> Reranking -> Antwort.
Grenzenlose Möglichkeiten
Cortex Prime ist nicht nur ein Werkzeug, sondern eine zentrale Schaltzentrale. Verbinde externe Systeme und lass die KI für dich handeln.
Automatisierte Code-Wikis (DeepWiki)
Schluss mit veralteten Readme-Dateien. Durch den Einsatz einer lokalen DeepWiki-Instanz verwandelt Cortex Prime nackte Quellcode-Repositories vollautomatisch in interaktive, KI-gestützte Dokumentationen.
-
Architektur auf Knopfdruck Das System scannt deine Repositories und generiert selbstständig visuelle System-Diagramme, Abhängigkeitsgraphen und ausführliche Funktionserklärungen.
-
Nahtlose MCP-Anbindung Über den DeepWiki-MCP-Server greift Cortex Prime direkt auf dieses strukturierte Wissen zu. Du kannst mit deiner gesamten Codebase chatten, ohne dass eine einzige Zeile Code ins offene Internet übertragen wird.
DeepWiki Integrationsfluss
flowchart LR
Gitea[(Gitea Git-Server)]
DW[DeepWiki Engine]
Ollama[Ollama API]
MCP((MCP Server))
Cortex[Cortex Prime]
subgraph Doku["Auto-Dokumentation"]
Parse[Parsing]
Graphs[Visualisierung]
Docs[Markdown Docs]
Mer[Mermaid Diagramme]
end
Gitea -->|Repository Sync| DW
DW -->|Code-Kontext| Ollama
DW --> Parse
DW --> Graphs
Parse --> Docs
Graphs --> Mer
Docs --> MCP
Mer --> MCP
MCP <--> Cortex
classDef default fill:#FFFFFF,stroke:#DEE2E6,stroke-width:1px,color:#343A40;
classDef core fill:#2A7FE1,stroke:#0072FF,stroke-width:1px,color:#FFFFFF,font-weight:bold;
classDef service fill:#F8F9FA,stroke:#4FACFE,stroke-width:1px,color:#343A40;
class DW,Cortex core;
class Gitea,Ollama,MCP,Parse,Graphs,Docs,Mer service;
Von Gitea ueber DeepWiki bis zur Nutzung in Cortex Prime.