170 lines
8.5 KiB
Markdown
170 lines
8.5 KiB
Markdown
---
|
|
doc_type: concept
|
|
audience: architect, product_owner
|
|
scope: ai, router, personas, resilience, agentic_rag, moe, lazy_prompts
|
|
status: active
|
|
version: 3.1.1
|
|
context: "Fachkonzept der hybriden KI-Persönlichkeit, Agentic Multi-Stream RAG, WP-25a Mixture of Experts (MoE), WP-25b Lazy-Prompt-Orchestration, Provider-Kaskade und kognitiven Resilienz (Deep Fallback)."
|
|
---
|
|
|
|
# Konzept: KI-Persönlichkeit & Router
|
|
|
|
**Quellen:** `mindnet_functional_architecture.md`, `llm_service.py`, `config.py`, `ingestion.py`
|
|
|
|
Mindnet soll nicht wie eine Suchmaschine wirken, sondern wie ein **Digitaler Zwilling**. Dazu muss das System erkennen, **was** der Nutzer will, und seine „Persönlichkeit“ sowie seine technische Infrastruktur dynamisch anpassen.
|
|
|
|
## 1. Der Hybrid Router & Agentic Multi-Stream RAG (Das Gehirn)
|
|
|
|
Jede Eingabe durchläuft den **Hybrid Router**. Seit WP-25 agiert das System als **Agentic Orchestrator**, der Nutzeranfragen analysiert, in parallele Wissens-Streams aufteilt und diese zu einer kontextreichen, wertebasierten Antwort synthetisiert.
|
|
|
|
### Intent-basiertes Routing (WP-25)
|
|
|
|
Der Router nutzt einen **Hybrid-Modus** mit Keyword Fast-Path und LLM Slow-Path:
|
|
|
|
**Keyword Fast-Path:**
|
|
* Sofortige Erkennung von Triggern wie "Soll ich", "Wann", "Was ist"
|
|
* Reduziert Latenz durch schnelle Keyword-Erkennung ohne LLM-Call
|
|
|
|
**LLM Slow-Path:**
|
|
* Komplexe semantische Analyse für unklare Anfragen
|
|
* Nutzt `intent_router_v1` Prompt zur Klassifizierung
|
|
|
|
**Strategien:**
|
|
* **FACT_WHAT/FACT_WHEN:** Wissensabfrage (Wissen/Listen, Zeitpunkte)
|
|
* **DECISION:** Beratung (Rat, Strategie, Abwägung)
|
|
* **EMPATHY:** Reflexion (Emotionale Resonanz)
|
|
* **CODING:** Technik (Programmierung, Syntax)
|
|
* **INTERVIEW:** Datenerfassung (Wissen speichern)
|
|
|
|
### Modus A: Agentic Multi-Stream RAG (WP-25)
|
|
|
|
Anstelle einer einzelnen Suche führt das System **parallele Abfragen** in spezialisierten Wissens-Streams aus:
|
|
|
|
**Stream-Library:**
|
|
* **Values Stream:** Identität, Ethik und Prinzipien (`value`, `principle`, `belief`, `trait`, `boundary`, `need`, `motivation`)
|
|
* **Facts Stream:** Operative Daten (`project`, `decision`, `task`, `goal`, `event`, `state`)
|
|
* **Biography Stream:** Persönliche Erfahrungen (`experience`, `journal`, `profile`, `person`)
|
|
* **Risk Stream:** Hindernisse und Gefahren (`risk`, `obstacle`, `bias`)
|
|
* **Tech Stream:** Technisches Wissen (`concept`, `source`, `glossary`, `idea`, `insight`, `skill`, `habit`)
|
|
|
|
**Wissens-Synthese:**
|
|
Die Zusammenführung erfolgt über spezialisierte Templates mit expliziten Stream-Variablen (z.B. `{values_stream}`, `{risk_stream}`). Dies ermöglicht dem LLM eine differenzierte Abwägung zwischen Fakten und persönlichen Werten.
|
|
|
|
**Stream-Tracing:**
|
|
Jeder Treffer wird mit `stream_origin` markiert, um Feedback-Optimierung pro Wissensbereich zu ermöglichen.
|
|
|
|
### Modus B: Interview (Knowledge Capture)
|
|
* **Intent:** Der Nutzer will Wissen speichern (`INTERVIEW`).
|
|
* **Aktion:** Das System sucht **nicht**, sondern fragt ab und erstellt einen Draft.
|
|
|
|
---
|
|
|
|
## 2. Mixture of Experts (MoE) Architektur (WP-25a)
|
|
|
|
Seit WP-25a nutzt MindNet eine **profilbasierte Experten-Steuerung** statt einer globalen Provider-Konfiguration. Jede Systemaufgabe wird einem dedizierten Profil zugewiesen, das Modell, Provider und Parameter unabhängig definiert.
|
|
|
|
### 2.1 Experten-Profile
|
|
|
|
**Zentrale Registry (`llm_profiles.yaml`):**
|
|
* **`synthesis_pro`:** Hochwertige Synthese für Chat-Antworten (Cloud)
|
|
* **`tech_expert`:** Fachspezialist für Code & Technik (Claude 3.5 Sonnet)
|
|
* **`compression_fast`:** Schnelle Kompression & Routing (Mistral 7B)
|
|
* **`ingest_validator`:** Deterministische Validierung (Temperature 0.0)
|
|
* **`identity_safe`:** Lokaler Anker (Ollama/Phi-3) für maximale Privacy
|
|
|
|
**Vorteile:**
|
|
* **Aufgabenspezifische Optimierung:** Jede Aufgabe nutzt das optimale Modell
|
|
* **Hardware-Optimierung:** Lokaler Anker für kleine Hardware-Umgebungen
|
|
* **Wartbarkeit:** Zentrale Konfiguration statt verstreuter ENV-Variablen
|
|
|
|
### 2.2 Rekursive Fallback-Kaskade
|
|
|
|
Die Profile implementieren eine **automatische Fallback-Logik**:
|
|
|
|
1. **Primäres Profil:** System versucht das angeforderte Profil (z.B. `synthesis_pro`)
|
|
2. **Fallback-Level 1:** Bei Fehler → `fallback_profile` (z.B. `synthesis_backup`)
|
|
3. **Fallback-Level 2:** Bei weiterem Fehler → nächster Fallback (z.B. `identity_safe`)
|
|
4. **Terminaler Endpunkt:** `identity_safe` hat keinen Fallback (lokales Modell als letzte Instanz)
|
|
|
|
**Schutzmechanismen:**
|
|
* **Zirkuläre Referenzen:** `visited_profiles`-Tracking verhindert Endlosschleifen
|
|
* **Background-Semaphore:** Parallele Tasks werden gedrosselt
|
|
|
|
### 2.3 Die hybride LLM-Landschaft (Legacy & MoE)
|
|
|
|
Ein intelligenter Zwilling muss jederzeit verfügbar sein. Seit WP-25a wird die Resilienz durch die **MoE Fallback-Kaskade** gewährleistet:
|
|
|
|
1. **Stufe 1: Cloud-Experten:** Spezialisierte Profile für verschiedene Aufgaben (z.B. `synthesis_pro`, `tech_expert`)
|
|
2. **Stufe 2: Quoten-Resilienz:** Erkennt das System eine Drosselung durch Cloud-Provider (HTTP 429), pausiert es kontrolliert (`LLM_RATE_LIMIT_WAIT`), führt automatisierte Retries durch und schützt so den laufenden Prozess.
|
|
3. **Stufe 3: Lokale Souveränität (Ollama):**
|
|
* **Technischer Fallback:** Schlagen alle Cloud-Versuche fehl, übernimmt das lokale Modell (Phi-3) via `identity_safe` Profil.
|
|
* **Kognitiver Fallback (v2.11.14):** Liefert die Cloud zwar technisch eine Antwort, verweigert aber inhaltlich die Verarbeitung (Silent Refusal/Policy Violation), wird ein **Deep Fallback** erzwungen, um die Datenintegrität lokal zu retten.
|
|
|
|
|
|
|
|
---
|
|
|
|
## 3. Die Personas (Strategien)
|
|
|
|
Mindnet wechselt den Hut, je nach Situation.
|
|
|
|
### 3.1 Der Berater (Strategy: DECISION)
|
|
* **Auslöser:** Fragen wie „Soll ich...?", „Was ist besser?", „Empfehlung...".
|
|
* **Multi-Stream Retrieval (WP-25):** Führt parallele Abfragen in Values Stream, Facts Stream und Risk Stream aus.
|
|
* **Wissens-Synthese:** Wägt Fakten gegen Werte ab, evaluiert Risiken und prüft Kompatibilität mit langfristiger Identität.
|
|
* **Reasoning:** *„Wäge die Fakten gegen meine Werte ab. Sei strikt bei Risiken."*
|
|
|
|
### 3.2 Der Spiegel (Strategy: EMPATHY)
|
|
* **Auslöser:** Emotionale Aussagen („Ich bin frustriert", „Ich fühle...", „Stress...").
|
|
* **Multi-Stream Retrieval (WP-25):** Führt parallele Abfragen in Biography Stream und Values Stream aus.
|
|
* **Wissens-Synthese:** Greift auf persönliche Erfahrungen und Werte zurück, um emotionale Resonanz zu schaffen.
|
|
* **Reasoning:** *„Nutze meine eigenen Erfahrungen, um die Situation einzuordnen."*
|
|
|
|
### 3.3 Der Bibliothekar (Strategy: FACT_WHAT / FACT_WHEN)
|
|
* **Auslöser:** Sachfragen („Was ist...?", „Welche sind...?", „Wann...?", „Datum...").
|
|
* **Multi-Stream Retrieval (WP-25):** Führt parallele Abfragen in Facts Stream, Tech Stream und Biography Stream aus.
|
|
* **Wissens-Synthese:** Kombiniert harte Fakten mit persönlichen Erfahrungen, falls vorhanden.
|
|
* **Behavior:** Präzise, neutral, strukturiert.
|
|
|
|
---
|
|
|
|
## 4. Future Concepts: The Empathic Digital Twin
|
|
|
|
### 4.1 Antizipation durch Erfahrung
|
|
* **Konzept:** Das System soll Konsequenzen vorhersagen („Was passiert, wenn...?“).
|
|
* **Logik:** *„In einer ähnlichen Situation (Projekt A) hat Entscheidung X zu Ergebnis Y geführt.“* (Analogie-Schluss).
|
|
|
|
### 4.2 Empathie & „Ich“-Modus
|
|
* **Konzept:** Das System antwortet im Tonfall des Nutzers.
|
|
* **Umsetzung:** Few-Shot Prompting mit eigenen E-Mails/Texten als Stilvorlage.
|
|
|
|
### 4.3 Resilienz als Charakterzug
|
|
Durch die **WP-20 Implementierung** zeigt das System „Geduld“: Bei Quoten-Engpässen bricht es nicht ab, sondern wartet auf freie Kapazitäten. Durch das **Deep Fallback (v2.11.14)** besitzt Mindnet eine kognitive Ausdauer, die inhaltliche Zensur oder Blockaden der Cloud erkennt und durch lokale Rechenpower auflöst.
|
|
|
|
---
|
|
|
|
## 5. Erweiterbarkeit: Das „Teach-the-AI“ Paradigma
|
|
|
|
Mindnet lernt durch **Konfiguration** und **Vernetzung**.
|
|
|
|
**Beispiel: Du willst den Typ `risk` einführen.**
|
|
|
|
**1. Daten-Ebene (Physik)**
|
|
In `types.yaml`: Definiere Gewicht und Verhalten.
|
|
```yaml
|
|
risk:
|
|
retriever_weight: 0.90 # Hohe Priorität
|
|
edge_defaults: ["blocks"] # Automatische Kante zu Projekten
|
|
```
|
|
|
|
**2. Strategie-Ebene (Router)**
|
|
In `decision_engine.yaml`: Wann soll das geladen werden?
|
|
```yaml
|
|
DECISION:
|
|
inject_types: ["value", "risk"] # Füge 'risk' hinzu
|
|
```
|
|
|
|
**3. Kognitive Ebene (Verständnis)**
|
|
In `prompts.yaml`: Erkläre dem LLM (provider-spezifisch mittels der Prompt-Kaskade), was ein Risiko ist.
|
|
|
|
**Fazit:** Nur wenn **Daten** (Vault), **Infrastruktur** (Resiliente Kaskade) und **Semantik** (Prompt) zusammenspielen, entsteht ein intelligenter Zwilling. |