docs/03_Technical_References/03_tech_ingestion_pipeline.md aktualisiert
All checks were successful
Deploy mindnet to llm-node / deploy (push) Successful in 4s
All checks were successful
Deploy mindnet to llm-node / deploy (push) Successful in 4s
This commit is contained in:
parent
d64ba06809
commit
e04aecb0c5
|
|
@ -3,15 +3,15 @@ doc_type: technical_reference
|
||||||
audience: developer, devops
|
audience: developer, devops
|
||||||
scope: backend, ingestion, smart_edges, edge_registry
|
scope: backend, ingestion, smart_edges, edge_registry
|
||||||
status: active
|
status: active
|
||||||
version: 2.8.0
|
version: 2.8.1
|
||||||
context: "Detaillierte technische Beschreibung der Import-Pipeline, Mistral-safe Parsing und WP-76 Resilienz-Logik."
|
context: "Detaillierte technische Beschreibung der Import-Pipeline, Mistral-safe Parsing und Deep Fallback Resilienz."
|
||||||
---
|
---
|
||||||
|
|
||||||
# Ingestion Pipeline & Smart Processing
|
# Ingestion Pipeline & Smart Processing
|
||||||
|
|
||||||
**Quellen:** `pipeline_playbook.md`, `ingestion.py`, `edge_registry.py`, `01_edge_vocabulary.md`, `llm_service.py`
|
**Quellen:** `pipeline_playbook.md`, `ingestion.py`, `edge_registry.py`, `01_edge_vocabulary.md`, `llm_service.py`
|
||||||
|
|
||||||
Die Ingestion transformiert Markdown in den Graphen. Entrypoint: `scripts/import_markdown.py` (CLI) oder `routers/ingest.py` (API). Seit v2.8 integriert dieser Prozess eine **intelligente Quoten-Steuerung** (WP-76) und ein **robustes JSON-Parsing** für Cloud-Modelle (Mistral/Gemini).
|
Die Ingestion transformiert Markdown in den Graphen. Entrypoint: `scripts/import_markdown.py` (CLI) oder `routers/ingest.py` (API). Seit v2.8 integriert dieser Prozess eine **intelligente Quoten-Steuerung** und ein **robustes JSON-Parsing** für Cloud-Modelle (Mistral/Gemini).
|
||||||
|
|
||||||
## 1. Der Import-Prozess (15-Schritte-Workflow)
|
## 1. Der Import-Prozess (15-Schritte-Workflow)
|
||||||
|
|
||||||
|
|
@ -38,11 +38,12 @@ Der Prozess ist **asynchron** und **idempotent**.
|
||||||
* Vergleich des Hashes mit Qdrant.
|
* Vergleich des Hashes mit Qdrant.
|
||||||
* Strategie wählbar via ENV `MINDNET_CHANGE_DETECTION_MODE` (`full` oder `body`).
|
* Strategie wählbar via ENV `MINDNET_CHANGE_DETECTION_MODE` (`full` oder `body`).
|
||||||
8. **Chunking anwenden:** Zerlegung des Textes basierend auf dem ermittelten Profil (siehe Kap. 3).
|
8. **Chunking anwenden:** Zerlegung des Textes basierend auf dem ermittelten Profil (siehe Kap. 3).
|
||||||
9. **Smart Edge Allocation (WP15/WP20):**
|
9. **Smart Edge Allocation (WP-20):**
|
||||||
* Wenn `enable_smart_edge_allocation: true`: Der `SemanticAnalyzer` sendet Chunks an das LLM.
|
* Wenn `enable_smart_edge_allocation: true`: Der `SemanticAnalyzer` sendet Chunks an das LLM.
|
||||||
* **Traffic Control:** Request nutzt `priority="background"`. Semaphore drosselt die Last.
|
* **Traffic Control:** Request nutzt `priority="background"`. Semaphore drosselt die Last.
|
||||||
* **Resilienz (WP-76):** Erkennt HTTP 429 (Rate-Limit) und pausiert kontrolliert (via `LLM_RATE_LIMIT_WAIT`), bevor ein Cloud-Retry oder der lokale Fallback erfolgt.
|
* **Resilienz (Quota Handling):** Erkennt HTTP 429 (Rate-Limit) und pausiert kontrolliert (via `LLM_RATE_LIMIT_WAIT`), bevor ein Cloud-Retry erfolgt.
|
||||||
* **Mistral-safe Parsing:** Automatisierte Bereinigung von BOS-Tokens (`<s>`) und Framework-Tags (`[OUT]`) zur Sicherstellung validen JSONs.
|
* **Mistral-safe Parsing:** Automatisierte Bereinigung von BOS-Tokens (`<s>`) und Framework-Tags (`[OUT]`) sowie Recovery-Logik für Dictionaries.
|
||||||
|
* **Deep Fallback (v2.11.14):** Erkennt "Silent Refusals" (Data Policy Violations). Liefert die Cloud trotz erfolgreicher Verbindung keine verwertbaren Kanten, wird ein lokaler Fallback via Ollama erzwungen, um Kantenverlust zu vermeiden.
|
||||||
10. **Inline-Kanten finden:** Parsing von `[[rel:...]]`.
|
10. **Inline-Kanten finden:** Parsing von `[[rel:...]]`.
|
||||||
11. **Alias-Auflösung & Kanonisierung (WP-22):**
|
11. **Alias-Auflösung & Kanonisierung (WP-22):**
|
||||||
* Jede Kante wird via `edge_registry.resolve()` normalisiert.
|
* Jede Kante wird via `edge_registry.resolve()` normalisiert.
|
||||||
|
|
|
||||||
Loading…
Reference in New Issue
Block a user