mindnet/docs/00_General/00_glossary.md
2025-12-19 09:02:49 +01:00

2.7 KiB

doc_type audience status version context
glossary all active 2.7.0 Zentrales Glossar für Mindnet v2.7. Definitionen von Entitäten, WP-22 Scoring-Konzepten und der Edge Registry.

Mindnet Glossar

Quellen: 01_edge_vocabulary.md, retriever_scoring.py, edge_registry.py

Kern-Entitäten

  • Note: Repräsentiert eine Markdown-Datei. Die fachliche Haupteinheit. Verfügt über einen Status (stable, draft, system), der das Scoring beeinflusst.
  • Chunk: Ein Textabschnitt einer Note. Die technische Sucheinheit (Vektor).
  • Edge: Eine gerichtete Verbindung zwischen zwei Knoten. Wird in WP-22 durch die Registry validiert.
  • Vault: Der lokale Ordner mit den Markdown-Dateien (Source of Truth).
  • Frontmatter: Der YAML-Header am Anfang einer Notiz (enthält id, type, title, status).

Komponenten

  • Edge Registry: Der zentrale Dienst (SSOT), der Kanten-Typen validiert und Aliase in kanonische Typen auflöst. Nutzt 01_edge_vocabulary.md als Basis.
  • Retriever: Besteht in v2.7 aus der Orchestrierung (retriever.py) und der mathematischen Scoring-Engine (retriever_scoring.py).
  • Decision Engine: Teil des Routers, der Intents erkennt und entsprechende Boost-Faktoren für das Retrieval injiziert.
  • Traffic Control: Verwaltet Prioritäten und drosselt Hintergrund-Tasks (z.B. Smart Edges) mittels Semaphoren.
  • Unknown Edges Log: Die Datei unknown_edges.jsonl, in der das System Kanten-Typen protokolliert, die nicht im Dictionary gefunden wurden.

Konzepte & Features

  • Canonical Type: Der standardisierte System-Name einer Kante (z.B. based_on), der in der Datenbank gespeichert wird.
  • Alias (Edge): Ein nutzerfreundliches Synonym (z.B. basiert_auf), das während der Ingestion automatisch zum Canonical Type aufgelöst wird.
  • Lifecycle Scoring (WP-22): Ein Mechanismus, der die Relevanz einer Notiz basierend auf ihrem Status gewichtet (z.B. Bonus für stable, Malus für draft).
  • Intent Boosting: Dynamische Erhöhung der Kanten-Gewichte basierend auf der Nutzerfrage (z.B. Fokus auf caused_by bei "Warum"-Fragen).
  • Provenance Weighting: Gewichtung einer Kante nach ihrer Herkunft:
    • explicit: Vom Mensch gesetzt (Prio 1).
    • smart: Von der KI validiert (Prio 2).
    • rule: Durch System-Regeln/Matrix erzeugt (Prio 3).
  • Smart Edge Allocation: KI-Verfahren zur Relevanzprüfung von Links für spezifische Textabschnitte.
  • Strict Heading Split: Chunking-Strategie mit harten Grenzen an Überschriften und integriertem "Safety Net" gegen zu große Chunks.
  • Matrix Logic: Bestimmung des Kanten-Typs basierend auf Quell- und Ziel-Entität (z.B. Erfahrung -> Wert = based_on).