mindnet/config/retriever.yaml

version: 1.3

# WP-26 Phase 2: Aggregation-Level für Retrieval
# - note: Beste Chunk pro Note (Default, wie bisher)
# - chunk: Alle Chunks individuell ranken
aggregation:
  level: note                    # "note" (default) oder "chunk"
  max_chunks_per_note: 3         # Optional: Limit bei "note"-Level

# WP-26 Phase 2: Edge-Scoring mit Intra-Note-Boost
edge_scoring:
  internal_edge_boost: 1.2       # +20% Boost für Intra-Note-Edges (is_internal=true)
  external_edge_boost: 1.0       # Standard für Inter-Note-Edges

scoring:
  # W_sem: skaliert den Term (semantic_score * retriever_weight)
  # Empfehlung Startwert: 1.0  → Semantik bleibt Hauptsignal
  semantic_weight: 1.0

  # W_edge: skaliert edge_bonus aus dem Subgraph
  # Empfehlung: 0.8  → Graph ist deutlich spürbar, aber überstimmt Semantik nicht komplett
  edge_weight: 0.8

  # W_cent: skaliert centrality_bonus (Knoten-Zentralität im Subgraph)
  # Empfehlung: 0.5  → zentrale Knoten werden bevorzugt, aber moderat
  centrality_weight: 0.5

# WP-22 Stellschraube: Lifecycle (Status-basiertes Scoring)
# Bonus für verifiziertes Wissen, Malus für Entwürfe
lifecycle_weights:
  stable: 1.2   # +20% Bonus
  active: 1.0   # Standardwert
  draft: 0.5    # -50% Malus
  system: 0.0   # Hard Skip via Ingestion

# Die nachfolgenden Werte überschreiben die Defaults aus app/core/retriever_config.
# Wenn neue Kantentypen, z.B. durch Referenzierung innerhalb einer md-Datei im vault anders gewichtet werden sollen, dann muss hier die Konfiguration erfolgen
edge_types:
  # --- KATEGORIE 1: LOGIK-BOOSTS (Relevanz-Treiber) ---
  # Diese Kanten haben die Kraft, das semantische Ranking aktiv umzugestalten.
  blocks: 1.6        # Kritisch: Risiken/Blocker müssen sofort sichtbar sein.
  solves: 1.5        # Zielführend: Lösungen sind primäre Suchziele.
  depends_on: 1.4    # Logisch: Harte fachliche Abhängigkeit.
  resulted_in: 1.4   # Kausal: Ergebnisse und unmittelbare Konsequenzen.
  followed_by: 1.3   # Sequenziell (User): Bewusst gesteuerte Wissenspfade.
  caused_by: 1.2     # Kausal: Ursachen-Bezug (Basis für Intent-Boost).
  preceded_by: 1.1   # Sequenziell (User): Rückwärts-Bezug in Logik-Ketten.
  impacts: 1.2       # Langfristige Auswirkung/Einfluss

  # --- KATEGORIE 2: QUALITATIVER KONTEXT (Stabilitäts-Stützen) ---
  # Diese Kanten liefern wichtigen Kontext, ohne das Ergebnis zu verfälschen.
  guides: 1.1        # Qualitativ: Prinzipien oder Werte leiten das Thema.
  part_of: 1.1       # Strukturell: Zieht übergeordnete Kontexte (Parents) mit hoch.
  based_on: 0.8      # Fundament: Bezug auf Basis-Werte (kalibriert auf Safe-Retrieval).
  derived_from: 0.6  # Historisch: Dokumentiert die Herkunft von Wissen.
  uses: 0.6          # Instrumentell: Genutzte Werkzeuge, Methoden oder Ressourcen.

  # --- KATEGORIE 3: THEMATISCHE NÄHE (Ähnlichkeits-Signal) ---
  # Diese Werte verhindern den "Drift" in fachfremde Bereiche.
  similar_to: 0.4    # Analytisch: Thematische Nähe (oft KI-generiert).

  # --- KATEGORIE 4: SYSTEM-NUDGES (Technische Struktur) ---
  # Reine Orientierungshilfen für das System; fast kein Einfluss auf das Ranking.
  belongs_to: 0.2    # System: Verknüpft Chunks mit der Note (Metadaten-Träger).
  next: 0.1          # System: Technische Lesereihenfolge der Absätze.
  prev: 0.1          # System: Technische Lesereihenfolge der Absätze.

  # --- KATEGORIE 5: WEICHE ASSOZIATIONEN (Rausch-Unterdrückung) ---
  # Verhindert, dass lose Verknüpfungen das Ergebnis "verwässern".
  references: 0.1    # Assoziativ: Einfacher Querverweis oder Erwähnung.
  related_to: 0.05   # Minimal: Schwächste thematische Verbindung.