- Introduced configurable edge scoring with internal and external boosts for intra-note edges. - Added aggregation configuration to support note-level and chunk-level retrieval strategies. - Updated retriever and graph subgraph modules to utilize new scoring and aggregation logic. - Enhanced YAML configuration to include new parameters for edge scoring and aggregation levels. - Added boolean indexing for filtering based on edge properties in the setup script.
71 lines
3.6 KiB
YAML
71 lines
3.6 KiB
YAML
version: 1.3
|
|
|
|
# WP-26 Phase 2: Aggregation-Level für Retrieval
|
|
# - note: Beste Chunk pro Note (Default, wie bisher)
|
|
# - chunk: Alle Chunks individuell ranken
|
|
aggregation:
|
|
level: note # "note" (default) oder "chunk"
|
|
max_chunks_per_note: 3 # Optional: Limit bei "note"-Level
|
|
|
|
# WP-26 Phase 2: Edge-Scoring mit Intra-Note-Boost
|
|
edge_scoring:
|
|
internal_edge_boost: 1.2 # +20% Boost für Intra-Note-Edges (is_internal=true)
|
|
external_edge_boost: 1.0 # Standard für Inter-Note-Edges
|
|
|
|
scoring:
|
|
# W_sem: skaliert den Term (semantic_score * retriever_weight)
|
|
# Empfehlung Startwert: 1.0 → Semantik bleibt Hauptsignal
|
|
semantic_weight: 1.0
|
|
|
|
# W_edge: skaliert edge_bonus aus dem Subgraph
|
|
# Empfehlung: 0.8 → Graph ist deutlich spürbar, aber überstimmt Semantik nicht komplett
|
|
edge_weight: 0.8
|
|
|
|
# W_cent: skaliert centrality_bonus (Knoten-Zentralität im Subgraph)
|
|
# Empfehlung: 0.5 → zentrale Knoten werden bevorzugt, aber moderat
|
|
centrality_weight: 0.5
|
|
|
|
# WP-22 Stellschraube: Lifecycle (Status-basiertes Scoring)
|
|
# Bonus für verifiziertes Wissen, Malus für Entwürfe
|
|
lifecycle_weights:
|
|
stable: 1.2 # +20% Bonus
|
|
active: 1.0 # Standardwert
|
|
draft: 0.5 # -50% Malus
|
|
system: 0.0 # Hard Skip via Ingestion
|
|
|
|
# Die nachfolgenden Werte überschreiben die Defaults aus app/core/retriever_config.
|
|
# Wenn neue Kantentypen, z.B. durch Referenzierung innerhalb einer md-Datei im vault anders gewichtet werden sollen, dann muss hier die Konfiguration erfolgen
|
|
edge_types:
|
|
# --- KATEGORIE 1: LOGIK-BOOSTS (Relevanz-Treiber) ---
|
|
# Diese Kanten haben die Kraft, das semantische Ranking aktiv umzugestalten.
|
|
blocks: 1.6 # Kritisch: Risiken/Blocker müssen sofort sichtbar sein.
|
|
solves: 1.5 # Zielführend: Lösungen sind primäre Suchziele.
|
|
depends_on: 1.4 # Logisch: Harte fachliche Abhängigkeit.
|
|
resulted_in: 1.4 # Kausal: Ergebnisse und unmittelbare Konsequenzen.
|
|
followed_by: 1.3 # Sequenziell (User): Bewusst gesteuerte Wissenspfade.
|
|
caused_by: 1.2 # Kausal: Ursachen-Bezug (Basis für Intent-Boost).
|
|
preceded_by: 1.1 # Sequenziell (User): Rückwärts-Bezug in Logik-Ketten.
|
|
impacts: 1.2 # Langfristige Auswirkung/Einfluss
|
|
|
|
# --- KATEGORIE 2: QUALITATIVER KONTEXT (Stabilitäts-Stützen) ---
|
|
# Diese Kanten liefern wichtigen Kontext, ohne das Ergebnis zu verfälschen.
|
|
guides: 1.1 # Qualitativ: Prinzipien oder Werte leiten das Thema.
|
|
part_of: 1.1 # Strukturell: Zieht übergeordnete Kontexte (Parents) mit hoch.
|
|
based_on: 0.8 # Fundament: Bezug auf Basis-Werte (kalibriert auf Safe-Retrieval).
|
|
derived_from: 0.6 # Historisch: Dokumentiert die Herkunft von Wissen.
|
|
uses: 0.6 # Instrumentell: Genutzte Werkzeuge, Methoden oder Ressourcen.
|
|
|
|
# --- KATEGORIE 3: THEMATISCHE NÄHE (Ähnlichkeits-Signal) ---
|
|
# Diese Werte verhindern den "Drift" in fachfremde Bereiche.
|
|
similar_to: 0.4 # Analytisch: Thematische Nähe (oft KI-generiert).
|
|
|
|
# --- KATEGORIE 4: SYSTEM-NUDGES (Technische Struktur) ---
|
|
# Reine Orientierungshilfen für das System; fast kein Einfluss auf das Ranking.
|
|
belongs_to: 0.2 # System: Verknüpft Chunks mit der Note (Metadaten-Träger).
|
|
next: 0.1 # System: Technische Lesereihenfolge der Absätze.
|
|
prev: 0.1 # System: Technische Lesereihenfolge der Absätze.
|
|
|
|
# --- KATEGORIE 5: WEICHE ASSOZIATIONEN (Rausch-Unterdrückung) ---
|
|
# Verhindert, dass lose Verknüpfungen das Ergebnis "verwässern".
|
|
references: 0.1 # Assoziativ: Einfacher Querverweis oder Erwähnung.
|
|
related_to: 0.05 # Minimal: Schwächste thematische Verbindung. |