diff --git a/docs/chunking_strategy.md b/docs/chunking_strategy.md index 0949887..d9e2f40 100644 --- a/docs/chunking_strategy.md +++ b/docs/chunking_strategy.md @@ -44,7 +44,13 @@ Entwickle eine robuste, parser-freundliche **Chunking-Strategie** für Markdown- | `concept` | definierte Begriffe, Erklärungen | 250–400 | 550 | 40–60 | Definition separat halten | | `source` | Metadaten + Auszüge/Notizen | 200–350 | 500 | 30–50 | Zitate als eigene Chunks (Urheberrecht) | +## 4.1 Overlap-Regeln +- Overlap **nie mitten im Satz** beenden → mindestens **ein kompletter Satz** wandert in den nächsten Chunk. +- An **Absatzgrenzen** ausrichten, wenn möglich. +- Bei **Listen** ggf. den vorherigen Punkt als Overlap mitführen (falls < 50 Tokens). +- Codeblöcke und Tabellen **nicht splitten**; wenn sie größer als `Max-Tokens` sind, als **eigener Chunk** belassen (Ausnahmefall zulassen). **Daumenregel (zeichenzentriert):** ~4 Zeichen ≈ 1 Token → 800–1600 Zeichen Ziel; Overlap ~120–240 Zeichen (≈ 30–60 Tokens). +**Mindestanforderung:** Keine Trennung innerhalb von Sätzen. Sicherstellung, dass immer an Satzenden gechunct wird **Default für mindnet:** **~300 Tokens** + **~50 Tokens Overlap**; per `type` feinjustieren (siehe Tabelle). ---