From f9aad4c7d441b627aee7da9d8e4f48392e23e338 Mon Sep 17 00:00:00 2001 From: Lars Date: Tue, 2 Sep 2025 19:16:50 +0200 Subject: [PATCH] docs/chunking_strategy.md aktualisiert --- docs/chunking_strategy.md | 6 ++++++ 1 file changed, 6 insertions(+) diff --git a/docs/chunking_strategy.md b/docs/chunking_strategy.md index 0949887..d9e2f40 100644 --- a/docs/chunking_strategy.md +++ b/docs/chunking_strategy.md @@ -44,7 +44,13 @@ Entwickle eine robuste, parser-freundliche **Chunking-Strategie** für Markdown- | `concept` | definierte Begriffe, Erklärungen | 250–400 | 550 | 40–60 | Definition separat halten | | `source` | Metadaten + Auszüge/Notizen | 200–350 | 500 | 30–50 | Zitate als eigene Chunks (Urheberrecht) | +## 4.1 Overlap-Regeln +- Overlap **nie mitten im Satz** beenden → mindestens **ein kompletter Satz** wandert in den nächsten Chunk. +- An **Absatzgrenzen** ausrichten, wenn möglich. +- Bei **Listen** ggf. den vorherigen Punkt als Overlap mitführen (falls < 50 Tokens). +- Codeblöcke und Tabellen **nicht splitten**; wenn sie größer als `Max-Tokens` sind, als **eigener Chunk** belassen (Ausnahmefall zulassen). **Daumenregel (zeichenzentriert):** ~4 Zeichen ≈ 1 Token → 800–1600 Zeichen Ziel; Overlap ~120–240 Zeichen (≈ 30–60 Tokens). +**Mindestanforderung:** Keine Trennung innerhalb von Sätzen. Sicherstellung, dass immer an Satzenden gechunct wird **Default für mindnet:** **~300 Tokens** + **~50 Tokens Overlap**; per `type` feinjustieren (siehe Tabelle). ---