docs/chunking_strategy.md aktualisiert
All checks were successful
Deploy mindnet to llm-node / deploy (push) Successful in 3s

This commit is contained in:
Lars 2025-09-02 19:16:50 +02:00
parent 4df24f4c73
commit f9aad4c7d4

View File

@ -44,7 +44,13 @@ Entwickle eine robuste, parser-freundliche **Chunking-Strategie** für Markdown-
| `concept` | definierte Begriffe, Erklärungen | 250400 | 550 | 4060 | Definition separat halten | | `concept` | definierte Begriffe, Erklärungen | 250400 | 550 | 4060 | Definition separat halten |
| `source` | Metadaten + Auszüge/Notizen | 200350 | 500 | 3050 | Zitate als eigene Chunks (Urheberrecht) | | `source` | Metadaten + Auszüge/Notizen | 200350 | 500 | 3050 | Zitate als eigene Chunks (Urheberrecht) |
## 4.1 Overlap-Regeln
- Overlap **nie mitten im Satz** beenden → mindestens **ein kompletter Satz** wandert in den nächsten Chunk.
- An **Absatzgrenzen** ausrichten, wenn möglich.
- Bei **Listen** ggf. den vorherigen Punkt als Overlap mitführen (falls < 50 Tokens).
- Codeblöcke und Tabellen **nicht splitten**; wenn sie größer als `Max-Tokens` sind, als **eigener Chunk** belassen (Ausnahmefall zulassen).
**Daumenregel (zeichenzentriert):** ~4 Zeichen ≈ 1 Token → 8001600 Zeichen Ziel; Overlap ~120240 Zeichen (≈ 3060 Tokens). **Daumenregel (zeichenzentriert):** ~4 Zeichen ≈ 1 Token → 8001600 Zeichen Ziel; Overlap ~120240 Zeichen (≈ 3060 Tokens).
**Mindestanforderung:** Keine Trennung innerhalb von Sätzen. Sicherstellung, dass immer an Satzenden gechunct wird
**Default für mindnet:** **~300 Tokens** + **~50 Tokens Overlap**; per `type` feinjustieren (siehe Tabelle). **Default für mindnet:** **~300 Tokens** + **~50 Tokens Overlap**; per `type` feinjustieren (siehe Tabelle).
--- ---