From bd0e602b09f1d3f97eeaabe56803d357ed3270e4 Mon Sep 17 00:00:00 2001
From: Lars <Lars@stommer.de>
Date: Sat, 31 Jan 2026 11:56:20 +0100
Subject: [PATCH] initialer Setup

---
 docs/backlog.md                  | 23 +++++++++++++++++++++++
 docs/requirements_specs.md       | 23 +++++++++++++++++++++++
 docs/sprint_plan_01.md           | 16 ++++++++++++++++
 docs/work_breakdown_structure.md | 20 ++++++++++++++++++++
 4 files changed, 82 insertions(+)
 create mode 100644 docs/backlog.md
 create mode 100644 docs/requirements_specs.md
 create mode 100644 docs/sprint_plan_01.md
 create mode 100644 docs/work_breakdown_structure.md

diff --git a/docs/backlog.md b/docs/backlog.md
new file mode 100644
index 0000000..141b830
--- /dev/null
+++ b/docs/backlog.md
@@ -0,0 +1,23 @@
+# Projekt-Backlog: CIA
+
+## Epics & User Stories
+
+### [EP-01] Infrastruktur & Core (Prio: Hoch)
+* **ST-01:** Setup Docker-Compose für Qdrant, n8n und Python-Worker. (Draft vorhanden)
+* **ST-02:** Einrichtung Gitea-Repository und Webhook-Anbindung an n8n.
+* **ST-03:** Konfiguration der Konnektivität zwischen n8n und lokalem Ollama.
+
+### [EP-02] The Scout (Discovery) (Prio: Hoch)
+* **ST-04:** Entwicklung eines Moduls zur dynamischen Identifikation von News-Sektionen.
+* **ST-05:** Implementierung eines RSS/Sitemap-Scanners in n8n.
+
+### [EP-03] The Harvester (Extraction) (Prio: Mittel)
+* **ST-06:** PDF-Download-Logik mit Retries und User-Agent-Rotation.
+* **ST-07:** OCR-Pipeline für nicht-durchsuchbare PDFs (Tesseract/OCRmyPDF).
+
+### [EP-04] The Analyst (Intelligence) (Prio: Mittel)
+* **ST-08:** Prompt-Engineering für Abstracts und Kategorisierung via Ollama.
+* **ST-09:** Qdrant-Schema Definition und Embedding-Pipeline.
+
+### [EP-05] The Consultant (Application) (Prio: Niedrig)
+* **ST-10:** RAG-Interface für vergleichende Fragen (z.B. McKinsey vs. BCG Themen).
\ No newline at end of file
diff --git a/docs/requirements_specs.md b/docs/requirements_specs.md
new file mode 100644
index 0000000..a06eb11
--- /dev/null
+++ b/docs/requirements_specs.md
@@ -0,0 +1,23 @@
+# Lastenheft: Consultancy Intelligence Agent (CIA)
+**Status:** Initial | **Datum:** 31.01.2026 | **Rolle:** Solution Architecture
+
+## 1. Zielsetzung
+Automatisierte Überwachung, Extraktion und Analyse von Publikationen führender Unternehmensberatungen (z.B. McKinsey, BCG, Bain). Das System soll Wissen lokal sichern, strukturieren und für komplexe Abfragen (RAG) bereitstellen.
+
+## 2. Funktionale Anforderungen (FA)
+* **FA-01: Dynamische Discovery:** Automatisches Finden von Publikations-URLs basierend auf Basis-Domains.
+* **FA-02: Web-Scraping:** Extraktion von Inhalten unter Umgehung von API-Kosten durch lokale Headless-Browser.
+* **FA-03: PDF-Management:** Download, OCR-Verarbeitung und lokale Speicherung auf Ubuntu Server.
+* **FA-04: Metadaten-Extraktion:** Identifikation von Datum, Autoren, Tags und Erstellung eines Abstracts via Ollama.
+* **FA-05: Vector-Storage:** Indizierung der Inhalte in Qdrant für semantische Suche.
+
+## 3. Nicht-funktionale Anforderungen (NFA)
+* **NFA-01: Local-First:** Primäre Nutzung lokaler Ressourcen (Ollama, Ubuntu, Qdrant).
+* **NFA-02: Kosteneffizienz:** Minimierung von API-Calls durch Web-Scraping und lokale Modelle.
+* **NFA-03: Modularität:** Einfaches Hinzufügen neuer Beratungsanbieter über n8n-Nodes.
+
+## 4. Ziel-Infrastruktur
+* **Orchestrator:** n8n (lokal)
+* **LLM:** Ollama (lokal) & OpenRouter (Fallback/Reasoning)
+* **Vector DB:** Qdrant (lokal)
+* **Development:** Cursor & Gitea
\ No newline at end of file
diff --git a/docs/sprint_plan_01.md b/docs/sprint_plan_01.md
new file mode 100644
index 0000000..47a68b8
--- /dev/null
+++ b/docs/sprint_plan_01.md
@@ -0,0 +1,16 @@
+# Sprint 01: "The Groundbreaker"
+**Zeitraum:** 01.02.2026 - 14.02.2026
+
+## Sprint-Ziel
+Ein funktionaler PoC, der die Startseite von McKinsey analysiert, eine Publikation findet, diese herunterlädt und die Metadaten lokal speichert.
+
+## Backlog-Items für diesen Sprint:
+1. **[ST-01] Infrastruktur:** Finalisierung der `docker-compose.yml`.
+2. **[ST-04] Scout-PoC:** Erstellung des n8n-Workflows für die dynamische Entdeckung von Links auf `mckinsey.com`.
+3. **[ST-06] Basic Harvester:** Download des ersten PDFs in das lokale Verzeichnis.
+4. **[ST-08] Metadata-Extraction:** Erstes Prompting-Experiment mit Ollama (Llama 3), um ein PDF-Abstract zu generieren.
+
+## Definition of Done (DoD)
+- Docker-Container laufen stabil.
+- n8n kann PDFs erfolgreich auf den Ubuntu-Server schreiben.
+- Metadaten liegen als JSON-Datei neben dem PDF.
\ No newline at end of file
diff --git a/docs/work_breakdown_structure.md b/docs/work_breakdown_structure.md
new file mode 100644
index 0000000..ab1ccb9
--- /dev/null
+++ b/docs/work_breakdown_structure.md
@@ -0,0 +1,20 @@
+# Work Breakdown Structure (WBS) - CIA
+
+1. **PROJEKT-MANAGEMENT**
+   - 1.1 Dokumentations-Setup (Lastenheft, Backlog)
+   - 1.2 Gitea & Cursor Integration
+2. **INFRASTRUKTUR (Ubuntu Server)**
+   - 2.1 Docker Stack (n8n, Qdrant, PostgreSQL)
+   - 2.2 Ollama Model Provisioning (Llama3, Mistral)
+3. **SCOUT MODUL (Discovery)**
+   - 3.1 Domain-Analyzer (LLM-gestützte Pfadsuche)
+   - 3.2 URL-Monitor (Change Detection)
+4. **HARVESTER MODUL (Scraping & Storage)**
+   - 4.1 Headless Scraper (Playwright/Browserless)
+   - 4.2 File-System Storage Manager
+5. **ANALYST MODUL (Processing)**
+   - 5.1 Text/Metadata Extractor
+   - 5.2 Embedding Engine (Qdrant Sync)
+6. **INTERFACE (Querying)**
+   - 6.1 RAG Workflow
+   - 6.2 Comparison Agent (Logic)
\ No newline at end of file