From bd0e602b09f1d3f97eeaabe56803d357ed3270e4 Mon Sep 17 00:00:00 2001 From: Lars Date: Sat, 31 Jan 2026 11:56:20 +0100 Subject: [PATCH] initialer Setup --- docs/backlog.md | 23 +++++++++++++++++++++++ docs/requirements_specs.md | 23 +++++++++++++++++++++++ docs/sprint_plan_01.md | 16 ++++++++++++++++ docs/work_breakdown_structure.md | 20 ++++++++++++++++++++ 4 files changed, 82 insertions(+) create mode 100644 docs/backlog.md create mode 100644 docs/requirements_specs.md create mode 100644 docs/sprint_plan_01.md create mode 100644 docs/work_breakdown_structure.md diff --git a/docs/backlog.md b/docs/backlog.md new file mode 100644 index 0000000..141b830 --- /dev/null +++ b/docs/backlog.md @@ -0,0 +1,23 @@ +# Projekt-Backlog: CIA + +## Epics & User Stories + +### [EP-01] Infrastruktur & Core (Prio: Hoch) +* **ST-01:** Setup Docker-Compose für Qdrant, n8n und Python-Worker. (Draft vorhanden) +* **ST-02:** Einrichtung Gitea-Repository und Webhook-Anbindung an n8n. +* **ST-03:** Konfiguration der Konnektivität zwischen n8n und lokalem Ollama. + +### [EP-02] The Scout (Discovery) (Prio: Hoch) +* **ST-04:** Entwicklung eines Moduls zur dynamischen Identifikation von News-Sektionen. +* **ST-05:** Implementierung eines RSS/Sitemap-Scanners in n8n. + +### [EP-03] The Harvester (Extraction) (Prio: Mittel) +* **ST-06:** PDF-Download-Logik mit Retries und User-Agent-Rotation. +* **ST-07:** OCR-Pipeline für nicht-durchsuchbare PDFs (Tesseract/OCRmyPDF). + +### [EP-04] The Analyst (Intelligence) (Prio: Mittel) +* **ST-08:** Prompt-Engineering für Abstracts und Kategorisierung via Ollama. +* **ST-09:** Qdrant-Schema Definition und Embedding-Pipeline. + +### [EP-05] The Consultant (Application) (Prio: Niedrig) +* **ST-10:** RAG-Interface für vergleichende Fragen (z.B. McKinsey vs. BCG Themen). \ No newline at end of file diff --git a/docs/requirements_specs.md b/docs/requirements_specs.md new file mode 100644 index 0000000..a06eb11 --- /dev/null +++ b/docs/requirements_specs.md @@ -0,0 +1,23 @@ +# Lastenheft: Consultancy Intelligence Agent (CIA) +**Status:** Initial | **Datum:** 31.01.2026 | **Rolle:** Solution Architecture + +## 1. Zielsetzung +Automatisierte Überwachung, Extraktion und Analyse von Publikationen führender Unternehmensberatungen (z.B. McKinsey, BCG, Bain). Das System soll Wissen lokal sichern, strukturieren und für komplexe Abfragen (RAG) bereitstellen. + +## 2. Funktionale Anforderungen (FA) +* **FA-01: Dynamische Discovery:** Automatisches Finden von Publikations-URLs basierend auf Basis-Domains. +* **FA-02: Web-Scraping:** Extraktion von Inhalten unter Umgehung von API-Kosten durch lokale Headless-Browser. +* **FA-03: PDF-Management:** Download, OCR-Verarbeitung und lokale Speicherung auf Ubuntu Server. +* **FA-04: Metadaten-Extraktion:** Identifikation von Datum, Autoren, Tags und Erstellung eines Abstracts via Ollama. +* **FA-05: Vector-Storage:** Indizierung der Inhalte in Qdrant für semantische Suche. + +## 3. Nicht-funktionale Anforderungen (NFA) +* **NFA-01: Local-First:** Primäre Nutzung lokaler Ressourcen (Ollama, Ubuntu, Qdrant). +* **NFA-02: Kosteneffizienz:** Minimierung von API-Calls durch Web-Scraping und lokale Modelle. +* **NFA-03: Modularität:** Einfaches Hinzufügen neuer Beratungsanbieter über n8n-Nodes. + +## 4. Ziel-Infrastruktur +* **Orchestrator:** n8n (lokal) +* **LLM:** Ollama (lokal) & OpenRouter (Fallback/Reasoning) +* **Vector DB:** Qdrant (lokal) +* **Development:** Cursor & Gitea \ No newline at end of file diff --git a/docs/sprint_plan_01.md b/docs/sprint_plan_01.md new file mode 100644 index 0000000..47a68b8 --- /dev/null +++ b/docs/sprint_plan_01.md @@ -0,0 +1,16 @@ +# Sprint 01: "The Groundbreaker" +**Zeitraum:** 01.02.2026 - 14.02.2026 + +## Sprint-Ziel +Ein funktionaler PoC, der die Startseite von McKinsey analysiert, eine Publikation findet, diese herunterlädt und die Metadaten lokal speichert. + +## Backlog-Items für diesen Sprint: +1. **[ST-01] Infrastruktur:** Finalisierung der `docker-compose.yml`. +2. **[ST-04] Scout-PoC:** Erstellung des n8n-Workflows für die dynamische Entdeckung von Links auf `mckinsey.com`. +3. **[ST-06] Basic Harvester:** Download des ersten PDFs in das lokale Verzeichnis. +4. **[ST-08] Metadata-Extraction:** Erstes Prompting-Experiment mit Ollama (Llama 3), um ein PDF-Abstract zu generieren. + +## Definition of Done (DoD) +- Docker-Container laufen stabil. +- n8n kann PDFs erfolgreich auf den Ubuntu-Server schreiben. +- Metadaten liegen als JSON-Datei neben dem PDF. \ No newline at end of file diff --git a/docs/work_breakdown_structure.md b/docs/work_breakdown_structure.md new file mode 100644 index 0000000..ab1ccb9 --- /dev/null +++ b/docs/work_breakdown_structure.md @@ -0,0 +1,20 @@ +# Work Breakdown Structure (WBS) - CIA + +1. **PROJEKT-MANAGEMENT** + - 1.1 Dokumentations-Setup (Lastenheft, Backlog) + - 1.2 Gitea & Cursor Integration +2. **INFRASTRUKTUR (Ubuntu Server)** + - 2.1 Docker Stack (n8n, Qdrant, PostgreSQL) + - 2.2 Ollama Model Provisioning (Llama3, Mistral) +3. **SCOUT MODUL (Discovery)** + - 3.1 Domain-Analyzer (LLM-gestützte Pfadsuche) + - 3.2 URL-Monitor (Change Detection) +4. **HARVESTER MODUL (Scraping & Storage)** + - 4.1 Headless Scraper (Playwright/Browserless) + - 4.2 File-System Storage Manager +5. **ANALYST MODUL (Processing)** + - 5.1 Text/Metadata Extractor + - 5.2 Embedding Engine (Qdrant Sync) +6. **INTERFACE (Querying)** + - 6.1 RAG Workflow + - 6.2 Comparison Agent (Logic) \ No newline at end of file