initialer Setup

This commit is contained in:
Lars 2026-01-31 11:56:20 +01:00
parent 24964cd507
commit bd0e602b09
4 changed files with 82 additions and 0 deletions

23
docs/backlog.md Normal file
View File

@ -0,0 +1,23 @@
# Projekt-Backlog: CIA
## Epics & User Stories
### [EP-01] Infrastruktur & Core (Prio: Hoch)
* **ST-01:** Setup Docker-Compose für Qdrant, n8n und Python-Worker. (Draft vorhanden)
* **ST-02:** Einrichtung Gitea-Repository und Webhook-Anbindung an n8n.
* **ST-03:** Konfiguration der Konnektivität zwischen n8n und lokalem Ollama.
### [EP-02] The Scout (Discovery) (Prio: Hoch)
* **ST-04:** Entwicklung eines Moduls zur dynamischen Identifikation von News-Sektionen.
* **ST-05:** Implementierung eines RSS/Sitemap-Scanners in n8n.
### [EP-03] The Harvester (Extraction) (Prio: Mittel)
* **ST-06:** PDF-Download-Logik mit Retries und User-Agent-Rotation.
* **ST-07:** OCR-Pipeline für nicht-durchsuchbare PDFs (Tesseract/OCRmyPDF).
### [EP-04] The Analyst (Intelligence) (Prio: Mittel)
* **ST-08:** Prompt-Engineering für Abstracts und Kategorisierung via Ollama.
* **ST-09:** Qdrant-Schema Definition und Embedding-Pipeline.
### [EP-05] The Consultant (Application) (Prio: Niedrig)
* **ST-10:** RAG-Interface für vergleichende Fragen (z.B. McKinsey vs. BCG Themen).

View File

@ -0,0 +1,23 @@
# Lastenheft: Consultancy Intelligence Agent (CIA)
**Status:** Initial | **Datum:** 31.01.2026 | **Rolle:** Solution Architecture
## 1. Zielsetzung
Automatisierte Überwachung, Extraktion und Analyse von Publikationen führender Unternehmensberatungen (z.B. McKinsey, BCG, Bain). Das System soll Wissen lokal sichern, strukturieren und für komplexe Abfragen (RAG) bereitstellen.
## 2. Funktionale Anforderungen (FA)
* **FA-01: Dynamische Discovery:** Automatisches Finden von Publikations-URLs basierend auf Basis-Domains.
* **FA-02: Web-Scraping:** Extraktion von Inhalten unter Umgehung von API-Kosten durch lokale Headless-Browser.
* **FA-03: PDF-Management:** Download, OCR-Verarbeitung und lokale Speicherung auf Ubuntu Server.
* **FA-04: Metadaten-Extraktion:** Identifikation von Datum, Autoren, Tags und Erstellung eines Abstracts via Ollama.
* **FA-05: Vector-Storage:** Indizierung der Inhalte in Qdrant für semantische Suche.
## 3. Nicht-funktionale Anforderungen (NFA)
* **NFA-01: Local-First:** Primäre Nutzung lokaler Ressourcen (Ollama, Ubuntu, Qdrant).
* **NFA-02: Kosteneffizienz:** Minimierung von API-Calls durch Web-Scraping und lokale Modelle.
* **NFA-03: Modularität:** Einfaches Hinzufügen neuer Beratungsanbieter über n8n-Nodes.
## 4. Ziel-Infrastruktur
* **Orchestrator:** n8n (lokal)
* **LLM:** Ollama (lokal) & OpenRouter (Fallback/Reasoning)
* **Vector DB:** Qdrant (lokal)
* **Development:** Cursor & Gitea

16
docs/sprint_plan_01.md Normal file
View File

@ -0,0 +1,16 @@
# Sprint 01: "The Groundbreaker"
**Zeitraum:** 01.02.2026 - 14.02.2026
## Sprint-Ziel
Ein funktionaler PoC, der die Startseite von McKinsey analysiert, eine Publikation findet, diese herunterlädt und die Metadaten lokal speichert.
## Backlog-Items für diesen Sprint:
1. **[ST-01] Infrastruktur:** Finalisierung der `docker-compose.yml`.
2. **[ST-04] Scout-PoC:** Erstellung des n8n-Workflows für die dynamische Entdeckung von Links auf `mckinsey.com`.
3. **[ST-06] Basic Harvester:** Download des ersten PDFs in das lokale Verzeichnis.
4. **[ST-08] Metadata-Extraction:** Erstes Prompting-Experiment mit Ollama (Llama 3), um ein PDF-Abstract zu generieren.
## Definition of Done (DoD)
- Docker-Container laufen stabil.
- n8n kann PDFs erfolgreich auf den Ubuntu-Server schreiben.
- Metadaten liegen als JSON-Datei neben dem PDF.

View File

@ -0,0 +1,20 @@
# Work Breakdown Structure (WBS) - CIA
1. **PROJEKT-MANAGEMENT**
- 1.1 Dokumentations-Setup (Lastenheft, Backlog)
- 1.2 Gitea & Cursor Integration
2. **INFRASTRUKTUR (Ubuntu Server)**
- 2.1 Docker Stack (n8n, Qdrant, PostgreSQL)
- 2.2 Ollama Model Provisioning (Llama3, Mistral)
3. **SCOUT MODUL (Discovery)**
- 3.1 Domain-Analyzer (LLM-gestützte Pfadsuche)
- 3.2 URL-Monitor (Change Detection)
4. **HARVESTER MODUL (Scraping & Storage)**
- 4.1 Headless Scraper (Playwright/Browserless)
- 4.2 File-System Storage Manager
5. **ANALYST MODUL (Processing)**
- 5.1 Text/Metadata Extractor
- 5.2 Embedding Engine (Qdrant Sync)
6. **INTERFACE (Querying)**
- 6.1 RAG Workflow
- 6.2 Comparison Agent (Logic)