initialer Setup
This commit is contained in:
parent
24964cd507
commit
bd0e602b09
23
docs/backlog.md
Normal file
23
docs/backlog.md
Normal file
|
|
@ -0,0 +1,23 @@
|
|||
# Projekt-Backlog: CIA
|
||||
|
||||
## Epics & User Stories
|
||||
|
||||
### [EP-01] Infrastruktur & Core (Prio: Hoch)
|
||||
* **ST-01:** Setup Docker-Compose für Qdrant, n8n und Python-Worker. (Draft vorhanden)
|
||||
* **ST-02:** Einrichtung Gitea-Repository und Webhook-Anbindung an n8n.
|
||||
* **ST-03:** Konfiguration der Konnektivität zwischen n8n und lokalem Ollama.
|
||||
|
||||
### [EP-02] The Scout (Discovery) (Prio: Hoch)
|
||||
* **ST-04:** Entwicklung eines Moduls zur dynamischen Identifikation von News-Sektionen.
|
||||
* **ST-05:** Implementierung eines RSS/Sitemap-Scanners in n8n.
|
||||
|
||||
### [EP-03] The Harvester (Extraction) (Prio: Mittel)
|
||||
* **ST-06:** PDF-Download-Logik mit Retries und User-Agent-Rotation.
|
||||
* **ST-07:** OCR-Pipeline für nicht-durchsuchbare PDFs (Tesseract/OCRmyPDF).
|
||||
|
||||
### [EP-04] The Analyst (Intelligence) (Prio: Mittel)
|
||||
* **ST-08:** Prompt-Engineering für Abstracts und Kategorisierung via Ollama.
|
||||
* **ST-09:** Qdrant-Schema Definition und Embedding-Pipeline.
|
||||
|
||||
### [EP-05] The Consultant (Application) (Prio: Niedrig)
|
||||
* **ST-10:** RAG-Interface für vergleichende Fragen (z.B. McKinsey vs. BCG Themen).
|
||||
23
docs/requirements_specs.md
Normal file
23
docs/requirements_specs.md
Normal file
|
|
@ -0,0 +1,23 @@
|
|||
# Lastenheft: Consultancy Intelligence Agent (CIA)
|
||||
**Status:** Initial | **Datum:** 31.01.2026 | **Rolle:** Solution Architecture
|
||||
|
||||
## 1. Zielsetzung
|
||||
Automatisierte Überwachung, Extraktion und Analyse von Publikationen führender Unternehmensberatungen (z.B. McKinsey, BCG, Bain). Das System soll Wissen lokal sichern, strukturieren und für komplexe Abfragen (RAG) bereitstellen.
|
||||
|
||||
## 2. Funktionale Anforderungen (FA)
|
||||
* **FA-01: Dynamische Discovery:** Automatisches Finden von Publikations-URLs basierend auf Basis-Domains.
|
||||
* **FA-02: Web-Scraping:** Extraktion von Inhalten unter Umgehung von API-Kosten durch lokale Headless-Browser.
|
||||
* **FA-03: PDF-Management:** Download, OCR-Verarbeitung und lokale Speicherung auf Ubuntu Server.
|
||||
* **FA-04: Metadaten-Extraktion:** Identifikation von Datum, Autoren, Tags und Erstellung eines Abstracts via Ollama.
|
||||
* **FA-05: Vector-Storage:** Indizierung der Inhalte in Qdrant für semantische Suche.
|
||||
|
||||
## 3. Nicht-funktionale Anforderungen (NFA)
|
||||
* **NFA-01: Local-First:** Primäre Nutzung lokaler Ressourcen (Ollama, Ubuntu, Qdrant).
|
||||
* **NFA-02: Kosteneffizienz:** Minimierung von API-Calls durch Web-Scraping und lokale Modelle.
|
||||
* **NFA-03: Modularität:** Einfaches Hinzufügen neuer Beratungsanbieter über n8n-Nodes.
|
||||
|
||||
## 4. Ziel-Infrastruktur
|
||||
* **Orchestrator:** n8n (lokal)
|
||||
* **LLM:** Ollama (lokal) & OpenRouter (Fallback/Reasoning)
|
||||
* **Vector DB:** Qdrant (lokal)
|
||||
* **Development:** Cursor & Gitea
|
||||
16
docs/sprint_plan_01.md
Normal file
16
docs/sprint_plan_01.md
Normal file
|
|
@ -0,0 +1,16 @@
|
|||
# Sprint 01: "The Groundbreaker"
|
||||
**Zeitraum:** 01.02.2026 - 14.02.2026
|
||||
|
||||
## Sprint-Ziel
|
||||
Ein funktionaler PoC, der die Startseite von McKinsey analysiert, eine Publikation findet, diese herunterlädt und die Metadaten lokal speichert.
|
||||
|
||||
## Backlog-Items für diesen Sprint:
|
||||
1. **[ST-01] Infrastruktur:** Finalisierung der `docker-compose.yml`.
|
||||
2. **[ST-04] Scout-PoC:** Erstellung des n8n-Workflows für die dynamische Entdeckung von Links auf `mckinsey.com`.
|
||||
3. **[ST-06] Basic Harvester:** Download des ersten PDFs in das lokale Verzeichnis.
|
||||
4. **[ST-08] Metadata-Extraction:** Erstes Prompting-Experiment mit Ollama (Llama 3), um ein PDF-Abstract zu generieren.
|
||||
|
||||
## Definition of Done (DoD)
|
||||
- Docker-Container laufen stabil.
|
||||
- n8n kann PDFs erfolgreich auf den Ubuntu-Server schreiben.
|
||||
- Metadaten liegen als JSON-Datei neben dem PDF.
|
||||
20
docs/work_breakdown_structure.md
Normal file
20
docs/work_breakdown_structure.md
Normal file
|
|
@ -0,0 +1,20 @@
|
|||
# Work Breakdown Structure (WBS) - CIA
|
||||
|
||||
1. **PROJEKT-MANAGEMENT**
|
||||
- 1.1 Dokumentations-Setup (Lastenheft, Backlog)
|
||||
- 1.2 Gitea & Cursor Integration
|
||||
2. **INFRASTRUKTUR (Ubuntu Server)**
|
||||
- 2.1 Docker Stack (n8n, Qdrant, PostgreSQL)
|
||||
- 2.2 Ollama Model Provisioning (Llama3, Mistral)
|
||||
3. **SCOUT MODUL (Discovery)**
|
||||
- 3.1 Domain-Analyzer (LLM-gestützte Pfadsuche)
|
||||
- 3.2 URL-Monitor (Change Detection)
|
||||
4. **HARVESTER MODUL (Scraping & Storage)**
|
||||
- 4.1 Headless Scraper (Playwright/Browserless)
|
||||
- 4.2 File-System Storage Manager
|
||||
5. **ANALYST MODUL (Processing)**
|
||||
- 5.1 Text/Metadata Extractor
|
||||
- 5.2 Embedding Engine (Qdrant Sync)
|
||||
6. **INTERFACE (Querying)**
|
||||
- 6.1 RAG Workflow
|
||||
- 6.2 Comparison Agent (Logic)
|
||||
Loading…
Reference in New Issue
Block a user