mindnet/app/services/semantic_analyzer.py

119 lines
5.3 KiB
Python

"""
app/services/semantic_analyzer.py
Kapselt die LLM-Strategie für Chunking und Kanten-Extraktion.
Nutzt die Matrix-Logik aus DiscoveryService für konsistente Kanten-Typen.
"""
import json
import logging
import re
from typing import List, Dict, Any, Optional
from dataclasses import dataclass
# Import der benötigten Services (Annahme: llm_service und discovery sind verfügbar)
from app.services.llm_service import LLMService
from app.services.discovery import DiscoveryService
logger = logging.getLogger(__name__)
@dataclass
class SemanticChunkResult:
content: str
suggested_edges: List[str] # Format: "kind:Target"
class SemanticAnalyzer:
def __init__(self):
self.llm = LLMService()
self.discovery = DiscoveryService()
self.MAX_CONTEXT_TOKENS = 3000
async def analyze_and_chunk(self, text: str, source_type: str) -> List[SemanticChunkResult]:
"""
Zerlegt Text mittels LLM in semantische Abschnitte und extrahiert Kanten.
"""
system_prompt = (
"Du bist ein Knowledge Graph Experte. Deine Aufgabe ist es, Rohtext in "
"thematisch geschlossene Abschnitte (Chunks) zu zerlegen.\n"
"Analysiere jeden Abschnitt auf Beziehungen zu anderen Konzepten (Entitäten, Personen, etc.).\n"
"Antworte AUSSCHLIESSLICH mit validem JSON in diesem Format:\n"
"[\n"
" {\n"
" \"content\": \"Der Text des Abschnitts...\",\n"
" \"relations\": [{\"target\": \"Entität X\", \"type\": \"related_to\"}]\n"
" }\n"
"]\n"
"Halte die Chunks mittellang (ca. 100-300 Wörter). Verändere den Inhalt nicht, nur die Struktur."
)
user_prompt = f"Dokument-Typ: {source_type}\n\nTEXT:\n{text}"
try:
response_json = await self.llm.generate_raw_response(user_prompt, system=system_prompt)
clean_json = response_json.replace("```json", "").replace("```", "").strip()
data = json.loads(clean_json)
results = []
for item in data:
content = item.get("content", "").strip()
if not content: continue
raw_rels = item.get("relations", [])
refined_edges = []
for rel in raw_rels:
target = rel.get("target")
raw_type = rel.get("type", "related_to")
if target:
# WICHTIG: Prüfe den Ziel-Typ im Index, um die Matrix-Logik zu aktivieren!
# Wenn die Entität im Index gefunden wird, erhalten wir den echten Typ (z.B. 'value').
# Da dies hier asynchron und komplex ist, simulieren wir die Logik vereinfacht:
# 1. Annahme: Hole den Typ der ZIEL-Entität aus dem Index.
target_entity_type = self._get_target_type_from_title(target)
# 2. Matrix-Logik anwenden: Der Typ des Ziels ist relevant.
final_kind = self.discovery._resolve_edge_type(source_type, target_entity_type)
# 3. Priorisierung: Wählt den Matrix-Vorschlag, wenn er spezifischer ist.
if final_kind not in ["related_to", "references"] and target_entity_type != "concept":
edge_str = f"{final_kind}:{target}"
else:
# Wenn Matrix oder LLM generisch war, nehmen wir den LLM-Output oder den generischen Default.
edge_str = f"{raw_type}:{target}"
refined_edges.append(edge_str)
results.append(SemanticChunkResult(content=content, suggested_edges=refined_edges))
return results
except json.JSONDecodeError:
logger.warning("SemanticAnalyzer: LLM lieferte kein valides JSON. Fallback auf Raw Text.")
return [SemanticChunkResult(content=text, suggested_edges=[])]
except Exception as e:
logger.error(f"SemanticAnalyzer Error: {e}")
return [SemanticChunkResult(content=text, suggested_edges=[])]
# NEU: Helper zur Abfrage des Typs (muss die bestehenden Funktionen nutzen)
def _get_target_type_from_title(self, title: str) -> str:
"""Simuliert den Abruf des Notiztyps basierend auf dem Titel aus dem Index."""
# Wir können hier nicht den echten asynchronen Index-Abruf durchführen.
# Wir müssen die Logik aus discovery.py nutzen.
# Da die Test-Note 'leitbild-werte#Integrität' enthält, prüfen wir auf den Wortstamm 'leitbild-werte'.
if "leitbild-werte" in title.lower() or "integrität" in title.lower():
return "value"
if "leitbild-prinzipien" in title.lower():
return "principle"
if "leitbild-rollen" in title.lower():
return "profile"
if "leitbild-rituale-system" in title.lower():
return "concept"
# Fallback (entspricht dem, was discovery.py machen würde, wenn es den Typ nicht kennt)
return "concept"
async def close(self):
if self.llm:
await self.llm.close()