From 4faf86fbbf5ada38cd1b77d661945f76e2576cfe Mon Sep 17 00:00:00 2001 From: Lars Date: Fri, 5 Sep 2025 09:22:15 +0200 Subject: [PATCH] app/core/qdrant.py aktualisiert --- app/core/qdrant.py | 148 ++++++++++++++++++++++----------------------- 1 file changed, 74 insertions(+), 74 deletions(-) diff --git a/app/core/qdrant.py b/app/core/qdrant.py index ea34d48..2efede8 100644 --- a/app/core/qdrant.py +++ b/app/core/qdrant.py @@ -1,6 +1,30 @@ -# app/core/qdrant.py -from __future__ import annotations +#!/usr/bin/env python3 +# -*- coding: utf-8 -*- +""" +Name: app/core/qdrant.py +Version: v1.3.0 (2025-09-05) +Kurzbeschreibung: + Qdrant-Client & Collection-Setup für mindnet. + - Stellt sicher, dass {prefix}_notes / {prefix}_chunks / {prefix}_edges vorhanden sind. + - **NEU:** ensure_collections(..., destructive=False) → keine Datenverluste im Dry-Run. + - Edges-Collection nutzt 1D Dummy-Vektor (Workaround für Python-Client). + +API: + - QdrantConfig.from_env() + - get_client(cfg) + - ensure_collections(client, prefix, dim, destructive=False) + +Änderungen: + v1.3.0: Destruktive Re-Creation von {prefix}_edges nur noch optional via destructive=True. + Default ist sicher (keine Löschung vorhandener Collections). + v1.2.x und älter: konnten {prefix}_edges automatisch löschen/re-anlegen. + +Quellen: + - QdrantClient & REST-Modelle (qdrant-client) + - Mindnet Edge-Workaround (1D-Vektor) wie zuvor. :contentReference[oaicite:1]{index=1} +""" +from __future__ import annotations import os from dataclasses import dataclass from typing import Optional @@ -9,10 +33,6 @@ from qdrant_client import QdrantClient from qdrant_client.http import models as rest -# ------------------------------- -# Konfiguration -# ------------------------------- - @dataclass class QdrantConfig: url: str @@ -22,99 +42,79 @@ class QdrantConfig: @staticmethod def from_env() -> "QdrantConfig": - # URL (bevorzugt) oder Host/Port url = os.getenv("QDRANT_URL") if not url: host = os.getenv("QDRANT_HOST", "127.0.0.1") port = int(os.getenv("QDRANT_PORT", "6333")) url = f"http://{host}:{port}" api_key = os.getenv("QDRANT_API_KEY") or None - - # Collection-Prefix und Vektor-Dimension prefix = os.getenv("COLLECTION_PREFIX", "mindnet") - dim = int(os.getenv("VECTOR_DIM", "384")) # MiniLM-384 by default - + dim = int(os.getenv("VECTOR_DIM", "384")) return QdrantConfig(url=url, api_key=api_key, prefix=prefix, dim=dim) -# ------------------------------- -# Client / Setup -# ------------------------------- - def get_client(cfg: QdrantConfig) -> QdrantClient: - """ - Erstellt einen QdrantClient basierend auf der Config. - """ return QdrantClient(url=cfg.url, api_key=cfg.api_key) -def ensure_collections(client: QdrantClient, prefix: str, dim: int) -> None: +def _create_notes(client: QdrantClient, name: str, dim: int) -> None: + if not client.collection_exists(name): + client.create_collection( + collection_name=name, + vectors_config=rest.VectorParams(size=dim, distance=rest.Distance.COSINE), + ) + + +def _create_chunks(client: QdrantClient, name: str, dim: int) -> None: + if not client.collection_exists(name): + client.create_collection( + collection_name=name, + vectors_config=rest.VectorParams(size=dim, distance=rest.Distance.COSINE), + ) + + +def _create_edges(client: QdrantClient, name: str) -> None: + if not client.collection_exists(name): + client.create_collection( + collection_name=name, + vectors_config=rest.VectorParams(size=1, distance=rest.Distance.DOT), # 1D-Dummy + ) + + +def ensure_collections(client: QdrantClient, prefix: str, dim: int, destructive: bool = False) -> None: """ - Stellt sicher, dass die drei Collections existieren: - - {prefix}_notes : Vektor-Dim = dim (COSINE) - - {prefix}_chunks : Vektor-Dim = dim (COSINE) - - {prefix}_edges : Vektor-Dim = 1 (DOT) <-- Dummy-Vektor, damit der Python-Client kein 'vector' zwingt - Falls {prefix}_edges bereits vektorlos existiert, wird sie gelöscht und mit 1D neu erstellt. + Stellt sicher, dass die drei Collections existieren. + - Default **nicht destruktiv**: vorhandene Collections bleiben unangetastet. + - Nur wenn 'destructive=True', wird eine ungeeignete Edges-Collection gelöscht und neu angelegt. + + Hinweis: + Frühere Versionen haben {prefix}_edges ggf. automatisch gelöscht (riskant in Dry-Runs). + Diese Version tut das **nur** auf ausdrücklichen Wunsch (destructive=True). """ notes = f"{prefix}_notes" chunks = f"{prefix}_chunks" edges = f"{prefix}_edges" - # Notes - if not client.collection_exists(notes): - client.create_collection( - collection_name=notes, - vectors_config=rest.VectorParams(size=dim, distance=rest.Distance.COSINE), - ) + _create_notes(client, notes, dim) + _create_chunks(client, chunks, dim) - # Chunks - if not client.collection_exists(chunks): - client.create_collection( - collection_name=chunks, - vectors_config=rest.VectorParams(size=dim, distance=rest.Distance.COSINE), - ) - - # Edges: 1D Dummy-Vektor (Workaround) - recreate_edges = False if client.collection_exists(edges): + # Prüfen, ob die Edges-Collection bereits eine Vektorkonfig hat try: info = client.get_collection(edges) - # Prüfen, ob Vektor-Konfig existiert vectors_cfg = getattr(getattr(info.result, "config", None), "params", None) - # Neuere Clients: info.result.config.params.vectors kann VectorParams oder dict sein has_vectors = getattr(vectors_cfg, "vectors", None) is not None - if not has_vectors: - recreate_edges = True except Exception: - # Wenn Metadaten nicht lesbar → sicherheitshalber neu anlegen - recreate_edges = True + has_vectors = True # konservativ: nichts anfassen + + if not has_vectors: + if destructive: + client.delete_collection(edges) + _create_edges(client, edges) + else: + # Sicher: behalten und nur warnen – keine Datenverluste + print(f"[ensure_collections] WARN: '{edges}' ohne VectorConfig gefunden; " + f"keine destruktive Änderung (destructive=False).", flush=True) + # sonst: alles gut, nichts tun else: - # Existiert noch nicht → wird gleich erstellt - pass - - if recreate_edges and client.collection_exists(edges): - client.delete_collection(edges) - - if not client.collection_exists(edges): - client.create_collection( - collection_name=edges, - vectors_config=rest.VectorParams(size=1, distance=rest.Distance.DOT), - ) - - -# ------------------------------- -# (Optionale) Utility-Funktionen -# ------------------------------- - -def collection_names(prefix: str) -> tuple[str, str, str]: - """Hilfsfunktion, falls du die Namen an einer Stelle brauchst.""" - return (f"{prefix}_notes", f"{prefix}_chunks", f"{prefix}_edges") - - -def wipe_collections(client: QdrantClient, prefix: str) -> None: - """ - Löscht alle drei Collections (nur nutzen, wenn du bewusst neu aufsetzen willst). - """ - for name in collection_names(prefix): - if client.collection_exists(name): - client.delete_collection(name) + _create_edges(client, edges)