crm.clientright.ru/aiassist/vectorize.py

#!/var/www/laws/legal/bin/python3

from sentence_transformers import SentenceTransformer
from natasha import Doc, Segmenter, MorphVocab, NamesExtractor

# Инициализация моделей
#sbert_model = SentenceTransformer("paraphrase-MiniLM-L6-v2", device="cpu")
sbert_model = SentenceTransformer("/var/www/laws/models/paraphrase-MiniLM-L6-v2", device="cpu")
segmenter = Segmenter()
morph_vocab = MorphVocab()

import sys
import json
import sys

# Добавляем нужный путь для установки зависимостей, если требуется
sys.path.append('/var/www/laws/legal/bin/python3.11/site-packages')

from sentence_transformers import SentenceTransformer

def get_embedding(text):
    # Инициализируем модель на CPU
    sbert_model = SentenceTransformer("paraphrase-MiniLM-L6-v2", device="cpu")
    # Получаем эмбеддинг (модель возвращает numpy-массив)
    embedding = sbert_model.encode(text, show_progress_bar=False)
    # Преобразуем в список и возвращаем
    return embedding.tolist()

if __name__ == '__main__':
    # Считываем текст из аргументов командной строки
    input_text = sys.argv[1] if len(sys.argv) > 1 else ""
    vector = get_embedding(input_text)
    # Выводим результат в формате JSON
    print(json.dumps(vector))