crm.clientright.ru/КАК_НАСТРОИТЬ_OCR.md

# 🔍 КАК НАСТРОИТЬ OCR ДЛЯ CRM

## ✅ **РУССКИЙ ЯЗЫК УСТАНОВЛЕН!**

```
Tesseract OCR 5.5.0
Языки: eng, rus, osd
```

---

## 📝 **КАК СОЗДАТЬ ПРАВИЛО OCR:**

### **Шаг 1: Открой настройки Workflow**

```
https://office.clientright.ru:8443/settings/admin/workflow
```

Или через интерфейс:
```
Settings (справа вверху) → Administration → Flow
```

---

### **Шаг 2: Создай новое правило**

Нажми **"Add new workflow"** и настрой:

#### **УСЛОВИЯ (When/And):**

```
When: File created
  ↓
And: File MIME type
     - is: application/pdf
  ↓
And: File name
     - matches: *.pdf
  ↓
And: Path (опционально, если нужна конкретная папка)
     - matches: Documents/Project/*
```

#### **ДЕЙСТВИЕ (Then):**

```
Then: OCR processing
  ↓
Settings:
  - Languages: Russian + English  ← ВАЖНО!
  - Mode: Searchable PDF
  - Remove background: No
```

---

### **Шаг 3: Сохрани**

Нажми **"Save"**

---

## 🎯 **ПРИМЕРЫ ПРАВИЛ ДЛЯ CRM:**

### **Правило 1: OCR всех судебных документов**

```yaml
Name: "Судебные документы - автоматический OCR"

When: File created
And: File name matches: *решение*|*определение*|*постановление*
And: MIME type is: application/pdf
Then: OCR processing
  Languages: Russian + English
  Mode: Searchable PDF
```

**Результат:** Все решения/определения автоматически станут searchable

---

### **Правило 2: OCR сканов договоров**

```yaml
Name: "Договоры - OCR"

When: File created
And: Path matches: */Contracts/*
And: MIME type is: application/pdf
Then: OCR processing
  Languages: Russian + English
  Mode: Create text file (+ Searchable PDF)
```

**Результат:**
- Создаётся .txt файл с текстом
- PDF становится searchable

---

### **Правило 3: OCR всех загрузок в проекты**

```yaml
Name: "Проекты - автоматический OCR"

When: File created
And: Path matches: Documents/Project/*/
And: MIME type is: application/pdf
And: File size is less than: 10MB  ← чтобы не тормозить на больших файлах
Then: OCR processing
  Languages: Russian + English
```

---

## ⚡ **ПРОИЗВОДИТЕЛЬНОСТЬ:**

### **Время обработки:**
```
1 страница А4: ~3-5 секунд
10 страниц:    ~30-50 секунд
50 страниц:    ~3-5 минут
```

### **CPU:**
```
Во время OCR: 50-100% одного ядра
В остальное время: 0%
```

### **Память:**
```
Один файл: +50-100 MB
Nextcloud после OCR: обычная
```

---

## 🧪 **КАК ПРОТЕСТИРОВАТЬ:**

### **Тест 1: Ручной запуск OCR**

1. Открой любой PDF в Nextcloud
2. Нажми **"..."** (три точки)
3. Выбери **"Submit to optical character recognition"**
4. Выбери язык: **Russian + English**
5. Дождись обработки

**Результат:**
- Появится значок "✓" что OCR выполнен
- Текст можно искать через поиск Nextcloud

---

### **Тест 2: Автоматический OCR по правилу**

1. Создай правило (см. выше)
2. Загрузи тестовый PDF
3. Дождись 30-60 секунд
4. Проверь что файл стал searchable

**Проверка:**
```
Nextcloud → Files → Search
Введи слово из документа
Должен найтись PDF ✅
```

---

## 📊 **МОНИТОРИНГ OCR:**

### **Как проверить что OCR работает:**

**1. Через логи Nextcloud:**
```bash
docker exec nextcloud-fresh tail -f /var/www/html/data/nextcloud.log | grep -i ocr
```

**2. Через задачи:**
```
Settings → Administration → Background jobs
Ищи: workflow_ocr
```

**3. Через тег файла:**
```
В Nextcloud файлы с OCR получают тег "OCR processed"
```

---

## ⚠️ **ВАЖНЫЕ НЮАНСЫ:**

### **1. Размер файла**
```
Оптимально: < 10 MB
Медленно:   10-50 MB
Очень долго: > 50 MB
```

**Решение:** Добавь условие "File size < 10000000" в правило

---

### **2. Качество скана**
```
✅ Хорошо: 300 DPI, контрастный
⚠️  Средне: 150 DPI, нормальный
❌ Плохо: < 100 DPI, размытый
```

**Решение:** Попроси сканировать в 300 DPI

---

### **3. Очередь обработки**
```
Один файл за раз!
Если загружено 10 файлов → ждут очереди
```

**Решение:** Для массовой обработки лучше AppAPI (параллельно)

---

## 🎯 **РЕКОМЕНДУЕМАЯ НАСТРОЙКА ДЛЯ CRM:**

### **Правило 1: Важные документы (< 10 MB)**

```yaml
When: File created
And: Path matches: Documents/Project/*
And: MIME type: application/pdf
And: File size < 10MB
And: File name matches: *решение*|*определение*|*договор*|*иск*
Then: OCR (Russian + English, Searchable PDF)
```

### **Правило 2: Большие файлы (только текст)**

```yaml
When: File created
And: Path matches: Documents/Project/*
And: MIME type: application/pdf
And: File size >= 10MB
And: File name matches: *решение*|*определение*
Then: OCR (Russian + English, Text file only)
```

**Зачем два правила?**
- Маленькие файлы: полный OCR (searchable PDF)
- Большие файлы: только текст (быстрее)

---

## 🚀 **ДАВАЙ СОЗДАМ ПЕРВОЕ ПРАВИЛО?**

Я могу создать через API или покажу пошагово в интерфейсе.

**Какой вариант?**
1. Я создам автоматически через команду
2. Ты создашь сам через интерфейс (покажу как)

---

## 📝 **ИТОГО:**

✅ Tesseract с русским установлен
✅ Готов к использованию
⏳ Нужно создать правила workflow

**Создаём первое правило?** 😊