- Краулеры: smart_crawler.py, regional_crawler.py - Аудит: audit_orel_to_excel.py, audit_chukotka_to_excel.py - РКН проверка: check_rkn_registry.py, recheck_unclear_rkn.py - Отчёты: create_orel_horizontal_report.py - Обработка: process_all_hotels_embeddings.py - Документация: README.md, DB_SCHEMA_REFERENCE.md
138 lines
6.3 KiB
Markdown
138 lines
6.3 KiB
Markdown
# 📊 ТЕКУЩЕЕ СОСТОЯНИЕ ПРОЕКТА "ОБЩЕСТВЕННЫЙ КОНТРОЛЬ ОТЕЛЕЙ"
|
||
|
||
**Дата:** 2025-10-11 01:06
|
||
**Статус:** В процессе
|
||
|
||
---
|
||
|
||
## 🎯 ОБЩИЙ ПРОГРЕСС
|
||
|
||
```
|
||
┌─────────────────────────────────────────────────────────────┐
|
||
│ ЭТАП 1: ПАРСИНГ РЕЕСТРА TOURISM.FSA.GOV.RU │
|
||
└─────────────────────────────────────────────────────────────┘
|
||
|
||
[████████████████████████████████████████] 100% ✅ ГОТОВО
|
||
|
||
✅ 33,773 отелей - базовые данные
|
||
⚙️ 10,500 отелей - детальная информация (31.1%)
|
||
└─ ETA: ~05:33 утра
|
||
└─ 3 параллельных потока активны
|
||
|
||
|
||
┌─────────────────────────────────────────────────────────────┐
|
||
│ ЭТАП 2: ФИЛЬТРАЦИЯ САНКТ-ПЕТЕРБУРГА │
|
||
└─────────────────────────────────────────────────────────────┘
|
||
|
||
[████████████████ ] 31.8% ⚙️
|
||
|
||
📊 Всего: 1,646 отелей
|
||
✅ Обработано: 523 отеля
|
||
🌐 С сайтами: 367 (70.2%)
|
||
🔮 Прогноз к утру: ~1,155 отелей с сайтами
|
||
|
||
|
||
┌─────────────────────────────────────────────────────────────┐
|
||
│ ЭТАП 3: КРАУЛИНГ САЙТОВ ОТЕЛЕЙ │
|
||
└─────────────────────────────────────────────────────────────┘
|
||
|
||
[█ ] 0.3% 🧪 ТЕСТ
|
||
|
||
🧪 Протестировано: 1 отель
|
||
📄 Спарсено: 15 страниц
|
||
💾 Сохранено: 2.9 MB сырого HTML в PostgreSQL
|
||
|
||
Извлечено:
|
||
✅ 3 телефона
|
||
✅ 3 email
|
||
✅ Формы обратной связи
|
||
✅ Онлайн-бронирование
|
||
|
||
|
||
┌─────────────────────────────────────────────────────────────┐
|
||
│ ЭТАП 4: ВЕКТОРИЗАЦИЯ В GRAPHITI │
|
||
└─────────────────────────────────────────────────────────────┘
|
||
|
||
[█ ] 0.3% 🧪 ТЕСТ
|
||
|
||
🧪 Протестировано: 1 отель
|
||
✅ 142 эпизода в Neo4j
|
||
✅ 28 сущностей
|
||
✅ 165 связей
|
||
✅ 104 эмбеддинга (1536-мерных)
|
||
✅ Semantic search работает
|
||
|
||
|
||
┌─────────────────────────────────────────────────────────────┐
|
||
│ ЭТАП 5: АУДИТ ПО 18 КРИТЕРИЯМ │
|
||
└─────────────────────────────────────────────────────────────┘
|
||
|
||
[ ] 0% 🧪 ТЕСТ
|
||
|
||
🧪 Протестировано: 8 критериев
|
||
✅ Semantic search находит релевантные данные
|
||
⚠️ Требуется LLM для точной классификации Да/Нет
|
||
|
||
Результаты теста:
|
||
✅ Контакты: найдены (score 0.349)
|
||
✅ ПДн политика: найдена (score 0.377)
|
||
✅ Режим работы: найден (score 0.329)
|
||
❌ Адрес: не найден
|
||
❌ Претензии: не найдено
|
||
|
||
```
|
||
|
||
---
|
||
|
||
## 💾 СТРУКТУРА БАЗЫ ДАННЫХ
|
||
|
||
### PostgreSQL (147.45.189.234:5432/default_db)
|
||
|
||
**Основные таблицы:**
|
||
- `hotel_main` - 33,773 записей (35 MB)
|
||
- `hotel_additional_info` - 10,500 записей
|
||
- `hotel_sanatorium` - 340 записей
|
||
- `hotel_services` - 165,918 записей
|
||
- `hotel_rooms` - 18,825 записей
|
||
- `hotel_raw_json` - 10,500 записей (backup)
|
||
|
||
**Краулинг сайтов:**
|
||
- `hotel_website_raw` - 15 страниц (сырой HTML)
|
||
- `hotel_website_meta` - 1 отель (метаданные)
|
||
- `hotel_website_processed` - 15 страниц (очищенный текст)
|
||
|
||
### Neo4j Graphiti (localhost:7687)
|
||
|
||
**Group ID: hotel_spb**
|
||
- `Episode` - 142 узла (чанки текста)
|
||
- `Entity` - 28 узлов (извлечённые сущности)
|
||
- `Relationships` - 165 связей
|
||
|
||
---
|
||
|
||
## 🚀 АКТИВНЫЕ ПРОЦЕССЫ
|
||
|
||
| Процесс | Статус | Прогресс | ETA |
|
||
|---------|--------|----------|-----|
|
||
| Детальный парсинг (3 потока) | ⚙️ Активен | 31.1% | ~05:33 |
|
||
| Universal API (порт 9200) | ✅ Работает | - | - |
|
||
| Search API (порт 9100) | ✅ Работает | - | - |
|
||
|
||
---
|
||
|
||
## 📋 СЛЕДУЮЩИЕ ШАГИ
|
||
|
||
1. ⏳ **Дождаться завершения детального парсинга** (~4 часа)
|
||
2. 🌐 **Запустить краулинг всех питерских отелей с сайтами** (~1,155 отелей)
|
||
3. 🔮 **Векторизация в Graphiti** (автоматически при краулинге)
|
||
4. 🔍 **Аудит по 18 критериям** (semantic search + LLM)
|
||
5. 📊 **Экспорт результатов в Excel**
|
||
|
||
---
|
||
|
||
**Текущий приоритет:** Запустить краулинг на 5 тестовых отелях для проверки системы?
|
||
|
||
|
||
|
||
|