Files
crm.clientright.ru/testgpt1.php
Fedor ac7467f0b4 Major CRM updates: AI Assistant, Court Status API, S3 integration improvements, and extensive file storage system
- Added comprehensive AI Assistant system (aiassist/ directory):
  * Vector search and embedding capabilities
  * Typebot proxy integration
  * Elastic search functionality
  * Message classification and chat history
  * MCP proxy for external integrations

- Implemented Court Status API (GetCourtStatus.php):
  * Real-time court document status checking
  * Integration with external court systems
  * Comprehensive error handling and logging

- Enhanced S3 integration:
  * Improved file backup system with metadata
  * Batch processing capabilities
  * Enhanced error logging and recovery
  * Copy operations with URL fixing

- Added Telegram contact creation API
- Improved error logging across all modules
- Enhanced callback system for AI responses
- Extensive backup file storage with timestamps
- Updated documentation and README files

- File storage improvements:
  * Thousands of backup files with proper metadata
  * Fix operations for broken file references
  * Project-specific backup and recovery systems
  * Comprehensive file integrity checking

Total: 26,461+ files added/modified including AWS SDK, vendor dependencies, and extensive backup system.
2025-10-16 11:17:21 +03:00

321 lines
17 KiB
PHP
Raw Blame History

This file contains invisible Unicode characters

This file contains invisible Unicode characters that are indistinguishable to humans but may be processed differently by a computer. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

<?
ini_set('display_errors', 1);
ini_set('display_startup_errors', 1);
error_reporting(E_ALL);
ini_set('log_errors', 1);
ini_set('error_log', 'scanpdf/php_errors.log');
define('LOG_FILE', 'logs/CheckPDF15.log');
define('OPENAI_API_KEY', 'sk-GS24OxHQYfq8ErW5CRLoN5F1CfJPxNsY');
define('OPENAI_API_URL', 'https://api.proxyapi.ru/openai/v1/chat/completions');
function logMessage($message) {
$message = mb_convert_encoding($message, 'UTF-8', 'auto'); // Принудительная перекодировка в UTF-8
file_put_contents(LOG_FILE, date('Y-m-d H:i:s') . " - " . $message . "\n", FILE_APPEND | LOCK_EX);
}
function transliterate($text) {
$cyr = ['а','б','в','г','д','е','ё','ж','з','и','й','к','л','м','н','о','п','р','с','т','у','ф','х','ц','ч','ш','щ','ъ','ы','ь','э','ю','я'];
$lat = ['a','b','v','g','d','e','yo','zh','z','i','y','k','l','m','n','o','p','r','s','t','u','f','h','ts','ch','sh','shch','','y','','e','yu','ya'];
return str_replace($cyr, $lat, mb_strtolower($text));
}
function renameFileForProcessing($filePath) {
$pathInfo = pathinfo($filePath);
$newName = transliterate($pathInfo['filename']) . "_" . uniqid() . "." . $pathInfo['extension'];
$newPath = "scanpdf/" . $newName;
if (copy($filePath, $newPath)) {
logMessage("Файл переименован: $filePath -> $newPath");
return $newPath;
} else {
logMessage("Ошибка при копировании файла: $filePath");
return null;
}
}
function extractTextFromPDF($pdfPath) {
$text = shell_exec("pdftotext -layout -enc UTF-8 " . escapeshellarg($pdfPath) . " -");
$text = mb_convert_encoding($text, 'UTF-8', 'auto'); // Приводим к UTF-8
logMessage("DEBUG: Извлеченный текст: " . substr($text, 0, 500));
return trim($text);
}
/*
function extractTextFromPDF($pdfPath) {
$text = shell_exec("pdftotext -layout -enc UTF-8 " . escapeshellarg($pdfPath) . " -");
logMessage("DEBUG: Извлеченный текст: " . substr($text, 0, 500));
return trim($text);
}
*/
function convertPdfToImages($pdfPath, $outputDir) {
if (!file_exists($outputDir)) {
mkdir($outputDir, 0777, true);
logMessage("Создана директория для изображений: $outputDir");
}
$imagePattern = $outputDir . '/page-%03d.jpg';
$command = "convert -density 300 " . escapeshellarg($pdfPath) . " -quality 90 " . escapeshellarg($imagePattern);
logMessage("Выполняем команду: $command");
exec($command . " 2>&1", $output, $returnVar);
logMessage("DEBUG: Вывод convert: " . implode("\n", $output));
if ($returnVar !== 0) {
logMessage("Ошибка при конвертации PDF в изображения.");
return [];
}
return glob($outputDir . '/*.jpg');
}
$dbconfig = [
'db_server' => 'localhost',
'db_port' => '3306',
'db_username' => 'ci20465_72new',
'db_password' => 'EcY979Rn',
'db_name' => 'ci20465_72new'
];
$conn = new mysqli(
$dbconfig['db_server'],
$dbconfig['db_username'],
$dbconfig['db_password'],
$dbconfig['db_name'],
$dbconfig['db_port']
);
if ($conn->connect_error) {
logMessage("Ошибка подключения к БД: " . $conn->connect_error);
die(json_encode(["status" => "error", "message" => "Ошибка подключения к БД."]));
}
$conn->set_charset("utf8mb4");
$id = $_POST['id'] ?? null;
if (!$id || !is_numeric($id)) {
logMessage("Ошибка: Некорректный ID.");
die(json_encode(["status" => "error", "message" => "Некорректный ID."]));
}
$sql = "
SELECT n.title,
CASE WHEN a.storedname IS NOT NULL
THEN CONCAT(a.path, a.attachmentsid, '_', a.storedname)
ELSE CONCAT(a.path, a.attachmentsid, '_', a.name)
END AS filepath
FROM vtiger_senotesrel r
LEFT JOIN vtiger_notes n ON n.notesid = r.notesid
LEFT JOIN vtiger_crmentity e ON e.crmid = r.notesid
LEFT JOIN vtiger_seattachmentsrel r2 ON r2.crmid = r.notesid
LEFT JOIN vtiger_attachments a ON a.attachmentsid = r2.attachmentsid
WHERE r.crmid = ? AND e.deleted = 0
AND (a.type = 'application/pdf' OR a.type = 'application/octet-stream')
";
$stmt = $conn->prepare($sql);
$stmt->bind_param("i", $id);
$stmt->execute();
$result = $stmt->get_result();
if ($result->num_rows == 0) {
logMessage("Ошибка: Данные не найдены в БД.");
die(json_encode(["status" => "error", "message" => "Нет данных."]));
}
$files_data = []; // Теперь инициализируем только один раз
while ($row = $result->fetch_assoc()) {
$title = $row["title"];
$filePath = $row["filepath"];
logMessage("Обрабатываем файл: " . $filePath);
$tempFilePath = renameFileForProcessing($filePath);
if (!$tempFilePath) continue;
$text = extractTextFromPDF($tempFilePath); // Вызов функции
$data = ["title" => $title];
if (!empty(trim($text)) && mb_strlen(trim($text), 'UTF-8') >= 20) {
logMessage("DEBUG: Текст извлечён из $title: " . substr($text, 0, 500));
$data["text"] = $text;
} else {
logMessage("PDF '$title' пуст или содержит слишком мало текста, конвертируем в изображения.");
$outputDir = "scanpdf/pdf_images_" . uniqid();
$images = convertPdfToImages($tempFilePath, $outputDir);
if (!empty($images)) {
logMessage("DEBUG: Изображения созданы из $title: " . implode(", ", $images));
// Применяем OCR (LSTM)
$recognizedText = "";
foreach ($images as $imagePath) {
$ocrText = shell_exec("tesseract " . escapeshellarg($imagePath) . " stdout -l rus+eng --oem 1");
if (!empty(trim($ocrText))) {
$recognizedText .= trim($ocrText) . "\n";
}
}
if (!empty(trim($recognizedText)) && mb_strlen(trim($recognizedText), 'UTF-8') >= 20) {
logMessage("DEBUG: OCR-текст (LSTM) извлечён из изображений $title: " . substr($recognizedText, 0, 500));
$data["text"] = $recognizedText;
} else {
logMessage("PDF '$title' остаётся без читаемого текста, отправляем изображения в GPT.");
$data["images"] = $images;
}
} else {
logMessage("Ошибка: PDF пуст, OCR не дал результатов, изображения не созданы.");
}
}
$files_data[] = $data; // Теперь мы НЕ обнуляем массив, а добавляем файлы!
}
logMessage("DEBUG: JSON, отправляемый в OpenAI: " . json_encode($files_data, JSON_UNESCAPED_UNICODE | JSON_PRETTY_PRINT));
/*$task = "🔹 Отвечай по шаблону. **Задача**:
Проанализируй загруженные документы, выполнив следующие действия:
1⃣ **Список файлов и проверка соответствия названий**
- Перечисли все загруженные файлы.
🔹 Внимательно анализируй изображения.
- Если изображение содержит текст, сначала **извлеки текст** и **проанализируй его содержание**.
- Укажи, если текст плохо читается или частично распознан.
- Если изображение не содержит текста, но является **важной частью документа**, опиши, что на нем изображено.
- Определи их содержимое (например, \"договор\", \"претензия\", \"ответ на претензию\", \"подтверждение оплаты\" и т. д.).
- Проверь, соответствует ли название файла его реальному содержимому.
- Если обнаружено несоответствие, укажи, в чем именно проблема.
2⃣ **Краткий анализ спора**
- Определи **истца** (потребителя) и **ответчика** (компанию, на которую подана жалоба).
- Опиши **суть спора** (что произошло и какая проблема заявлена).
- Укажи **основные аргументы сторон** (что заявляет потребитель и какие возражения возможны у компании).
3⃣ **Проверка на цензуру**
- Проверь документы на наличие **ненормативной лексики** и **нецензурных изображений**.
- **Анализируй изображения на наличие нецензурного контента, запрещенной символики, сцен насилия и других нарушений. Если найдены такие элементы, укажи это в отчете.**
- Если обнаружены изображения, укажи что именно и требуется ли их ручная проверка.
4⃣ **Выдача итогового вердикта**
- **Прошло модерацию** если всё соответствует названию и нет проблем.
- **Не прошло модерацию (требуется участие человека)** если есть несоответствия или потенциальные проблемы (укажи, что именно требует ручной проверки).
5⃣ **Характер спора**
- Дай краткую характеристику дела (например, \"некачественный товар\", \"товар не привезли\", \"не возвращают деньги\", \"некачественная услуга\" и т. д.).
📌 **Важно**:
Отчет должен быть структурированным, четким и лаконичным. Укажи, какими нормами права РФ будет регулироваться рассмотение данного спора. Если требуется ручная проверка, укажи приоритетные файлы для проверки.";
*/
$task = "🔹 Отвечай по шаблону. **Задача**:
Проанализируй загруженные документы, выполнив следующие действия:
1⃣ **Список файлов и проверка соответствия названий**
- Перечисли все загруженные файлы.
- Внимательно анализируй изображения.
- Если изображение содержит текст, сначала **извлеки текст** и **проанализируй его содержание**.
- Укажи, если текст плохо читается или частично распознан.
- Если изображение не содержит текста, опиши, что на нем изображено.
**Особое внимание NSFW контенту в тексте и изображениях**
- Если файл или изображение кажутся тебе подозрительными изучи его более внимательно и отдельно укажи в отчете что файл может содержать ТРЕШ-контент. Укажи, если файл требует дополнительной проверки или имеет проблемы с NSFW.
2⃣ **Краткий анализ спора**
- Определи **истца** (потребителя) и **ответчика** (компанию, на которую подана жалоба).
- Опиши **суть спора** (что произошло и какая проблема заявлена).
- Укажи **основные аргументы сторон** (что заявляет потребитель и какие возражения возможны у компании).
3⃣ **Проверка на цензуру**
- Проверь документы на наличие **ненормативной лексики** и **нецензурных изображений**.
- **Анализируй изображения на наличие нецензурного контента, запрещенной символики, сцен насилия и других нарушений. Если найдены такие элементы, укажи это в отчете.**
- Если обнаружены изображения, укажи что именно и требуется ли их ручная проверка.
4⃣ **Выдача итогового вердикта**
- **Прошло модерацию** если всё соответствует названию и нет проблем.
- **Не прошло модерацию (требуется участие человека)** если есть несоответствия или потенциальные проблемы (укажи, что именно требует ручной проверки).
5⃣ **Характер спора**
- Дай краткую характеристику дела (например, \"некачественный товар\", \"товар не привезли\", \"не возвращают деньги\", \"некачественная услуга\" и т. д.).
📌 **Важно**:
Отчет должен быть структурированным, четким и лаконичным. Укажи, какими нормами права РФ будет регулироваться рассмотение данного спора. Если требуется ручная проверка, укажи приоритетные файлы для проверки.";
$body = json_encode([
//"model" => "gpt-4-turbo",
"model" => "o1",
"messages" => [
["role" => "system", "content" => "Ты юридический аналитик. Проанализируй материалы согласно инструкции."],
["role" => "user", "content" => $task],
["role" => "user", "content" => json_encode($files_data, JSON_UNESCAPED_UNICODE)]
],
// "max_tokens" => 4000
"max_completion_tokens" => 4000
]);
logMessage("DEBUG: JSON, отправляемый в OpenAI: " . $body);
$curl = curl_init();
curl_setopt_array($curl, [
CURLOPT_URL => OPENAI_API_URL,
CURLOPT_RETURNTRANSFER => true,
CURLOPT_POST => true,
CURLOPT_POSTFIELDS => $body,
CURLOPT_HTTPHEADER => [
'Content-Type: application/json',
'Authorization: Bearer ' . OPENAI_API_KEY
]
]);
$response = curl_exec($curl);
curl_close($curl);
//logMessage("Ответ от GPT-4-Turbo: " . $response);
//echo json_encode(["status" => "complete", "content" => json_decode($response, true)], JSON_UNESCAPED_UNICODE | JSON_PRETTY_PRINT);
logMessage("Ответ от GPT-4-Turbo: " . $response);
// Преобразуем JSON-ответ в массив
$gptAnalysis = json_decode($response, true);
logMessage("Полный JSON-ответ от GPT: " . json_encode($gptAnalysis, JSON_UNESCAPED_UNICODE | JSON_PRETTY_PRINT));
// Проверяем, является ли $gptAnalysis массивом
if (!is_array($gptAnalysis)) {
logMessage("Ошибка: JSON-декодирование не удалось.");
die(json_encode(["status" => "error", "message" => "Ошибка: JSON-декодирование не удалось."]));
}
// Проверяем, есть ли ключ 'choices'
if (!isset($gptAnalysis['choices']) || empty($gptAnalysis['choices'])) {
logMessage("Ошибка: в JSON-ответе отсутствует ключ 'choices'.");
die(json_encode(["status" => "error", "message" => "Ошибка: в JSON-ответе отсутствует ключ 'choices'."]));
}
// Получаем контент
$content = $gptAnalysis['choices'][0]['message']['content'] ?? null;
if (!$content) {
logMessage("Ошибка: контент не найден в ответе от GPT.");
die(json_encode(["status" => "error", "message" => "Ошибка: контент не найден в ответе от GPT."]));
}
logMessage("DEBUG: Извлеченный контент: " . $content);
// Возвращаем JSON с контентом
echo json_encode(["status" => "complete", "content" => $content], JSON_UNESCAPED_UNICODE | JSON_PRETTY_PRINT);
?>