Word/PDF документи
Rekognita може не лише розпізнавати документи, а й генерувати реструктуровані документи у форматах DOCX та PDF зі збереженою структурою, таблицями та зображеннями.
Як це працює
Rekognita аналізує вхідний документ, будує графову структуру, і потім генерує чистий DOCX або PDF з правильним форматуванням:
- Заголовки зберігають ієрархію (H1, H2, H3…)
- Таблиці зберігають стовпці, рядки та заголовки
- Зображення та графіки вставляються з підписами
- Списки зберігають нумерацію та вкладеність
- Сноски та посилання відновлюються
API запит
POST /v1/documents/convert HTTP/1.1
Host: api.rekognita.com
Authorization: Bearer rk_sk_your_key
Content-Type: multipart/form-data
file=@scanned_document.pdf
output_format=docx # або "pdf"
model=rekognita-accurateВідповідь
{
"id": "doc_abc123",
"status": "completed",
"output_format": "docx",
"download_url": "/v1/documents/doc_abc123/download",
"expires_at": "2025-01-15T12:00:00Z",
"pages": 5,
"metadata": {
"processing_time_ms": 3200,
"model": "rekognita-accurate",
"tables_found": 3,
"images_found": 2
}
}Використання SDK
from rekognita import RekognitaClient
client = RekognitaClient()
# Конвертувати скан у DOCX
result = client.documents.convert(
file="scanned_invoice.pdf",
output_format="docx",
model="rekognita-accurate"
)
# Завантажити готовий DOCX
result.download("output/restructured_invoice.docx")
print(f"Збережено: {result.pages} сторінок, {result.metadata.tables_found} таблиць")
# Або отримати bytes
docx_bytes = result.content_bytes
with open("output.docx", "wb") as f:
f.write(docx_bytes)Додаткові параметри
| Параметр | Тип | Опис |
|---|---|---|
output_format | string | "docx" або "pdf" |
include_images | boolean | Включити зображення (за замовчуванням: true) |
page_range | string | Діапазон сторінок, напр. "1-5" |
template | string | ID шаблону для стилізації виходу |
language | string | Мова документа для OCR (auto-detect за замовчуванням) |
Порівняння з конкурентами
Інші OCR-інструменти видають лише плоский текст. Rekognita генерує повноцінні документи з відновленою структурою — готові до використання без ручного редагування.