grabar-ocr

andylitalo/grabar-ocr

Manages pipeline to digitize "Grabar" (Classical Armenian) texts

Python Stars: 1 Forks: 0 ML/AI

classical-armenian ocr-pipeline document-digitization kubernetes-orchestration postgresql machine-learning historical-texts airflow

Summary

A comprehensive pipeline for digitizing Classical Armenian (Grabar) texts from scanned PDFs into a searchable, translated PostgreSQL database. The project integrates PDF layout detection (PyMuPDF, YOLOv8), fine-tuned optical character recognition (TrOCR), AI translation (Claude/GPT-4o), and database storage, all orchestrated by Apache Airflow on a k3s Kubernetes cluster with GPU acceleration.

View on GitHub

More in: Armenian Handwriting and Text OCR →

Similar Projects

portmind/armenian-ocr

An Armenian OCR pipeline combining CRAFT for text detection and a deep learning model for text recognition, specifica...

Python Stars: 16

armenian-ocr-toolkit

Serge-Ordanyan/armenian-ocr-toolkit

A Python toolkit for performing OCR on Armenian historical documents. It uses pytesseract with multiple preprocessing...

Python Stars: 0

v4nn4/haratch-ocr

A specialized OCR tool for digitizing historical Armenian newspapers from the Haratch archive. It automates downloadi...

Python Stars: 0

calfa-co/hye-tesseract

An open-source OCR model trained for Armenian text recognition, supporting Classical, Western, and Eastern Armenian. ...

Edi-Gevorgyan/armenian-ocr

A Java library that uses Google Cloud Vision API to extract Armenian text from images and saves the output to a .docx...

antranigv/arm2txt

A web application for Armenian OCR (Optical Character Recognition) built with Elixir and Phoenix. It extracts Armenia...

Elixir Stars: 9