Skip to content

Named entity recognition (NER). Extraction of features from images of receipts with different formats. #NER #OCR 🛒🏷️

Notifications You must be signed in to change notification settings

pilarcode/receipt-ocr

Repository files navigation

Object Character Recognition(OCR) pytesseract

Overview

  • Este notebook contiene un experimento sobre las funcionales que podemos realizar con Pytesseract, una libreria open source para optical character recognition.

  • También contiene un servicio web con Flask que recibe una imagen codificada en base64 y realiza la extracción de caractéristicas de la imagen del recibo (precio item,descripción item, total). Ese servicio llama a servicios de AWS para la extracción de entidades y utiliza expresiones regulares en el prepocesamiento.

Notes

Clasificar las compras nos permite predecir los gastos que realizará un cliente o realizar compras de forma automática.

  • Implementar un servicio web para el reconocimiento de texto en imágenes como alternativa al que ya se encuentra disponible en la plataforma de Aws que es de coste.
  • Explorar los datasets de facturas o recibos disponibles en el estado del arte para utilizarlo en nuestro caso de uso.
  • Tarea de extracción de datos. Dada una imagen de un recibo o ticket de compra obtener el nombre del establecimiento donde se realizo la compra, fecha de la compra y el listado de los productos (establecimiento, nombre producto, precio del producto) en formato texto.
  • Tarea de almacenamiento: Guardar la información del fichero txt en una base de datos NoSQL ( por ejemplo: Amazon DynamoDB) para categorizar las compras.

Resources

OCR opensource

Datasets

About

Named entity recognition (NER). Extraction of features from images of receipts with different formats. #NER #OCR 🛒🏷️

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published