API de JavaScript de código abierto para agregar y administrar OCR en aplicaciones web
Una biblioteca de JavaScript gratuita líder para agregar funcionalidad de reconocimiento óptico de caracteres (OCR) a aplicaciones web JS y transformar imágenes de texto impreso o escrito a mano en texto legible por máquina de forma gratuita.
Tesseract.js es una biblioteca JavaScript de código abierto muy útil que permite a los desarrolladores de software integrar la funcionalidad de reconocimiento óptico de caracteres (OCR) dentro de sus aplicaciones web con un mínimo esfuerzo y costo. OCR es el proceso de convertir imágenes de texto impreso o escrito a mano en texto legible por máquina. Tesseract.js es una adaptación del popular motor Tesseract OCR, que fue desarrollado originalmente por Hewlett-Packard en la década de 1980 y posteriormente mantenido por Google. Tesseract.js puede reconocer más de 100 idiomas, lo que lo convierte en una poderosa herramienta para los desarrolladores que buscan agregar funcionalidad OCR a sus aplicaciones web.
Tesseract.js es muy fácil de manejar y se puede utilizar para una variedad de tareas, como extraer texto de documentos escaneados, recibos y tarjetas de presentación, automatizar tareas de ingreso de datos y mejorar la funcionalidad de búsqueda dentro de aplicaciones web. Una de las ventajas clave de Tesseract.js es su capacidad para reconocer texto incluso cuando la imagen de entrada es de mala calidad o resolución. La biblioteca utiliza algoritmos de aprendizaje automático para mejorar la precisión de los resultados de OCR. También puede realizar análisis de diseño de página y detectar regiones de interés dentro de una imagen.
Tesseract.js se está volviendo popular debido a su facilidad de uso, así como a sus potentes capacidades de OCR, y puede ejecutarse sin problemas en un navegador o en un servidor con NodeJS. Proporciona una API sencilla que permite a los desarrolladores de software configurar opciones de OCR como el idioma, el modo de segmentación de páginas y los caracteres de la lista blanca. Su capacidad para reconocer texto a partir de imágenes de baja calidad y su compatibilidad con varios idiomas la convierten en una herramienta valiosa para una amplia gama de aplicaciones y una excelente opción para los desarrolladores que buscan agregar OCR a sus aplicaciones web.
Comenzando con Tesseract.js
La forma recomendada de instalar Tesseract.js es utilizando npm. Utilice el siguiente comando para una instalación sin problemas
Instalar Tesseract.jsvia npm
npm install tesseract.js
También puedes instalarlo manualmente; descargue los archivos de la última versión directamente desde el repositorio GitHub.
Convertir imagen en texto mediante la API de JavaScript
La biblioteca JavaScript de código abierto Tesseract.js facilita a los desarrolladores de software trabajar con varios tipos de imágenes como BMP, JPG, PNG, PBM, WebP y muchas más. La biblioteca admite la extracción de texto de imágenes para automatizar el procesamiento de textos en imágenes, archivos PDF y documentos escaneados. El siguiente ejemplo muestra cómo cargar una imagen y extraer texto de ella con solo un par de líneas de código. El argumento del idioma se utiliza para determinar los datos del idioma entrenado que se utilizarán en el procesamiento de imágenes. Los desarrolladores de software pueden utilizar varios idiomas aquí.
¿Cómo convertir una imagen en texto usando la API de JavaScript?
Tesseract.recognize(
image,language,
{
logger: m => console.log(m)
}
)
.catch (err => {
console.error(err);
})
.then(result => {
console.log(result);
})
}
Leer una región de imagen y extraer texto mediante JS API
La biblioteca JavaScript de código abierto ha incluido funciones muy útiles para leer un área particular dentro de una imagen y capturar sus datos dentro de aplicaciones JavaScript. La API admite la captura del área de la imagen e intenta reconocer el texto dentro de esta región utilizando el potente motor interno de OCR. Los siguientes ejemplos muestran cómo los desarrolladores de software pueden proporcionar una URL a la imagen y la API puede detectar y reconocer fácilmente el texto en el área seleccionada.
Leer y reconocer texto en una región seleccionada de una imagen mediante JS API
const { createWorker } = require('tesseract.js');
const worker = await createWorker();
const rectangle = { left: 0, top: 0, width: 500, height: 250 };
(async () => {
await worker.loadLanguage('eng');
await worker.initialize('eng');
const { data: { text } } = await worker.recognize('https://tesseract.projectnaptha.com/img/eng_bw.png', { rectangle });
console.log(text);
await worker.terminate();
})();