Question

0

194

Vistas

Solo tesseract.js puede extraer el texto de una imagen y otras bibliotecas no pueden

así que me encontré con este extraño "problema". Escribí un programa en C# y JS para extraer los números de una imagen, sin embargo, solo el código JS, que usa la biblioteca tesseract.js, puede obtener el texto con éxito. La imagen dada a ambos programas es idéntica y ambos usan el mismo modelo. Tomé el modelo de Tesseract.JS GitHub para asegurarme de que ambos estuvieran usando los mismos modelos. El modelo se puede encontrar aquí

Supuse que la biblioteca tesseract.js podría estar alterando la imagen de alguna manera, así que revisé el código fuente y no logré encontrar nada.

Biblioteca Js: Tesseract.JS

Biblioteca C#: Tesseract.Net.SDK

Imagen que usé:

Aquí está la imagen que le di a cada programa.

Código C#:

 using var objOcr = OcrApi.Create(); objOcr.SetVariable("tessedit_char_whitelist", "0123456789"); objOcr.Init(Patagames.Ocr.Enums.Languages.English); Bitmap image= new Bitmap("image.png") var text = objOcr.GetTextFromImage(image);

Código JS:

 import Tesseract from 'tesseract.js'; Tesseract.recognize( 'image.png', 'eng', { logger: m => console.log(m) } ).then(({ data: { text } }) => { console.log(text); })

over 3 years ago · Juan Pablo Isaza

Responde la pregunta

0

194

Solo tesseract.js puede extraer el texto de una imagen y otras bibliotecas no pueden

Encuentra empleos remotos

Andres GPT