así que me encontré con este extraño "problema". Escribí un programa en C# y JS para extraer los números de una imagen, sin embargo, solo el código JS, que usa la biblioteca tesseract.js, puede obtener el texto con éxito. La imagen dada a ambos programas es idéntica y ambos usan el mismo modelo. Tomé el modelo de Tesseract.JS GitHub para asegurarme de que ambos estuvieran usando los mismos modelos. El modelo se puede encontrar aquí
Supuse que la biblioteca tesseract.js podría estar alterando la imagen de alguna manera, así que revisé el código fuente y no logré encontrar nada.
Biblioteca Js: Tesseract.JS
Biblioteca C#: Tesseract.Net.SDK
Imagen que usé:
Aquí está la imagen que le di a cada programa.
Código C#:
using var objOcr = OcrApi.Create(); objOcr.SetVariable("tessedit_char_whitelist", "0123456789"); objOcr.Init(Patagames.Ocr.Enums.Languages.English); Bitmap image= new Bitmap("image.png") var text = objOcr.GetTextFromImage(image);
Código JS:
import Tesseract from 'tesseract.js'; Tesseract.recognize( 'image.png', 'eng', { logger: m => console.log(m) } ).then(({ data: { text } }) => { console.log(text); })