En inglés. Tesseract OCR, un soft de OCR desarrollado por los laboratorios de HP entre 1985 y 1995, ha sido retomado por Google que ha corregido algunos bugs importantes, y lo ha publicado en sourceforge bajo una licencia libre. No es apto para documentos demasiado complejos, y sólo funciona en inglés, pero en Google afirman que es el OCR open source más preciso existente en la actualidad. Como dato adicional, la entrada dice que en Google buscan buenos ingenieros OCR (para contratarlos).
|
etiquetas: software libre , google , ocr , hp
Por cierto, ya que estoy, significa Optical Character Recognition, osea, reconocimiento óptico de caracteres.
Además yo pienso que es muy útil una herramienta de OCR para libros de texto, novelas ...etc. Me imagino que todo esto debe ir ligado con el Google Books.
We require a brief acknowledgement in any research
paper or other publication where this software has made a significant
contribution. If you wish to use it for commercial gain you must contact
The MITRE Corporation for conditions of use.
Esto no es entonces del todo libre, ¿no? Aunque el resto está bajo la licencia Apache.
Buenos días.
Y #10, tu actitud sí que es prepotente, porque mínimo la cuarta parte de la gente sabe lo que es un OCR... al menos en mi pueblo (porque hasta mi padre sabe lo que es un OCR, y eso que se trata de un negado en la informática). Si tú no lo sabes, no dés por hecho que casi nadie lo sabe