Investintech Offers PDF Converter Solutions
Productos
Products
 
Hechos sobre PDF y OCR

Son todos los documentos PDF iguales?

NO. Los documentos PDF pueden ser creados de varias formas. Los documentos PDF que son generados desde una fuente electrónica, como un documento Word, un reporte generado por computador o una hoja de cálculo poseen una estructura interna que puede ser leída e interpretada. Esos documentos “generados” PDF ya contienen caracteres que poseen una designación electrónica. Por lo tanto la conversión de esos documentos a PDF cuenta con esa designación electrónica y proporciona un resultado confiable.

Los archivos PDF también pueden ser creados al escanear los documentos y generar así un archivo electrónico. Lo que el documento escaneado representa realmente es una fotografía de las palabras contenidas en el documento original. Para convertir el documento escaneado a un formato editable, es necesario utilizar el software OCR (Reconocimiento Óptico de Caracteres) para analizar la imagen de cada caracter y compararlo con una base de datos de caracteres electrónicos. Debido a la complejidad de este proceso, es mucho mas difícil asegurar que el caracter que es reconocido por el software OCR, es el mismo caracter que se encuentra en el documento escaneado. La calidad de los resultados del software OCR es afectada por varias razones, como la baja calidad de la imagen del documento escaneado, la mezcla de las diferentes fuentes de caracteres usadas en los documentos escaneados, los caracteres que se encuentran subrayados o en negrilla los cuales pueden empañar la calidad y la forma de cada caracter individualmente.

 
 
 
Que es un documento escaneado PDF?

Acuerdo con lo anteriormente explicado, existen varias maneras de crear un documento PDF. Unos de esos métodos es el uso de un escáner o de un aparato similar, que toma la imagen de un documento y la almacena como un archivo electrónico PDF. Un escáner, o una fotocopiadora con capacidades de escáner, no recrea cada carácter de cada letra cuando crea la imagen escaneada, lo que hace simplemente es tomar una foto de la imagen. Esta foto es transformada en documento PDF por medio de un software integrado con el escáner. El resultado es un documento “escaneado” PDF.

La alternativa de un documento escaneado PDF es un documento creado PDF. Tomemos como ejemplo un documento que originalmente es electrónico como es el caso de un documento Word, pero que luego es convertido a documento PDF por medio de un software de conversión. En la mayoría de los casos el software de conversión PDF toma información de la estructura del documento Word, como la información de los caracteres, la ubicación de las palabras, etc, y la utiliza en el documento creado PDF. Por lo tanto en un documento creado PDF hay mucha más estructura interna que en un documento escaneado PDF; dicha estructura e información es utilizada por un programa como Able2Extract v.4.00 para extraer la información. Para convertir la información de un documento escaneado PDF es requerido un software de reconocimiento óptico de caracteres, que identifica cada caracter en la página; esta capacidad ha sido adicionada en las versiones Profesionales de Able2Extract y Able2Doc.
 
 
 
Que es OCR (Reconocimiento Óptico de Caracteres)?

Reconocimiento Óptico de Caracteres (OCR) es un proceso de reconocimiento visual que transforma texto escrito o impreso en una base de datos electrónica de caracteres. Un documento que es escaneado y convertido a documento PDF proporciona la materia prima con la cual el software OCR puede interpretar cada imagen de un caracter en el documento PDF y asignarla a una base de datos electrónica de caracteres, que puede ser convertida en un formato editable como texto o un documento Word.

Dada la proliferación de la tecnología que convierte documentos escaneados a PDF disponible hoy en día, Investintech enfoca sus esfuerzos solamente en la conversión a diferentes formatos de documentos escaneados PDF que ya están creados. La calidad del proceso de conversión OCR depende en gran parte de la calidad de la imagen escaneada y de la claridad y nitidez de los caracteres de esa imagen.

La tecnología OCR aplicada en los productos de Investintech, es una licencia obtenida de Scansoft, Inc. líder global en tecnología OCR. Más información acerca de ScanSoft.