La Web Imágenes Vídeos Noticias Grupos Libros Gmail Más »
Grupos visitados recientemente | Ayuda | Acceder
Página principal de Grupos de Google
Tools and methods to extract text from PDF files?
En este grupo hay demasiados temas que deben mostrarse primero. Para que este aparezca al principio de la lista, debes descartar esta opción para alguno de los anteriores.
Error al procesar tu solicitud. Por favor, inténtalo de nuevo.
marcar
  2 mensajes - Ocultar todos  -  Traducir todo al Traducido (ver todos los originales)
El grupo al cual envías entradas es un grupo Usenet. Si envías mensajes a este grupo, cualquier usuario de Internet podrá ver tu dirección de correo electrónico
Tu respuesta no se ha enviado.
Tu entrada se ha publicado correctamente.
 
De:
Para:
Cc:
Seguimiento:
Añadir Cc | Añadir seguimiento | Editar asunto
Asunto:
Validación:
Con fines de verificación, escribe los caracteres que veas en la imagen siguiente o los números que escuches haciendo clic en el icono de accesibilidad. Escucha y escribe los números que oyes.
 
Ramon F Herrera  
Ver perfil   Traducir al Traducido (ver original)
 Más opciones 29 oct, 10:15
Grupos de noticias: comp.text.pdf
De: Ramon F Herrera <ra...@conexus.net>
Fecha: Thu, 29 Oct 2009 09:15:33 -0700 (PDT)
Local: Jue 29 oct 2009 10:15
Asunto: Tools and methods to extract text from PDF files?

I am involved in a project which requires to store some text
(programmatically) in PDF documents. I guess my first step would be to
look at how Adobe does it. I was surprised to see that the text being
discovered by the Adobe OCR phase is stored in a fashion in the PDF
file, while the text discovered by another OCR company is stored
differently. Perhaps they are trying to stay out of each other's way?

In any event, some of my questions are: Is the mechanism to store text
in the PDF file documented? Is there some sort of standard?

Tools  that extract such words from PDF files could be useful in my
research.

TIA,

-Ramon


    Responder    Responder al autor    Reenviar  
Debes registrarte antes de enviar mensajes.
Para enviar una entrada, antes deberás formar parte del grupo.
Antes de enviar entradas, actualiza tu alias en la configuración de la suscripción.
No dispones del permiso necesario para enviar entradas.
ken  
Ver perfil   Traducir al Traducido (ver original)
 Más opciones 30 oct, 01:52
Grupos de noticias: comp.text.pdf
De: ken <k...@spamcop.net>
Fecha: Fri, 30 Oct 2009 07:52:06 -0000
Local: Vie 30 oct 2009 01:52
Asunto: Re: Tools and methods to extract text from PDF files?
In article <791c07c4-e66d-4f99-bff1-
d475a764b...@m13g2000vbf.googlegroups.com>, ra...@conexus.net says...

> In any event, some of my questions are: Is the mechanism to store text
> in the PDF file documented? Is there some sort of standard?

You need to read teh PDF Rederence Manual, which is available from the
Adobe web site. Warning; text is stored in an encoded fashion, while it
*may* be ASCII or similar it equally well may not be, and is dependent
(amongst other things) on the font being used.

This is a complex subject, and in the general case there is no guarantee
of being able to recover text from a PDF file in any way other than
printing and OCR'ing it.

That being said, since you are generating the text, its perfectly
possible to ensure that you can get it back out again, just don't assume
that you can do this with any random PDF file.

> Tools  that extract such words from PDF files could be useful in my
> research.

Ghostscript has a simple tool, ps2ascii, which can extract text, but is
not well supported.

                Ken


    Responder    Responder al autor    Reenviar  
Debes registrarte antes de enviar mensajes.
Para enviar una entrada, antes deberás formar parte del grupo.
Antes de enviar entradas, actualiza tu alias en la configuración de la suscripción.
No dispones del permiso necesario para enviar entradas.
Fin de los mensajes
« Volver a “Debates” « Tema más reciente     Tema anterior »

Crear un grupo - Grupos de Google - Página principal de Google - Condiciones del servicio - Política de privacidad
©2009 Google