Como converter PDF's para formatos abertos
  • No Demo.cratica temos tido de converter PDF para estruturas JSON, e a maior dor de cabeça é extrair sem erros o texto dos PDF. Aqui ficam as bibliotecas que melhor funcionaram para nós:
    • PDFMiner (Python), que é a que usamos. Preserva a maior parte dos atributos do PDF (fontes, imagens), mas perde outros (links)
    • PDFQuery (Python), que só descobrimos a meio do trabalho com o PDFminer, e parece mesmo adequada para a tarefa, com o docinho de podermos procurar elementos na página com selectores tipo JQuery.
    • iText (Java/C#), não experimentámos, mas diz que é bom

    Gostávamos de saber das aventuras que o pessoal tem tido na demanda pela libertação dessa prisão distorcida que é o PDF :-)

  • Trabalhei com o iText. Se houver alguém que trabalhe com Java e esteja a pensar em utilizá-lo, posso dar uma ajuda.

    Em Java, além do iText, existe o PDFBox .
    Tive de trabalhar com as estruturas de dados no código fonte dos PDF's. Para fazer isso com o PDFBox (até saber) o processo é mais complicado porque envolve a criação de modelos enquanto que o iText facilita esse manuseamento. Por outro lado o PDFBox seria mais fácil para processos mais directos estilo extracção de texto.
  • Tabula
    PDF Tables to CSV
  • pdftohtml, que se não me engano vem já como o Ubuntu
  • Como usar o pdf.js para extrair dados de tabelas: link
  • Tava hoje a ver esta talk
    http://media.ccc.de/browse/congress/2013/30C3_-_5494_-_en_-_saal_g_-_201312291645_-_nerds_in_the_news_-_friedrich_lindenberg.html

    E o gajo fala duma tool chamada tabula.
    http://tabula.nerdpower.org/

    Que foi justamente criada para conseguir extrair informação de pdf para fins de open data.
    Já alguém mexeu nela?
  • oh, nevermind, li agora o comentário do alexandre. :)

Olá, Visitante!

Pareces ser recém-chegado. Se te quiseres juntar à discussão, segue um destes botões!

In this Discussion