Diários da República Electrónicos
  • Iniciei esta discussão na mailing list, a pedido do Ricardo estou a colar

    Considerem, por favor, o Boletim Oficial do Estado de Espanha:

    http://www.boe.es/

    Penso que será equivalente ao nosso Diário da República Electrónico:

    http://dre.pt/

    Comparem agora as diferenças e não vale a pena falar nos aspectos de
    design (não deixam por isto de ter a sua importância):

    • A versão espanhola tem as leis disponíveis em HTML; 
    • Tem feeds RSS que permitem acompanhar as leis de várias formas (
      http://www.boe.es/rss/ ); 
    • Sistema de busca rápido e eficiente; 
    • Serviço de alertas por mail; 
    • Fácil de navegar. 
    Por contraste, o dre.pt é um caos:

    • Se repararem quando fazem uma busca, recebem um cookie que expira em
      cerca de 36 minutos. Depois do cookie expirar os links deixam de
      funcionar (já mostro como); 
    Eis os cabeçalhos http:
    Set-Cookie: DREUtilities=Acessos=2; expires=Fri, 11-Jan-2013 13:03:32
    GMT; domain=dre.pt; path=/

    Set-Cookie: UserDigesto=; expires=Fri, 11-Jan-2013 13:03:32 GMT;
    domain=dre.pt; path=/

    Set-Cookie: CGI=; expires=Fri, 11-Jan-2013 13:03:32 GMT;
    domain=dre.pt; path=/

    Set-Cookie: UserDRE=; expires=Fri, 11-Jan-2013 13:03:32 GMT;
    domain=dre.pt; path=/

    Set-Cookie: ASPSESSIONIDQQQBTDRS=KIACHLKDCFHOBKLMIHPHHIEK; path=/
    • Quando entram no "digesto", onde podemos fazer uma busca sobre a
      legislação presente no sistema, usamos o seguinte link: 
    Daqui somos redirecionados, em cadeia, três vezes, em primeiro lugar por
    um "meta redirect":
    <meta http-equiv="refresh" content="0;
    URL=http://digestoconvidados.dre.pt/digesto/Main.aspx?Database=LEX" />
    Depois com um código 302 http:
    Location: /digesto/(S(yrkikgiaiofwj255n4pmcq3w))/Main.aspx?Database=LEX
    E a seguir por outro 302 http:
    Location:
    /digesto/(S(yrkikgiaiofwj255n4pmcq3w))/Paginas/PesquisaDetalhada.aspx


    • Os links dependem da sessão. É gerada uma string que torna o link
      único, neste caso: "yrkikgiaiofwj255n4pmcq3w". Os links só são válidos
      enquanto os cookies não expirarem (!). 
    A conclusão que podemos tirar disto é:

    Ou os tipos que fizeram isto são incompetentes, ou então o estado quer
    dificultar o acesso à informação. Penso que se trata apenas de
    incompetência misturada com nepotismo. Ou seja, o normal.

    Devido à actividade que vamos desenvolvendo no tretas.org citamos muitas
    vezes legislação, também temos necessidade de fazer muitas buscas nos
    DRs pelo que o passo seguinte foi óbvio: fazer o scraping do dre.pt.

    O scraper foi feito por volta de Agosto e, desde então, tem estado a
    trabalhar para recolher mais de trezentos mil documentos deste site.

    Como vocês têm interesse por este tipo de dados, disponibilizo um dump
    da tabela que contém a legislação (postgresql) em:

    http://dl.dropbox.com/u/46342912/dre_document_dump.dmp.bz2

    Neste dump têm toda a legislação até hoje. Registei cerca de três mil
    erros que irei rever a seguir. No dump têm os links para os PDFs das
    partes relevantes dos DRs. É claro que também fiz o download destes
    PDFs, infelizmente são 124GB pelo que se quiserem uma cópia, têm de me
    fazer chegar um disco para gravar tudo isto. A estrutura desta tabela é
    uma miséria, foi crescendo organicamente à medida que ia deparando com
    situações diferentes. Deverá ser tratada no futuro. 
    À semelhança do busca.tretas.org, estou a criar uma interface para esta
    base de dados em:

    http://dre.tretas.org/

    Esta interface já tem muitas das funcionalidade que faltam ao site
    oficial e, nos próximos meses, deverá ficar "feature complete" para as
    minhas necessidades:

    • bookmarks; 
    • etiquetas; 
    • notas; 
    • melhor geração de links dentro dos documentos para os outros
      documentos. Funciona parcialmente, vejam por exemplo:

    exportação de links para o markup usado no tretas.org. 

    Neste momento já indexa os PDFs que contêm apenas uma dada peça de
    legislação.

    Notem que este "alojamento" tem um downtime diário por volta das 21:00
    até às 21:30.

    Se quiserem usar estes dados estão perfeitamente à vontade. Se tiverem
    algum comentário a fazer, estou à vossa disposição. 

  • Hélder, isso é grande cena.
    Não respondi na mailing, e já vou meio atrasado mas de qualquer maneira fica aqui o bitaite.
    Fiz a minha tese de mestrado sobre open legislation, e especificamente sobre a legislação portuguesa.

    Como queria atacar a parte dos PDF's não pude alargar muito em tempo, mas aquilo que fiz foi fazer a transição de PDF's para documentos XML fazendo no processo reconhecimento de entidades e a transposição de toda essa informação incluindo as ligações para triples de RDF.
    Basicamente, criei uma base de dados RDF (semântica) dos diários da república da série 1 desde Setembro de 2009.

    Curtia um dia destes falar contigo sobre esse projecto e inclusivamente falarmos sobre a possibilidade de no processo de indexação dos textos, fazeres reconhecimento de entidades para poderes permitir no futuro que possam pesquisar numa lista de entidades, ou quando procuram uma dada entidade que tenhas, ela apareça primeiro nos resultados (terias de inserir essa informação no indexador, já agora qual é o que estás a utilizar?) e que tenha uma página própria, dizendo em todos os documentos em que ela está citada.

    Não sei se está muito confuso, mas fica o bitaite.

    Abraços
  • Viva, só agora vi o teu comentário.

    Se estiveres interessando nos dados estou neste momento a fazer uma ferramenta de exportação para diariamente disponibilizar uma cópia da base de dados para download. Provavelmente em JSON ou coisa que o valha. Quando estiver feito, deixo uma nota aqui.

    Em todo o caso, já temos identificada a lista de entidades que produzem cada documento (está disponível nos dados do próprio dre.pt). No sistema que tenho no ar é possível procurar especificamente pela entidade emitente, basta fazer uma busca do tipo:

    Por exemplo:


    (Esqueci-me de acrescentar este modificador à ajuda...)

    Quanto ao indexador estou a usar a biblioteca Xapian, vê em http://xapian.org/ .

    Quanto ao código fonte do projecto, está disponível em:



  • Levou mais tempo do que esperava. Infelizmente estou com muito trabalho nesta altura.

    As novidades são as seguintes:

    • Dumps da base de dados disponíveis semanalmente (a exportação é feita aos domingos por volta das 10 da manhã), vejam em: http://dre.tretas.org/about

      Disponibilizo isto em dois formatos:
      • JSON - não creio que sirva para alguma coisa. Pareceu-me uma boa ideia na altura;
      • Dump de postgresql. Se quiserem importar isto para sqlite apenas têm de fazer umas pequenas modificações no ficheiro fornecido, vejam aqui.

    • Melhorei o código que reconhece citações de outros documentos. Agora quanto têm num documento qualquer coisa como "Decreto-Lei <número>" este é identificado, é criado um link para o documento apropriado e mostra-se um tooltip com o sumário do documento lincado.

      Este trabalho não está ainda concluído, há muitas referências na forma: "Leis n.os <n_0>, <n_1>, ..., e <n_n>", estas referências ainda não são detectadas.

      Com o material que já temos disponível já somos capazes de, para cada documento, criar uma lista de referências assim como uma lista de documentos onde o documento actual é referido. Isto dá uma boa ideia do nível de complexidade da legislação e, apesar de eu não ser jurista, mostra claramente que necessitamos de outras formas de organizar a nossa legislação.

      Vejam por exemplo: http://dre.tretas.org/dre/1/

Olá, Visitante!

Pareces ser recém-chegado. Se te quiseres juntar à discussão, segue um destes botões!

In this Discussion