Transcrições do Parlamento no Github!
  • Povo,

    Como parte do processo de refatorização do Demo.cratica, estamos a tentar dividir o projeto em módulos.

    Uma parte que nos ocupou bastante tempo desde o início foi o processamento do DAR (Diário da AR). O debates.parlamento.pt, de onde líamos as transcrições em HTML, está inativo desde outubro. Isso obrigou-nos a reescrever os scripts para conseguir ler os PDF's, que é muito mais difícil, mas estamos a chegar a resultados satisfatórios.

    Pusemos à disposição os seguintes repositórios no GitHub:
    • dar-json - Transcrições em formato JSON
    • dar-txt - Transcrições em formato texto
    • dar-scripts - Ferramentas feitas para a conversão das transcrições (faziam parte do repo transparencia-porto)
    Pra já estão apenas alguns meses da legislatura mais recente, mas a ideia é completar o conjunto e que estes repositórios sejam atualizados automaticamente à medida que o Parlamento.pt vá publicando novas transcrições.

    Gostávamos mesmo de saber que usos poderia haver para isto para além do Demo.cratica. O formato JSON é bastante extensivo, com catalogação de tipos de intervenção (ex. intervenção, aparte, aplausos, etc). Ainda não temos os docs completos, mas chateiem-nos neste fio de discussão para podermos terminar mais rápido ;-)

    Ainda estamos a afinar os scripts para avançar com a conversão em massa, mas estejam mais que à vontade para pegar nisto, experimentar e colocar questões/dúvidas/bugs/sugestões/feature requests no Issue Tracker do Github.

  • primeira coisa que me vem à cabeça é ter um visualizador de um tópico listando as diversas intervenções. uma àrvore temporal da discussão onde se pode ver quem participou no debate e onmouseover ler informação detalhada. julgo que o democratica ja permite pesquisar este tipo de informação mas podia ser melhorado o aspecto de a visualizar. os dados estarem abertos e documentados pelo menos deixa a porta aberta à malta da visualização de dados poder brincar com isso mais facilmente.
  • Acho que recorrendo aos JSON, já é possível fazer protótipos de visualização do género que falas. O D3 lê JSON à vontade.

    A extração de tópicos não é trivial, mas pra começar imagino que baste uma busca de termos relacionados com um tema principal -- ex. pra Saúde, procurar "hospitais", "SNS", "farmácias", etc., e agrupar as intervenções relevantes.

    A minha sugestão seria meter as mãos na massa, e caso haja alguma feature que falta ou dúvida de funcionamento, é mais fácil pra nós saber quais devem ser as prioridades! ;-)

Olá, Visitante!

Pareces ser recém-chegado. Se te quiseres juntar à discussão, segue um destes botões!

In this Discussion