Maturidade em Dados Abertos: Entenda as 5 Estrelas

janeiro 17, 2013 em Dados Abertos, Destaque

Dados Abertos entrou na pauta do governo brasileiro há pouco mais de 2 anos. Nesse período diversos eventos contribuíram para a crescente demanda dos órgáos governamentais por capacitação no tema. Podemos citar a Lei de Acesso à Informação – LAI 12.527/11, a Parceria para Governo Aberto (OGP do inglês), a criação da Infraestrutura Nacional de Dados Abertos – INDA, além das diversas iniciativas internacionais que incentivam o uso de tecnologias em prol de uma sociedade melhor.

A atividade de abrir dados, ou seja, de publicar dados abertos na Web, é realidade para uma parcela ainda pequena do governo. Para grande parte dos órgãos a falta de pessoas capacitadas é o principal motivo que contribui com essa realidade. Abrir dados não é uma tarefa trivial. Existem várias abordagens, algumas rápidas e outras mais complexas. É nessa perspectiva que nasce a necessidade de se criar um modelo de maturidade.

Foi, então, da necessidade de se qualificar as publicações de dados abertos que Tim Berners-Lee, o inventor da Web, sugeriu um esquema de 5 estrelas para publicação de dados abertos [1].

5star-steps

A proposta de Tim B-Lee é que cada nova estrela alcançada torne os dados progressivamente mais poderosos, mais fáceis pras pessoas utilizarem. Abaixo segue uma visão global do que representa cada estrela nesse esquema:

★☆☆☆☆ As coisas estão disponíveis na Web, independente de formato, sob uma licença aberta (Por exemplo um documento PDF sob uma licença aberta)

★★☆☆☆ A condição anterior mais, Disponível como dados estruturados legíveis por máquina (Por exemplo um arquivo Excel ao invés de uma imagem escaneada de uma tabela)

★★★☆☆ Todas as anteriores mais, Utilizar um formato não proprietário (Por exemplo um arquivo CSV ao invés de um Excel)

★★★★☆ Todas as anteriores mais, Utilizar URIs bem desenhadas para identificar as coisas, então as pessoas podem referenciá-las

★★★★★ Todas as anteriores mais, Ligar seus dados com dados de outras pessoas para prover contexto

Para entender melhor as 5 estrelas leia esta página escrita por Michael Hausenblas [2].

Se você está começando a abrir dados mire nas 3 estrelas. De acordo com as leis dos dados abertos [3] só é considerado estritamente dado aberto se for no mínimo 3 estrelas. Publicar dados em CSV não requer conhecimento especializado. Este formato de arquivo pode ser gerado utilizando um editor de planilhas, como o LibreOffice Calc ou o MS Excel. Sonhe com o RDF mas publique primeiro em CSV.

“Publique logo, publique sempre”.

  1. http://www.w3.org/DesignIssues/LinkedData.html
  2. http://5stardata.info/
  3. http://dados.gov.br/dados-abertos/

Editado: A figura foi editada após diversos leitores discordarem com a conotação que relacionava fortemente o PDF à primeira estrela. Agradeço a todos pela discussão construtiva e ao Leandro Salvador pela edição da nova figura. E Diego Rabatone e Alexandre Hannud Abdo por melhorarem ainda mais a figura.

Ver também

18 respostas para Maturidade em Dados Abertos: Entenda as 5 Estrelas

  1. Boa Nitai,

    Mas é melhor dissociar o PDF de dados abertos, pois senão os órgãos vão começar a falar que estão cumprindo a Lei 12527/2011 colocando somente o PDF. Politicamente é muito ruim.

    Já estou enfrentando esse problema com relação a um pedido a órgão do MEC e o processo está indo para 3a instância (CGU). Simplesmente eles falam: PDF é formato aberto e se vire com isso.

    Em resumo: PDF = zero estrela E repensar sobre se é politicamente bom “negociar” a de definição clássica de dados abertos por essa gradação acima.

    Abraços,

    Jorge

  2. Olá Jorge,

    Coloquei o esclarecimento no final do texto, de que são necessárias 3 estrelas para se atingir dados abertos, estritamente falando.

    Essa gradação não é conflitante com as leis de dados abertos. É mais uma orientação para apoiar aqueles que querem abrir dados.

    []s Nitai

  3. É bom ver que cada vez mais a administração pública tem publicado dados em csv. Mas infelizmente ainda se vê muito xls por aí, e, o pior, tabelas dentro de arquivos pdf.

    Por outro lado, para se falar em modelo de maturidade de dados abertos teriam que ser considerados outros aspectos além dos técnicos e legais (licença). Por exemplo, é importante se fazer considerações sobre o processo de produção dos dados – se existem metadados de proveniência, sobre a freqüência de atualizações dos dados (evitar os dados “mortos”, ou dados zumbi), sobre se as URIs foram bem projetadas para perdurar no tempo (não conter, por exemplo, nomes de organizações, as quais podem se alterar ao longo do tempo), entre outras.

    O modelo de 5 estrelas de TIm Berners-Lee tem a finalidade de avaliar os dados abertos na perspectiva do seu progresso em relação ao uso correto dos padrões e ao potencial de integração com a nuvem de dados ligados. Ele não trata especificamente os dados abertos governamentais. Ele é apenas um dos aspectos que deveriam ser considerados ao avaliar a maturidade dos dados abertos governamentais. O “Modelo de Madurez de Open Data” parece mais adequado e abrangente para essa finalidade, pois leva em conta algumas (mas não todas) das considerações acima.

    • Boa Augusto!

      O post foi mais provocativo que conclusivo. Pelo jeito deu certo. Vejo que precisamos escrever mais a nível técnico. Que tal você escrecer sobre URIs, dados ligados e outras coisas mais?

      []s Nitai

  4. Prezado Nitai Excelente abordagem, principalmente pela frase final, em negrito. Gostaria, e estou fazendo, provocar os demais leitores para contribuírem sobre quais são os dados que devem ser abertos. Além das leis de dados abertos, acredito é iniciado o momento que a sociedade deve contribuir sobre quais dados devem ser divulgados. Acredito que o envolvimento da sociedade, a exemplo do vem ocorrendo à décadas nos orçamentos participativos de diversos municípios, será a consolidação do conceito e ajudará a solidificar a democracia brasileira.

  5. Ei Nitai! Concordo com o Jorge. Acrescento que o importante não é quantas estrelas se tem, mas sim o que você quer fazer com os dados pra abrir. Se o objetivo é gerar valor social e tornar os dados uma ferramenta de gestão, não basta só 3 estrelas, muito menos o PDF. Na minha opinião, o governo não pode se dar o luxo das 3 estrelas porque não está abrindo dados pra ser bonzinho. Repito: pra agregar valor ao dado é preciso que ele esteja inserido em um contexto maior de planejamento e que pelo menos uma semântica seja respeitada. Colocar pdf na web e fácil demais….

  6. Concordo com o Jorge e com a Yaso. Formato proprietário não é dado aberto, visto que tem a prerrogativa de que quem quer acessar um xls, por exemplo, deve ter condição financeira para adquirir o Excel. Assim, eu só começaria a olhar como Dado Aberto das 3 estrelas em diante… MESMO. Entendo que a ideia é apontar o caminho, mas dar destaque ao pdf (que é o inferno para que deseja trabalhar com dados) e a formatos proprietários, é valorizar essa possibilidade, num país em que muitas vezes se faz apenas o mínimo.

  7. Tá esquentando… :P

    Gente, depois da mensagem do Jorge eu adicionei que só pode ser chamado de dados abertos quando são 3 estrelas.

    Yaso, a penúltima frase “sonhe com o RDF…” responde um pouco do seu alerta.

    A mensagem que quero deixar nesse post é que pra quem quer abrir dados dá pra fazer uma estratégia incremental, reduzindo as resistências.

    Concordo que entre o CSV e o RDF existe uma distância enorme de qualidade. Mas será que devemos transmitir a mensagem de que CSV é insuficiente? A mesma pergunta pro PDF. É preferível esperar 2 meses por um arquivo CSV que ter um PDF agora e um CSV daqui a 2 meses?

    • Devemos a todo custo informar que PDF é inadequado. E que CSV deve ser publicado decentemente, explicando como. Há muito CSV porcaria também.

  8. Trazendo uma contribuição do Alexandre Abdo da lista de e-mails para cá:

    “O meu grande receio é que dá muito a entender que é uma escada, onde você sobe passo a passo: primeiro pdf, depois excel, depois algum formato decente etc…

    Mas dados abertos não é uma escadinha com etapas, os casos “intermediários” só deveriam aparecer quando a instituição por acaso já tem aquilo pronto num determinado formato e já quer agilizar a publicação enquanto não faz direito.

    O mais importante é reforçar a mensagem mais simples: vá direto pra CSV/ODF/XML/RDF. Qualquer outra coisa é confusão.

    Parece chatice, mas temos que lembrar que justamente as pesoas que mais estão precisando aprender e que atuarão sobre dados abertos não entendem necas de pitibiriba do assunto e muito menos de computação.

    De forma que não podemos dar margem pra enganos.

    Eu já consigo ver alguém olhando uma tabela daquelas e concluindo que “primeiro” tem que gerar PDF, pulando o resto porque parece “muito avançado” e vai ser mais fácil fazer as pouquinhos.

    Quando é exatamente o oposto disso que precisamos.

    A tabela correta seria duas caixas, a do CERTO e do ERRADO:

    ERRADO: PDF, Excel, formatos proprietários

    CERTO: CSV, ODF, RDF, etc.

    E uma observação posterior de que se você já tem algum material, deve publicá-lo imediatamente, independente do formato, sem diminuir a necessidade de publicar num formato adequado posteriormente.”

    Sugiro remixarmos o gráfico acima com degraus quebrados no começo.

  9. Detalhe: PDF continua levando 2 estrelas.

    Que tal um ranking com três estrelas? Antes disso, bolinhas vazias. : )

    abs

  10. Resposta do Alexandre Hannud Abdo pela lista:

    “Jorge, acho que na versão atual PDF não dá estrela não. A primeira estrela é pela licença e nada tem a ver com o formato. A segunda estrela é por “dados estruturados legíveis por máquina” e PDF não passa nisso. Faz sentido? Abs!”
  11. O PDF pode estar sob licença livre e pode ser considerável “legível por máquina” (porcamente, mas é). Veja a discussão na lista thacker: https://groups.google.com/forum/?fromgroups=#!topic/thackday/SXfAZkyDlac

    Os casos que a Lei de Acesso não está resolvendo gerarão disputas. Advogados são espertos para interpretar a sua maneira as letras da lei e contam com apoio de servidores técnicos dos órgãos para elaborar suas teses – estamos vendo isso acontecer na Receita, CNPq, CAPES. Por isso é bom não dar brechas. Sugiro começar a escala por onde agora são as três estrelas (seria uma então), deixando as quatro e cinco estrelas para outros quesitos… Por exemplo existência de API… Muda um pouco o foco, mas temos uma definição melhor.

    abs.,

    Jorge

  12. Ni!

    Acho que a melhor forma de esclarecer essa questão do PDF é entender que “formato de dado aberto” é diferente de “formato padronizado”, e a diferença está na questão de ser estruturado para leitura dos dados por máquina.

    Existem inúmeros formato padronizado que não são estruturados para leitura por máquina: PDF, JPEG, PNG.

    No caso desses dois últimos, obviamente não tem o menor sentido aceitar dados na forma de uma imagem bitmap, como PNG. A mesmíssima coisa vale pro PDF, pois ele não é estruturado para leitura dos dados por máquina, ele é estruturado para impressão do documento.

    Não tem o menor sentido aceitar um formato de impressão como formato de dados.

    Abs!

  13. Ficou muito melhor, principalmente com a frase final Nitai, “Sonhe com o RDF mas publique primeiro em CSV”.

    A idéia de Beners-Lee é promover um modelo mental para melhorar ao provisionamento dos dados na web. A CAPES só acatou o PDF por conta dos seus periódicos e outras frescurites sobre considerar formato aberto, e que na lei 12527/2011 não há caracterização imposta sobre o uso adequado do formato e por isso virou essa bagunça. A revolução em busca do ODF lembra um pouco disto.

    Para que qualquer pessoa possa realizar experimentações de maneira pragmática acerca dos dados é preciso, diante órgãos da administração pública, inibir a disponibilização formal dos dados dispostas em formatos susceptíveis a formatações, e mesmo que sob licença aberta, ainda é necessário o uso exclusivo de uma biblioteca para realizar a extração destes dados.

    Em minha opnião isso afere um princípio básico, usabilidade! O dado seja estrito ou bruto, deve ser livre de formatação e alienação. Se os caras irão cumprir aí é que está o problema.

  14. Como eu já havia comentado aqui, a maturidade em dados abertos engloba muito mais aspectos que apenas as 5 estrelas dos dados ligados.

    Estamos reunindo na nossa wiki da INDA as informações sobre os modelos de maturidade existentes para dados abertos. Um deles é o das 5 estrelas dos dados ligados, objeto dessa postagem. Outro é o chileno OD-MM, que já mencionei aqui. Há ainda outros lá. Caso alguém conheça mais algum modelo existente, convidamos a contribuir conosco e compartilhar a informação.

  15. Olá eu gostaria de saber se no primeiro nível (1- star) há outros formatos de dados que podem ser publicados, pois, em minhas pesquisas só encontro como exemplo o PDF. Se existem outros tipos de dados gostaria de saber quais. Obrigada

  16. Muito interessante a discussão. Realmente PDF ou qualquer outro formato disponível para livre acesso e uso, pode e deve ser considerado um dado aberto. Infelizmente, ele não é facilmente processável, mas a informação está disponível pra população e, apesar de difícil utilização por computadores, ainda assim é importante para a sociedade.

    O grande problema que alguns comentários anteriores levantaram é que não existe um modelo de ecossistema de produção e consumo de dados por parte da administração pública e da sociedade. Isso faz com que os dados, sejam eles publicados em PDF ou CVS sejam, em sua grande maioria, inconsistentes. Ou seja, o problema está mais no processo do que no produto final.

    Acredito que precisamos trabalhar para que sejam criados e formalizados processos para produção, publicação/disponibilização, e consumo destes dados.

    Assim, mesmo que o governo libera os dados apenas no formato de uma ou duas estrelas, teremos padronização suficientes para extrair esses dados adequadamente.

    E é claro, que com um processo bem feito, mudar de 2 estrelas para 3 estrelas é apenas uma mudança cosmética simples. E um passo em direção aos dados abertos conectados que são de 5 estrelas [1]

    [1] http://ceweb.br/livros/dados-abertos-conectados/

Deixe uma resposta

O seu endereço de email não será publicado Campos obrigatórios são marcados *

 

Inscreva-se na nossa lista de e-mails