Relatório mensal: outubro de 2020


Pretendia publicar esse relatório no primeiro dia do mês, mas por conta de meu keynote na Python Brasil 2020 acabei atrasando. Como saiu atrasado, então aproveitei para listar o que fizemos em outubro e nessa primeira semana de novembro. Vamos lá:

O que Fizemos

Atualização dos dados da COVID-19

Essa seção vai aparecer nos relatórios dos próximos meses sempre, pois continuamos trabalhando diariamente na atualização dos dados da COVID-19 desde 20 de março de 2020. A partir de 6 de junho, quando houve o apagão de dados do Ministério da Saúde, começamos a publicar um boletim próprio, com base nos dados que coletamos - já publicamos mais de 150 boletins diários! Esse dataset só é possível devido à colaboração de dezenas de pessoas voluntárias, que coletam e checam os dados diretamente das Secretarias Estaduais de Saúde. Nossos dados já foram utilizados por diversos veículos nacionais e internacionais, além de instituições renomadas como FioCruz e IBGE. Confira nosso clipping.

Em 15 de outubro reativamos o perfil do @brasil_io no Twitter e passamos a publicar nosso boletim diário por lá também (antes era publicado em meu perfil pessoal).

Atualização da população dos municípios

Atualizamos a população (estimada para 2020) dos municípios brasileiros, dado relevante para calcular as taxas de confirmação de casos da COVID-19 em nosso Painel COVID-19. Como a forma de escrever os nomes de alguns municípios mudou, precisamos também fazer algumas correções no código da plataforma. Ainda não publicamos um dataset específico para esses dados (é usado apenas internamente), mas você pode acessar o código de captura dos dados do censo do IBGE e os arquivos CSV com estimativas da população.

Implementação da autenticação na API

Deixamos nosso cadastro mais robusto (agora, existe um captcha e é necessário confirmar o email) e implementamos autenticação obrigatória na API, passos importantes para a nossa defesa contra novos ataques. O código já foi revisado e devidamente testado, mas a autenticação obrigatória ainda não está habilitada para que os usuários tenham tempo hábil para migração de suas bases de código.

Aproveitando essas alterações, também migramos o hostname de acesso à API (agora será: https://api.brasil.io/v1/) e configuramos redirecionamentos nas URLs antigas. Essa alteração, além de facilitar a criação de futuras versões, nos ajudará a executar o backend da API independente do backend do site em si (no futuro).

Habilitaremos a autenticação obrigatória na API amanhã, 9 de novembro. Se você utiliza a API, entenda como proceder.

Dataset atualizado: auxílio emergencial

Adicionamos dados de mais parcelas do auxílio emergencial: agora temos, no total, informações sobre o pagamento de 5 parcelas (abril a agosto), totalizando mais de 257 milhões de registros em uma única tabela.

Com esses dados é possível entender quantas parcelas cada pessoa recebeu, quanto foi direcionado a cada município/unidade federativa e, inclusive, cruzar os beneficiários com outras bases de dados para detectar possíveis irregularidades no recebimento.

Dataset atualizado: empresas, sócios e atividades empresariais (CNAE)

Esse dataset é um dos mais relevantes que publicamos e é utilizado por jornalistas, pesquisadores e empresas. Com ele é possível entender relações de interesse entre políticos, mapear o empreendedorismo local e até fazer pesquisas de mercado. Antes de ser libertado em 2018, já quiseram nos cobrar R$ 506.000,00 por esses dados (públicos!). Felizmente, vários recursos e meses depois conseguimos ganhar o pedido de acesso à informação (confira a história completa).

A Receita Federal atualizou esses dados no fim de setembro e nós publicamos uma cópia em nosso servidor (para download mais rápido), porém por conta das alterações que estávamos fazendo na API para conter os ataques, ainda não tínhamos publicado os dados na plataforma.

Nota: por questões históricas, os dados apresentados em nossa plataforma ainda não contemplam todas as colunas disponíveis nesse dataset (apesar de estarem atualizados). Estamos trabalhando na migração desses dados e, em breve, teremos mais novidades.

Últimas Atualizações na Página Inicial

Com o intuito de dar mais visibilidade ao que estamos fazendo, adicionamos uma pequena seção na página principal da plataforma com as últimas atualizações em datasets e publicações aqui no blog:

Últimas Atualizações na Página Inicial

Estamos planejando a melhoria dessas atualizações, com notificações personalizadas, mas essa etapa ainda deve demorar um pouco por conta de outras prioridades.

Melhorias no Código do Backend

Apesar de não ficarem visíveis para quem acessa o site e os dados, fizemos melhorias importantes no código do backend, que nos ajudarão a evoluir mais rapidamente no futuro (e, possivelmente, destacar parte do código em outras bibliotecas, para que outras pessoas possam também utilizá-las - isso diminuirá a complexidade do código da plataforma e o tornará ainda mais fácil de manter). Caso queira saber mais, veja os pull requests #455 e 466.

O que não conseguimos finalizar

Apesar de termos iniciado tudo que prometi fazer em outubro (e diversas outras coisas), não conseguimos finalizar todas as tarefas (algumas já estão quase finalizadas). São elas:

  • Atualizar dataset eleições brasil com dados de 2020: não conseguimos concluir a atualização porque:
  • Precisaremos migrar o schema dos dados (e para isso precisaremos implementar alguns redirecionamentos, para não quebrar links antigos),
  • O trabalho de normalizar os nomes de colunas foi maior do que esperávamos e ainda estamos concluindo.
  • Criar tabela com candidatos em 2020 que possuem empresas: para a correta extração desses dados dependemos da finalização da tarefa acima.
  • Melhorar a documentação da API: iniciamos, mas não finalizamos por conta de outras demandas que acabaram se tornando mais importantes (como as melhorias no backend, que facilitarão a implementação dos redirecionamentos).
  • Criar páginas exclusivas para acessar dados das eleições, facilitando o acesso de usuários leigos: iniciamos um esboço das telas, mas como essa página depende totalmente dos dados das eleições, preferimos pausar o desenvolvimento até que o dataset seja atualizado.

Próximos passos

Para o restante do mês de novembro, pretendemos:

  • Organizar o sprint na Python Brasil 2020 (hoje, 8 de novembro), para facilitar a colaboração por novas pessoas.
  • Habilitar a autenticação na API (amanhã, 9 de novembro).
  • Começar a implementação da LGPD na plataforma, com a colaboração do Juliano Madalena, advogado especializado em direito digital e fundador do fórum direitodigital.io. A primeira etapa será levantar todos os dados pessoais que temos em datasets já publicados.
  • Implementar redirecionamentos nos datasets, para que seja possível migrarmos o schema (nomes de colunas e das tabelas) e, ainda assim, manter os links antigos funcionais
  • Dataset de eleições brasileiras:
  • Checar e finalizar normalizações de nomes de colunas das tabelas de receitas e despesas de partidos, comitês/diretórios e candidaturas (trabalho já iniciado, com ajuda de Rhenan Bartels).
  • Implementar os redirecionamentos do schema antigo para o novo.
  • Atualizar dados na plataforma.
  • Continuar atualizando diariamente os dados da COVID-19 e publicando boletins.

Como Você Pode Ajudar

Se você quiser nos ajudar nessa jornada de tornar acessíveis os dados públicos brasileiros, considere:

Aproveite também para acompanhar nosso trabalho:

Até a próxima! :)

Autor

Álvaro Justen
Álvaro Justen é programador, professor e empreendedor. Ativista de software livre e de dados abertos, desenvolve e gerencia projetos de captura e análise de dados (principalmente públicos), majoritariamente com Python; adora compartilhar conhecimento e colabora com a comunidade de jornalismo de dados brasileira; é fundador do portal de dados abertos acessíveis Brasil.IO e quando não está programando ou dando aulas, viaja, prova e torra cafés especiais.