Identificando Partidos que Mudaram de Nome


Diversos partidos brasileiros mudaram de nome em 2018, mas você sabe quais são? Motivado por uma dúvida no Twitter resolvi utilizar o dataset eleicoes-brasil para listar as mudanças de nome que aconteceram desde 1996. Vamos utilizar a interface de linha de comando da rows, um pouco de SQL e Python para essa tarefa!

Instalando as dependências

Antes de iniciar, criarei um ambiente virtual (virtualenv) utilizando a versão 3.7 do Python (vou utilizar o pyenv e pyenv-virtualenv para isso, mas fique à vontade para utilizar outras ferramentas em seu ambiente). Depois de criado o virtualenv, precisamos instalar a interface de linha de comando da rows:

pyenv virtualenv 3.7.3 eleicoes
pyenv activate eleicoes
pip install rows[cli]
pip install -U https://github.com/turicas/rows/archive/develop.zip#egg=rows

Nota: estamos utilizando a versão em desenvolvimento da rows por conta da correção de alguns bugs. Essa versão (0.4.2) será lançada em breve.

Baixando os dados

Para determinar todos os partidos e as mudanças de nome utilizaremos os dados das candidaturas, que contém a sigla e número do partido para cada candidato. Aqui, usei o wget para baixar o arquivo completo, disponível no Brasil.IO:

wget https://data.brasil.io/dataset/eleicoes-brasil/candidatura.csv.gz

Nota: os dados de candidatura não estão atualizados para visualização na interface do Brasil.IO (ainda sem as informações das eleições de 2018), porém o arquivo acima está atualizado.

Importando no SQLite

Como são mais de 2 milhões de candidaturas (veja a quantidade de linhas do arquivo CSV compactado: zcat candidatura.csv.gz | wc -l), vou transformar o CSV em uma tabela numa base SQLite e utilizar SQL para fazer as consultas mais fácil e rapidamente - a versão 0.4 da rows possui um comando na sua CLI que facilita o processo:

rows csv2sqlite candidatura.csv.gz eleicoes.sqlite

Relaxe por alguns minutos enquanto o arquivo é convertido. :) Enquanto você toma um café, o comando acima irá:

  • Descompactar em tempo de execução o arquivo
  • Identificar o dialeto do CSV
  • Identificar o tipo de cada coluna, inspecionando os primeiros registros
  • Criar o banco de dados e a tabela candidatura, utilizando os tipos identificados
  • Adicionar os dados do CSV na tabela

Criando e executando a consulta

Cada candidatura possui informações do partido nas colunas numero_partido e nome_partido. Vamos criar um arquivo SQL com uma consulta que agrupa as candidaturas por ano da eleição, número e nome do partido, assim teremos todos os partidos que disputaram as eleições, junto com os anos em que isso aconteceu. Crie o arquivo consulta-partidos.sql com o seguinte conteúdo:

SELECT
    ano_eleicao AS ano,
    numero_partido AS numero,
    nome_partido AS nome
FROM candidatura
WHERE
    sigla_partido NOT IN ('PRESTCONTAS', 'NAO', 'SIM')
GROUP BY
    ano_eleicao,
    numero_partido,
    nome_partido

Na consulta eliminamos algumas siglas de partidos que não são interessantes agora (elas aparecem em outros casos, como plebiscitos, e não representam um partido).

Então, voltamos a utilizar CLI da rows para executar a consulta e salvar o resultado num CSV:

rows query "$(cat consulta-partidos.sql)" eleicoes.sqlite --output=partidos-por-ano.csv

Pronto! Com isso teremos um registro por partido por ano. Agora precisamos agrupar por número do partido e entender quais possuem nomes diferentes ao longo dos anos.

Agrupando por Número do Partido

Vamos agrupar os dados em partidos-por-ano.csv utilizando outra consulta SQL. Crie o arquivo partidos-por-numero.sql com o seguinte conteúdo:

SELECT
    numero,
    nome,
    GROUP_CONCAT(ano) AS anos
FROM table1
GROUP BY
    numero,
    nome
ORDER BY
    numero,
    ano

Agora basta executarmos essa consulta no arquivo partidos-por-ano.csv que geramos anteriormente:

rows query "$(cat partidos-por-numero.sql)" partidos-por-ano.csv --output=partidos-por-numero.csv

Sim, com a rows é possível executar consultas SQL diretamente em arquivos nos formatos suportados pela biblioteca, como CSV, porém utilize essa funcionalidade apenas em arquivos pequenos, pois a conversão pode demorar; para arquivos maiores prefira converter para SQLite com o comando rows csv2sqlite (como feito com candidatura.csv.gz) e após isso utilize rows query CONSULTA arquivo.sqlite.

Vamos ao resultado? Podemos visualizar a tabela diretamente no Jupyter Notebook:

In [1]:
import rows

rows.import_from_csv("partidos-por-numero.csv")
Out[1]:
partidos_por_numero (showing 20 rows, out of 53)
numero nome anos
10 PARTIDO REPUBLICANO BRASILEIRO 2006,2008,2010,2012,2014,2016,2018
11 PARTIDO PROGRESSISTA BRASILEIRO 1996,1998,2000,2002
11 PARTIDO PROGRESSISTA 2004,2006,2008,2010,2012,2014,2016
11 PROGRESSISTAS 2018
12 PARTIDO DEMOCRATICO TRABALHISTA 1996,1998,2000,2002,2004,2006,2008,2010,2012,2014,2016,2018
13 PARTIDO DOS TRABALHADORES 1996,1998,2000,2002,2004,2006,2008,2010,2012,2014,2016,2018
14 PARTIDO TRABALHISTA BRASILEIRO 1996,1998,2000,2002,2004,2006,2008,2010,2012,2014,2016,2018
15 PARTIDO DO MOVIMENTO DEMOCRATICO BRASILEIRO 1996,1998,2000,2002,2004,2006,2008,2010,2012,2014,2016
15 MOVIMENTO DEMOCRATICO BRASILEIRO 2016,2018
16 PARTIDO SOCIALISTA DOS TRABALHADORES UNIFICADO 1996,1998,2000,2002,2004,2006,2008,2010,2012,2014,2016,2018
51 PATRIOTA 2016,2018
54 PARTIDO PATRIA LIVRE 2012,2014,2016,2018
55 PARTIDO SOCIAL DEMOCRATICO 2012,2014,2016,2018
56 PARTIDO DA REEDIFICACAO DA ORDEM NACIONAL 1996,1998,2000,2002,2004
56 PARTIDO DE REEDIFICACAO DA ORDEM NACIONAL 2006
65 PARTIDO COMUNISTA DO BRASIL 1996,1998,2000,2002,2004,2006,2008,2010,2012,2014,2016,2018
70 PARTIDO TRABALHISTA DO BRASIL 1996,1998,2000,2002,2004,2006,2008,2010,2012,2014,2016
70 AVANTE 2016,2018
77 SOLIDARIEDADE 2012,2014,2016,2018
90 PARTIDO REPUBLICANO DA ORDEM SOCIAL 2014,2016,2018

Inspecionando os dados podemos ver que 3 nomes de partidos utilizaram o número 11: PARTIDO PROGRESSISTA BRASILEIRO, PARTIDO PROGRESSISTA e PROGRESSISTAS. Como os anos são contíguos (o primeiro utiliza até 2002, o segundo começa a partir de 2004 e assim por diante), podemos considerar que esse é o mesmo partido que mudou de nome. Isso não acontece com todos os números, como o número 30, que foi utilizado por PARTIDO GERAL DOS TRABALHADORES até 2002 e a partir de 2016 pelo PARTIDO NOVO.

Melhorando a Visualização do Resultado

Para finalizar, vamos criar um script Python que agrupa o CSV gerado acima por número de partido e, a partir de cada grupo, verifica os anos em que cada partido aparece para determinar se o partido mudou de nome ou se foi o caso de um partido mais recente reutilizar o número de um partido que não existe mais. Como resultado, o script irá exibir na tela apenas os partidos que mudaram de nome, ou seja, os números de partido que tiveram nomes diferentes em anos de eleição contíguos:

In [8]:
from itertools import groupby
import rows


# Importamos os dados:
partidos_por_numero = rows.import_from_csv("partidos-por-numero.csv")

# Agrupamos por número:
agrupamento = groupby(partidos_por_numero, key=lambda partido: partido.numero)
resultado = []
for numero, partidos in agrupamento:
    partidos = list(partidos)
    # Se esse número só possui 1 partido, significa que ele não mudou de nome
    if len(partidos) == 1:
        continue

    # Verificarmos os partidos, par a par, para identificar os que participaram
    # de eleições contíguas - esses, adicionamos em uma lista, que será impressa
    # no final
    for partido_1, partido_2 in zip(partidos[:-1], partidos[1:]):
        ano_final_partido_1 = int(max(partido_1.anos.split(",")))
        ano_inicial_partido_2 = int(min(partido_2.anos.split(",")))
        if abs(ano_inicial_partido_2 - ano_final_partido_1) <= 2:
            # Eleições contíguas, então é o mesmo partido que mudou de nome!
            # Agora vamos só ajustar o período em que a mudança aconteceu:
            if ano_final_partido_1 == ano_inicial_partido_2:
                datas = [ano_final_partido_1]
                periodo = f"em {ano_final_partido_1}"
            else:
                datas = sorted([ano_final_partido_1, ano_inicial_partido_2])
                periodo = f"entre {datas[0]} e {datas[1]}"
            texto = f"{partido_1.nome} ({numero}) mudou de nome para {partido_2.nome} {periodo}"
            resultado.append((datas, texto))
            
# Agora vamos ordenar o resultado por data para imprimí-lo na ordem cronológica das alterações:
for datas, texto in sorted(resultado):
    print(texto)
PARTIDO SOLIDARISTA NACIONAL (31) mudou de nome para PARTIDO DA SOLIDARIEDADE NACIONAL entre 1996 e 1998
PARTIDO DA SOLIDARIEDADE NACIONAL (31) mudou de nome para PARTIDO HUMANISTA DA SOLIDARIEDADE entre 1998 e 2000
PARTIDO DA RECONSTRUCAO NACIONAL (36) mudou de nome para PARTIDO TRABALHISTA CRISTAO entre 2000 e 2002
PARTIDO PROGRESSISTA BRASILEIRO (11) mudou de nome para PARTIDO PROGRESSISTA entre 2002 e 2004
PARTIDO DA REEDIFICACAO DA ORDEM NACIONAL (56) mudou de nome para PARTIDO DE REEDIFICACAO DA ORDEM NACIONAL entre 2004 e 2006
PARTIDO DA FRENTE LIBERAL (25) mudou de nome para DEMOCRATAS entre 2006 e 2008
PARTIDO LIBERAL (22) mudou de nome para PARTIDO DA REPUBLICA entre 2006 e 2008
PARTIDO TRABALHISTA NACIONAL (19) mudou de nome para PODEMOS entre 2014 e 2016
PARTIDO DO MOVIMENTO DEMOCRATICO BRASILEIRO (15) mudou de nome para MOVIMENTO DEMOCRATICO BRASILEIRO em 2016
PARTIDO ECOLOGICO NACIONAL (51) mudou de nome para PATRIOTA em 2016
PARTIDO SOCIAL DEMOCRATA CRISTAO (27) mudou de nome para DEMOCRACIA CRISTA em 2016
PARTIDO TRABALHISTA DO BRASIL (70) mudou de nome para AVANTE em 2016
PARTIDO PROGRESSISTA (11) mudou de nome para PROGRESSISTAS entre 2016 e 2018

Conclusão

O fato de existirem dados disponíveis sobre os mais diversos temas nos permite responder a perguntas como essa de maneira imediata, sem a necessidade da criação um pedido de acesso à informação - por esse e outros motivos a transparência ativa é muito importante. Porém, não conseguiríamos responder a essa pergunta em poucos minutos se os dados não estivessem disponíveis em um formato mais acessível e consolidado no Brasil.IO: para gerar esse dataset foram necessárias diversas horas de trabalho criando um programa que baixa, converte, limpa e consolida os dados do Tribunal Superior Eleitoral.

Se você acha o trabalho que desenvolvemos importante, considere fazer uma doação ou colaborar de outras formas. ;)

Autor

Álvaro Justen
Álvaro Justen é programador, professor e empreendedor. Ativista de software livre e de dados abertos, desenvolve e gerencia projetos de captura e análise de dados (principalmente públicos), majoritariamente com Python; adora compartilhar conhecimento e colabora com a comunidade de jornalismo de dados brasileira; é fundador do portal de dados abertos acessíveis Brasil.IO e quando não está programando ou dando aulas, viaja, prova e torra cafés especiais.