Associação Brasileira de Jornalismo Investigativo (Abraji) lançou nesta semana um projeto que permite encontrar ações em que políticos brasileiros foram citados.
O projeto “Publique-se” é uma plataforma de busca que reúne documentos de mais de 30 mil processos judiciais cujos textos citam mais de 9 mil políticos.
Segundo a entidade, a ideia é facilitar o acesso de repórteres em investigações jornalísticas a provas, relatórios, comprovantes e documentos anexados sobre candidatos a cargos públicos. A ferramenta é gratuita e já está disponível.
A plataforma, nessa primeira etapa, conta com dados de centenas de milhares de ações no Supremo Tribunal Federal (STF) e no Superior Tribunal de Justiça (STJ). Casos notórios de outros tribunais envolvendo grandes investigações sobre o poder público serão acrescentados numa segunda etapa.
Idealizado pela Abraji, o projeto contou com parceria da Associação Brasileira de Jurimetria (ABJ) na captura dos dados e conta com o patrocínio do Instituto Betty e Jacob Lafer.
A base de documentos da primeira etapa do projeto foi criada a partir de downloads automatizados dos bancos de dados de processos eletrônicos do STF e do STJ.
Os arquivos baixados passaram por uma ferramenta de reconhecimento de caracteres (OCR) para que fosse possível pesquisar o texto dentro deles – muitos dos PDFs são imagens cujo texto não é pesquisável.
Após a extração de texto, o projeto identificou dentro das milhões de páginas de documentos aquelas que mencionam o CPF de cidadãos que se candidataram em qualquer eleição brasileira a partir de 2006 – são mais de 1 milhão de CPFs diferentes.
Foram mantidos na ferramenta apenas os processos que citam dentro do seu texto o CPF de algum político.
A partir dessa base, que no momento do lançamento reúne documentos de mais de 30 mil processos, é possível buscar diretamente por nomes de políticos ou fazer uma “busca livre” por termos de interesse que estejam presentes nos documentos de processos que citam políticos.
A primeira rodada de download em massa dos documentos foi feita entre os meses de fevereiro e março deste ano, reunindo todos os processos eletrônicos de diferentes anos presentes nas páginas do Judiciário.
Uma segunda rodada, que acrescentará os processos iniciados após esse download, está em andamento e deve ser incorporada à ferramenta antes do primeiro turno das eleições