2023
Escriba
Entry type: Single project
Country/area: Brazil
Publishing organisation: Aos Fatos
Organisation size: Small
Publication date: 2022-08-20
Language: Portuguese
Authors: Alexandre Aragão, Ana Rita Cunha, Amanda Ribeiro, Bernardo Moura, Bianca Bortolon, Bruna Rezende, Bruno Fávero – diretor de crescimento, Carlos Leandro, Carol Cavaleiro, Ethel Rudnitzki, Israel Teixeira, João Ernane Barbosa, Leonardo Cazes, Luiz Fernando Menezes, Luiza Barros, Marco Faustino, Milena Mangabeira, Rhenan Bartels, Sofia Fernandes, Tai Nalon

Biography:
Alexandre Aragão – editor executivo
Ana Rita Cunha – diretora de estratégia e comunidades
Amanda Ribeiro – repórter
Bernardo Moura – diretor editorial e de operações
Bianca Bortolon – linguista
Bruna Rezende – repórter
Bruno Fávero – diretor de crescimento
Carlos Leandro – desenvolvedor
Carol Cavaleiro
Ethel Rudnitzki – repórter
Israel Teixeira
João Ernane Barbosa – cientista de dados e OSINT
Leonardo Cazes – chefe de reportagem
Luiz Fernando Menezes – repórter
Luiza Barros – editora de audiência
Marco Faustino – repórter
Milena Mangabeira – linguista
Rhenan Bartels – desenvolvedor-chefe
Sofia Fernandes – editora
Tai Nalon – diretora executiva
Project description:
O Escriba é uma ferramenta de transcrição automática criada pelo Aos Fatos para facilitar o uso de vídeo e áudio como fonte de dados para projetos editoriais.
A iniciativa foi concebida para as eleições de 2022 e permitiu que produzíssemos projetos e coberturas que tiveram grande impacto no debate eleitoral do Brasil. Criamos o Banco de Discurso, um repositório público com transcrições dos candidatos à presidência; publicamos checagens de debates em tempo real; e fizemos apuração exclusivas — por exemplo, processamos dezenas de horas de áudios para desmentir relatório que acusava rádios de não veicularem propagandas obrigatórias de Jair Bolsonaro.
Impact reached:
O Escriba nos permitiu converter informação de áudio para texto em escala e com rapidez. Isso abriu uma nova frente de reportagens e projetos editoriais baseados em dados para nossa redação.
Um dos trabalhos feito durante as eleições foi o Banco de Discursos, uma plataforma que compilou transcrições de todos os discursos, entrevistas e lives dos candidatos à Presidência. Além de deixar a informação pública em um site, fizemos uma API para pesquisadores que foi usada, por exemplo, pelo departamento de Ciência Política da Universidade Federal de Pernambuco. A plataforma também foi usada para embasar matérias de grandes veículos, como UOL e do próprio Aos Fatos.
Um dos exemplos de investigações que fizemos durantes as eleições usando o Escriba foi uma que investigou dezenas de horas da programação de rádios brasileiras e descobriu que um relatório apresentado pela campanha de Jair Bolsonaro tinha informaçãos falsas. O documento alegava que o então candidato estava recebendo menos tempo de propaganda eleitoral obrigatória do que seu adversário, o que seria ilegal. Alguns aliados de Bolsonaro chegaram a defender o adiamento das eleições. A reportagem do Aos Fatos, impossível de executar a tempo sem o Escriba revelou uma série de falhas no relatório e ajudou a conter o ímpeto antidemocrático.
O Escriba tornou nossa redação muito mais eficiente, agilizando o processo de transcrição que consumia centenas de horas por mês dos nossos repórteres, especialmente em um agregador que checa todas as declarações do então presidente Jair Bolsonaro.
Techniques/technologies used:
Construímos o Escriba usando uma combinação de tecnologia diferentes. O “motor” de transcrição é um algoritmo de inteligência artificial do tipo deep learning, executado em Python. A arquitetura foi criada em Django (também python) e o frontend do editor de texto criado para corrigir erros de transcrição foi desenvolvido em Javascript puro e React. Também usamos uma série de outros pacotes para outras funções como detecção automática de falantes
Context about the project:
Idiomas como o inglês e o espanhol já tinham uma série de ferramentas de transcrição automática de boa qualidade e preço acessível, mas esse não era o caso do português antes do Escriba. Por isso, reportagens que envolvessem grandes volumes de áudios e vídeos eram inviáveis sem uma equipe enorme.
Outro aspecto é que, diferente de outros países, no Brasil não existe uma tradição criar banco públicos de discursos de candidatos a cargos públicos. O Banco de Discursos foi, no nosso conhecimento, o primeiro a fazer isso.
What can other journalists learn from this project?
Informações de áudio e vídeo são uma fonte rica, mas pouco explorada, de dados que podem embasar reportagens e visualizações com enorme impacto. Queremos que o Escriba e os projetos que nasceram dele sejam um primeiro passo para que esse universo se torne mais acessível para jornalistas.
Project links:
https://escriba.aosfatos.org/banco-de-discursos/
https://www.aosfatos.org/bipe/insercoes-radio-bolsonaro-tse/
https://www.aosfatos.org/noticias/tse-jovem-pan-desinformacao/
https://www.escriba.aosfatos.org