2023

Escriba

Entry type: Single project

Country/area: Brazil

Publishing organisation: Aos Fatos

Organisation size: Small

Publication date: 2022-08-20

Language: Portuguese

Authors: Alexandre Aragão, Ana Rita Cunha, Amanda Ribeiro, Bernardo Moura, Bianca Bortolon, Bruna Rezende, Bruno Fávero – diretor de crescimento, Carlos Leandro, Carol Cavaleiro, Ethel Rudnitzki, Israel Teixeira, João Ernane Barbosa, Leonardo Cazes, Luiz Fernando Menezes, Luiza Barros, Marco Faustino, Milena Mangabeira, Rhenan Bartels, Sofia Fernandes, Tai Nalon

Biography:

Alexandre Aragão – editor executivo

Ana Rita Cunha – diretora de estratégia e comunidades

Amanda Ribeiro – repórter

Bernardo Moura – diretor editorial e de operações

Bianca Bortolon – linguista

Bruna Rezende – repórter

Bruno Fávero – diretor de crescimento

Carlos Leandro – desenvolvedor

Carol Cavaleiro

Ethel Rudnitzki – repórter

Israel Teixeira

João Ernane Barbosa – cientista de dados e OSINT

Leonardo Cazes – chefe de reportagem

Luiz Fernando Menezes – repórter

Luiza Barros – editora de audiência

Marco Faustino – repórter

Milena Mangabeira – linguista

Rhenan Bartels – desenvolvedor-chefe

Sofia Fernandes – editora

Tai Nalon – diretora executiva

Project description:

O Escriba é uma ferramenta de transcrição automática criada pelo Aos Fatos para facilitar o uso de vídeo e áudio como fonte de dados para projetos editoriais.

A iniciativa foi concebida para as eleições de 2022 e permitiu que produzíssemos projetos e coberturas que tiveram grande impacto no debate eleitoral do Brasil. Criamos o Banco de Discurso, um repositório público com transcrições dos candidatos à presidência; publicamos checagens de debates em tempo real; e fizemos apuração exclusivas — por exemplo, processamos dezenas de horas de áudios para desmentir relatório que acusava rádios de não veicularem propagandas obrigatórias de Jair Bolsonaro.

Impact reached:

O Escriba nos permitiu converter informação de áudio para texto em escala e com rapidez. Isso abriu uma nova frente de reportagens e projetos editoriais baseados em dados para nossa redação.

Um dos trabalhos feito durante as eleições foi o Banco de Discursos, uma plataforma que compilou transcrições de todos os discursos, entrevistas e lives dos candidatos à Presidência. Além de deixar a informação pública em um site, fizemos uma API para pesquisadores que foi usada, por exemplo, pelo departamento de Ciência Política da Universidade Federal de Pernambuco. A plataforma também foi usada para embasar matérias de grandes veículos, como UOL e do próprio Aos Fatos.

Um dos exemplos de investigações que fizemos durantes as eleições usando o Escriba foi uma que investigou dezenas de horas da programação de rádios brasileiras e descobriu que um relatório apresentado pela campanha de Jair Bolsonaro tinha informaçãos falsas. O documento alegava que o então candidato estava recebendo menos tempo de propaganda eleitoral obrigatória do que seu adversário, o que seria ilegal. Alguns aliados de Bolsonaro chegaram a defender o adiamento das eleições. A reportagem do Aos Fatos, impossível de executar a tempo sem o Escriba revelou uma série de falhas no relatório e ajudou a conter o ímpeto antidemocrático.

O Escriba tornou nossa redação muito mais eficiente, agilizando o processo de transcrição que consumia centenas de horas por mês dos nossos repórteres, especialmente em um agregador que checa todas as declarações do então presidente Jair Bolsonaro.

Techniques/technologies used:

Construímos o Escriba usando uma combinação de tecnologia diferentes. O “motor” de transcrição é um algoritmo de inteligência artificial do tipo deep learning, executado em Python. A arquitetura foi criada em Django (também python) e o frontend do editor de texto criado para corrigir erros de transcrição foi desenvolvido em Javascript puro e React. Também usamos uma série de outros pacotes para outras funções como detecção automática de falantes

Context about the project:

Idiomas como o inglês e o espanhol já tinham uma série de ferramentas de transcrição automática de boa qualidade e preço acessível, mas esse não era o caso do português antes do Escriba. Por isso, reportagens que envolvessem grandes volumes de áudios e vídeos eram inviáveis sem uma equipe enorme.

Outro aspecto é que, diferente de outros países, no Brasil não existe uma tradição criar banco públicos de discursos de candidatos a cargos públicos. O Banco de Discursos foi, no nosso conhecimento, o primeiro a fazer isso.

What can other journalists learn from this project?

Informações de áudio e vídeo são uma fonte rica, mas pouco explorada, de dados que podem embasar reportagens e visualizações com enorme impacto. Queremos que o Escriba e os projetos que nasceram dele sejam um primeiro passo para que esse universo se torne mais acessível para jornalistas.

Project links:

https://escriba.aosfatos.org/banco-de-discursos/

https://www.aosfatos.org/bipe/insercoes-radio-bolsonaro-tse/

https://www.aosfatos.org/noticias/tse-jovem-pan-desinformacao/

https://www.escriba.aosfatos.org