Coordenar o trabalho de centenas de pessoas espalhadas pela internet não é uma tarefa fácil. Se tais pessoas são voluntárias, o processo pode se tornar caótico. O
Distributed Proofreaders, que auxilia o projeto Gutemberg, mostra que um empreendimento assim é possível, apenas organizando o trabalho.
O Projeto Gutemberg foi fundado na década de 1970 com o objetivo de digitalizar livros em domínio público e distribuí-los através de computadores. Com o surgimento de scanners, que transformam as páginas dos livros em imagens digitais, e softwares de OCR, que transformam as páginas em texto puro, o tedioso trabalho de digitar cada livro pôde ser abreviado.
No entanto, o programador Charles Franks, que mora em Las Vegas e iniciou o projeto Distributed Proofreaders, conta que ainda assim era muito difícil para uma pessoa trabalhar voluntariamente para o Projeto Gutemberg. Era necessário ter em mãos um livro em domínio público, passar todas as páginas em um scanner, dispor de um bom software OCR e enviar o trabalho completo.
Mesmo com toda a tecnologia disponível, ainda havia um gargalo: os textos criados pelos softwares de OCR precisam ser revistos por uma pessoa. Correções de eventuais erros de leitura do programa deviam ser feitas, os números de cada página retirados e as notas de rodapé formatadas para adequá-las aos livros eletrônicos.
A primeira idéia de Franks foi criar um programa que permitisse a voluntários baixar do site pacotes com 10 ou 20 páginas de texto com as respectivas imagens, corrigir os erros e enviar o resultado de volta. Conversando com pessoas que contribuíam há mais tempo com o Gutemberg, ele descobriu que o principal problema era a taxa de desistência de novos voluntários: após uma pessoa fazer o download de um pacote e revisar algumas páginas, ela poderia se cansar e não enviar de volta as páginas. Seu trabalho seria perdido, pois outra pessoa precisaria baixar o mesmo pacote e revisar novamente as páginas.
Para evitar isso, ele criou um sistema desenvolvido com a linguagem PHP que funciona sobre o banco de dados MySQL. Após o usuário se registrar no site, na janela do navegador aparecem a página original e o texto criado pelo programa OCR, que deve ser editado pelo voluntário. Após cada página do livro ser revista por duas pessoas, o trabalho é agregado por um coordenador, que irá formatar o livro eletrônico e enviá-lo para o Projeto Gutemberg.
- A principal idéia é que o revisor controla quanto ele quer trabalhar, e cada pequeno esforço ajuda a colocar um livro eletrônico na rede. Se ele revê uma página por dia, por mês ou por ano, vai ajudar de qualquer maneira - explica Frank.
O Distributed Proofreaders começou de maneira humilde há dois anos, sediado no próprio computador de Franks, que possui uma conexão de ADSL. Em novembro de 2002 ele migrou para um servidor mais poderoso e com conexão rápida, cedido pelo site Archive.org, e um artigo no site Slashdot atraiu milhares de usuários. Ele conta que administra o site junto com duas pessoas, 70 fazem o pós-processamento de textos, 7 mil são cadastradas e 1.500 pessoas contribuem regularmente revisando páginas.
http://texts01.archive.org/dp