sábado, 21 de setembro de 2013

Palavras decifradas no ReCaptcha ajudam a digitalizar livros; entenda

Todos que navegam pela Internet já usaram os captchas, que pedem para digitar um ou duas palavras antes de enviar um formulário, por exemplo. O termo é uma silga, cuja origem vem da extensa expressão em inglês Completely Automated Public Turing test to tell Computers and Humans Apart (ou traduzindo livremente, Teste de Turing Público Completamente Automatizado para Diferenciar Computadores e Humanos). Mas, há uma alternativa curiosa e interrante ao recurso chamada ReCaptcha, que faz dele um digitalizador de livros virtuais.
O captcha é um mecanismo criado para impedir ataques e spams, geralmente realizado por computadores programados para isso (os chamados bots). O termo foi criado em 2000 na universidade Carnegie Mellon, dos Estados Unidos – também detentora da patente – e passou a ser conhecido em 2003, após a publicação de um artigo científico do grupo.
Para alcançar seu objetivo, o captcha usa a incapacidade dos computadores de reconhecerem os caracteres distorcidos das imagens. Com isso, apenas um humano consegue entendê-lo. Muitos sites sugerem perguntas como "Você é uma pessoa de verdade?" e usam essa solução relativamente simples em formulários e downloads. O sistema consegue saber quando um computador ou um humano está tentando acessá-lo.

Segundo Luis von Ahn, cientista guatemalteco e um dos pesquisadores da universidade Carnegie Mellon que desenvolveram o captcha, são resolvidos mais de 200 milhões de captchas diariamente, sendo que, na média, cada pessoa leva dez segundos para solucioná-lo, o que totaliza mais de 150 mil horas de processando em um único dia.

Então, von Ahn se fez a seguinte pergunta: por que não aproveitar esse processamento do cérebro e usá-lo para algo útil, como ajudar na “leitura” de palavras e caracteres de livros?

Os programas de reconhecimento automático de textos digitalizados, os OCRs (Optical Character Recognition, ou Reconhecimento Ótico de Caracteres), não são perfeitos: cerca de 20% das palavras de textos antigos, em que as folhas estão amareladas e a tinta já está fraca, não são reconhecidas. Em contrapartida, dois humanos transcrevendo o mesmo texto chegam a uma taxa de acerto superior a 99%. Com esse problema em mente, e com cérebros humanos realizando tarefas que as máquinas não conseguem, os pesquisadores da mesma Carnegie Mellon criaram o reCaptcha. O objetivo passou a ir além de saber se quem acessa o sistema é uma máquina ou um computador. Agora, os usuários também ajudariam a desvendar palavras digitalizadas que não foram reconhecidas pelos OCRs.

Como funciona o reCaptcha?

Os textos são digitalizados e dois OCRs diferentes são executados. Caso uma palavra seja reconhecida de maneiras diferentes por cada OCRs ela é classificada como “suspeita”. Em 96% dos casos, um dos OCRs errou no reconhecimento da palavra. Em contra-partida, 99,74% das palavras não marcadas como “suspeita” foram corretamente identificadas. Na imagem abaixo, a palavra em inglês “morning” (manhã) não foi reconhecida pelos OCRs.

Cada palavra suspeita é, então, separada por um programa de computador, que gera uma imagem com duas palavras: a suspeita e outra que o sistema reconheceu corretamente. Ambas as palavras são distorcidas de três diferentes formas – mas todas elas são ainda possíveis de ser reconhecidas por um humano. São essas reproduções que são exibidas para os usuários, como pode ser visto na imagem abaixo. Ao lado de “morning”, que não foi reconhecida pelos OCRs, foi colocada a palavra “overlooks”, já conhecida pelo sistema.
Se o usuário acertar a palavra conhecida, então o sistema entende que ele sabe também a palavra desconhecida, e aceita aquela resposta como válida. Caso uma palavra “suspeita” seja digitada igualmente por dois diferentes usuários e ainda for igual ao reconhecimento de um dos OCRs, então ela deixa de ser suspeita e se torna conhecida. Caso três usuários diferentes digitem a palavra da mesma forma, ainda que diferencie de ambos os OCRs, a palavra também deixa de ser suspeita e passa a valer o entendimentos dos usuários.

Resultados do reCAPTCHA

Em um teste realizado, foram escaneados 50 artigos do The New York Times, totalizando 24.080 palavras. Os artigos foram transcritos completamente por dois profissionais da área, que erraram a transcrição de 189 palavras. Os mesmos artigos passaram pelo reCaptcha: quase 20% das palavras não foram reconhecidas pelos OCRs. Estas palavras foram colocadas para serem decifradas pelas pessoas comuns. Com isso, o reCaptcha atingiu 99,1% de precisão nas transcrições, com 216 palavras erradas, valor bem próximo àquele dos dois profissionais.

Apenas no primeiro ano foram decifradas corretamente mais de 440 milhões de palavras suspeitas. Segundo os cálculos de von Ahn, se considerarmos que um livro de 400 páginas tem cem mil palavras (com 250 palavras por página), esse número de palavras reconhecidas totalizaria mais de 17.600 livros transcritos. Em 2010, a taxa de transcrições ultrapassava o equivalente a 160 livros por dia. Apenas como comparativo, para atingir esse mesmo objetivo seria necessário 1500 pessoas trabalhando 40 horas por semana e decifrando 60 palavras por segundo.

O reCAPTCHA está presente em mais de 40 mil sites da Internet, e foi usado para digitalizar o acervo de mais de 150 anos do jornal The New York Times, além de ser usado na digitalização de livros feita pelo Google – que se tornou dona do reCaptcha em 2009.

Nenhum comentário:

Postar um comentário