CAPTCHAs, reCAPTCHAs e o trabalho invisível

segunda-feira, 16 de novembro de 2009

Meu primeiro post, vamos ver se sai alguma coisa boa. Faz tempo que eu não escrevo nada...

Eu estava lá, charlando, quando uma amiga postou no twitter um lance mais ou menos assim: "Quem pensou nisso é um gênio! -link-", aí obviamente eu cliquei no tal link.

Fui levado pra uma página que falava o que eram captchas e recaptchas. Eu já fazia uma vaga idéia do que era, mas o site clarificou tudo. Pra quem não conhece os termos, um captcha é aquela palavrinha distorcida que a um monte de sites te obriga a decifrar quando você quer se dacastrar, comentar, enviar e afins, e serve para evitar que algum programa fique fazendo a mesma coisa que você só que de maneira automatizada e, consequentemente, muito mais vezes.

CAPTCHA é uma sigla, que significa "Completely Automated Public Turing test to tell Computers and Humans Apart." Traduzindo livremente, seria algo como um método para diferenciar humanos de computadores. Pensei logo de cara que isso era bobagem, existem vários softwares de OCR (reconhecimento digital de caracteres), e fui ler sobre. De fato, alguns tipos de captchas já são decifrados por programas, então eles estão evoluindo: agora aparecem com linhas, novas distorções, palavras grudadas e/ou quebradas...

Até aí, só achei meio bobo. Aí cheguei no reCAPTCHA, que eu estava imaginando como uma nova versão da mesma coisa.

Coloquei o termo no google e dei enter pra ver o que iria parecer. Uma enxurrada de links mostrava que a Google comprou a empresa do recaptcha. Já despertou meu interesse, porque eu ando meio anti-google esses dias (eu sei, odeio-mas-uso-mesmo-assim). Então eu vi o porquê...

Vocês já encontraram captchas com duas palavras? Muito frequente pra quem usa facebook, normalmente essa forma é composta por um captcha e um recaptcha. Mas o que é um recaptcha afinal?

Ele se apresenta da mesma maneira ao usuário, mas não é uma palavra gerada aleatoriamente. Programas OCR são usados para digitalizar livros, mas ocasionalmente eles acusam que algumas palavras não puderam ser lidas. Isso pode acontecer por uma série de fatores físicos do livro, por falta da palavra no banco de dados de conferência, por uso de uma fonte não-padrão ou por ser um manuscrito com letra feia, tanto faz. Essas palavras, não reconhecidas automaticamente, são enviadas para serem recaptchas.

Funciona assim: aparecem pra você duas palavras: a primeira é um captcha comum, que vai permitir seu acesso ao que você desejava, se digitado corretamente. A segunda, é uma palavra escaneada de algum lugar, que você vai ajudar a dizer qual é. Ela não precisa ser digitada corretamente, embora uma porcentagem absurda de pessoas o faça. Há um sistema de pontuações para cada vez que um recaptcha é digitado, e ao atingir determinada pontuação ele é considerado correto e enviado para o corpo do livro de onde saiu.

De acordo com o site oficial, aproximadamente 200 milhões de captchas são resolvidos por dia, e levam em média 10 segundos para o serem. Individualmente isso é muito pouco, mas o resultado final é uma carga de 150.000 horas de trabalho por dia.
---

Pensando nisso, cheguei a algumas conclusões: primeiro, a Google comprou a recaptcha para digitalizar o acervo absurdamente gigantesco que eles adquiriram nos ultimos anos, para que eles possam vender esses livros. Segundo, eles nos botam pra trabalhar, de graça, sem que nós percebamos, para digitalizar obras que nós não sabemos quais são.

Além de eu considerar isso imoral, acho perigoso. Se eu estou trabalhando, deve ser com o meu consentimento e eu devo ser pago por isso, está em qualquer texto jurídico. Mas o principal é que se eu estou ajudando uma informação a circular nesse mundo, também sou responsável por ela, e mesmo achando que no final é bom pra humanidade que QUALQUER COISA seja traduzida, publicada etc, eu não quero colocar as minhas mãos em uma porção de coisas.

A Google é uma gigante da informação, crescendo assustadoramente a cada ano. Agora todos nós trabalhamos um pouco pra que ela continue assim. Eles possuem uma enorme facilidade pra disfarçar trabalho em diversão, fazendo seus usuários sentirem prazer em realizar trabalhos pra eles, seja provendo informações ou resolvendo captchas.

Seja como for, meus recaptchas agora são sempre 'pizza'. Informação muda vidas, e eu não vou ajudar informação que eu não posso julgar antes. É perigoso demais, e embora a minha pequena sabotagem seja irrelevante pro resultado final, me recuso a participar aqui.

E eu adoraria qualquer comentário sobre isso, estou ansioso por outras opiniões!

4 comentários

Luiz disse...

Li seu post, mas ainda gostaria de perguntar novamente o porquê da sua atitude.

Primeiro, o reCAPTCHA já existe faz alguns anos, e sempre com a mesma janelinha vermelha e amarela com uma bela interrogação de ajuda onde diz exatamente o que ele é. Então não dá para alegar "estou trabalhando sem saber".

Segundo, se um texto não foi lido corretamente via OCR é praticamente certo que ele não será lido por BOTs, ou seja, ele está cumprindo seu papel como bloqueador de SPAM.

Terceiro, o "trabalho" que você tem para digitar duas palavras comuns em linguagem natural é muito menor do que as alternativas (caracteres aleatórios, distorcidos, fundos coloridos, equações matemáticas, etc), conseqüentemente o tempo gasto numa tela de registro ou login é muito menor para um operador humano.

Quarto, o acervo atual que está sendo digitalizado é o New York Times. Já foram digitalizados 20 anos dele e o projeto espera ter os outros CENTO E DEZ ANOS concluídos em 2010. São 130 anos de informação transformadas em formato digital em menos de 2 anos.

Quinto, nenhum site é obrigado a usar o reCAPTCHA, se eles utilizam é porque funciona.

Resumindo, fazendo este "trabalho" você estará simultaneamente: auxiliando na digitalização de obras, aprimorando a tecnologia OCR, evitando BOTs e SPAM e aumentando a segurança geral da web, tudo isto de forma transparente para o usuário e sem custos para os administradores de sites.

Outras opções de "trabalho" distribuído que visam progressos sociais ou científicos:
- Prime95: usa o tempo inativo do computador para calcular primos Mersenne;
- Folding@Home: usa tempo inativo do computador para simular dobras proteícas;
- SETI@Home: usa tempo inativo do computador para analisar sinais de rádio em busca de inteligência extraterrestre;
- Einstein@Home: usa tempo inativo do computador para analisar dados em busca experimentais em busca de ondas gravitacionais.

O reCAPTCHA é exatamente como estes outros serviços que mencionei acima, só que ao invés de utilizar tempo inativo do computador ele utiliza tempo que seria perdido de usuários respondendo testes anti-spam.

Luiz Borges

PS: o reCAPTCHA também é um dos poucos que tenta ser acessível a operadores deficientes visuais.

PS2: Ainda sobre programas de processamento distribuído utilizando raciocínio humano, o Galaxy Zoo é site onde você vê fotos de galáxias e as classifica de acordo com características.

16 de novembro de 2009 às 14:51

Peço desculpas pela demora em responder, mas eu estava viajando.

Ok, deixa eu ver se eu posso lidar com alguns dos seus argumentos:

Primeiro, é bastante fácil alegar que estou trabalhando sem saber sim. Não me diga que você lê os contratos de todos os programas que instala, por exemplo. Não espere que os usuários de sites que utilizam o recaptcha tenham uma clara noção do quê eles estão fazendo. Acho que isso é só um argumento burocrático. Na prática, ninguém liga e todos acham que estão atravessando uma barreira anti-spam, não digitalizando material para terceiros. Mas eu entendo seu ponto, a informação está disponível.

Segundo: Como bloqueador de spam, ótimo. Captchas parecem funcionar mesmo, é uma ferramente muito necessária, não vejo porquê discordar disso. Meu problema é com o recaptcha.

Terceiro: Não ligo para a quantidade do trabalho. Ligo para a finalidade dele. Digitar para evitar spam = bom. Digitar para trabalhar para outrem = ruim.

Quarto: Eu não conheço o NYT. Não sei se concordo com o que eles pensam, o que eles dizem, o que eles fazem. E mesmo que eu conhecesse esse jornal a partir de hoje, não tenho como julgar tudo o que eles já produziram. E quando acabar a digitalização desse jornal, vão escolher outra coisa, e outra coisa, e mais outra... e eu não terei nenhuma opinião nessa escolha. Minha maior crítica é exatamente essa, a de auxiliar na propagação e conservação de informações que eu não tenho como julgar.

Quinto: nenhum site é obrigado a usar, mas todos os usuários do site são obrigados. Lógico que não são 'obrigados', mas se todos os seus amigos estão usando facebook e você acha que é a melhor ferramenta para estar em contato com eles, então você vai usar também. Comodidade, não obrigação. Mas aí será obrigado a brincar de recaptchas, em verificações onde captchas seriam o suficiente.

Essas opções de 'trabalho' distribuído, pelo menos as que eu conheço, são coisas que você opta voluntariamente por fazer, sendo favorável ao objetivo delas. Embora eu tenha claro que qualquer coisa dessas que você auxilie vai gerar lucro pra alguma megacorporação em algum momento, eu gostaria de achar extra-terrestres por exemplo.

Acessibilidade a deficientes visuais é muito legal, mas como tudo hoje em dia, tem a dupla-finalidade de ajudar e/para tornar mais produtivo.

Resumindo, é isso: a idéia é genial, a forma de execução é genial. Meu problema é com a aplicação. Fica parecendo um negócio meio adolescente-que-não-bebe-coca-cola-e-odeia-o-capitalismo, mas eu acho isso meio escroto mesmo, fazer o quê? E o que o recaptcha faz é explorar trabalho (de novo, o problema é o ato, não a quantidade), de forma muito mais camuflada que um seti@home e com a aparência de diversão que um facebook pode dar.

Por hora, é isso. Aceito contatos pra uma cerveja e uma discussão (no bom sentido), reais as duas hehe

19 de novembro de 2009 às 11:10
Luiz disse...

Vou tentar contra-argumentar alguns pontos de conflito.

1) Você concluiu no fim que a informação está disponível, então imagino que concorda que a idéia "trabalhar sem saber não é válida". Imagine que ao invés de um tela de ajuda popup ele colocasse toda uma declaração falando o que é reCAPTCHA, qual o projeto atual, qual o andamento, e de que trecho foi tirada as palavras que você está digitando. Imagine agora a poluição visual gerada, não só isso, mas imagina agora quantas pessoas tem interesse em obter toda esta informação ou se preocupam com a mesma.

2) Aqui acho que você não entendeu meu ponto. O reCAPTCHA é MUITO mais eficiente que o tradicional CAPTCHA pois utiliza palavras que não foram reconhecidas por computadores, o que já um garantia de eficiência implícita.

3) Você não liga pelo trabalho extra de decifrar caracteres estranhos, mas a maioria dos usuários liga. Vivemos numa época de extrema velocidade, e demorar alguns segundos a mais no preenchimento é ruim para a maioria das pessoas. Assim como a democracia, a maioria dos usuários da web definem o que é bom e o que não é.

4) Independente do conteúdo do NYT, é cultura. Eu sou ateu, nem por isso penso que a bíblia, o alcorão, ou a torá devem ser queimadas (o que os religiosos sempre adoraram fazer). Também não penso que a música ou arte sacra deva ser descartada pois foi patrocinada pela igreja. É cultura, é patrimônio histórico da humanidade. Dizer que não concorda com determinado material e por isso não quer ver ele conservado é censura.

5) Você não é obrigado a utilizar Facebook. Mas o seu ponto tem validade, pois eu sei que alguns serviços essenciais do governo dos EUA utilizam o reCAPTCHA e como tal algumas pessoas são obrigadas a utilizá-lo. Ainda assim, será que o "transtorno" na preservação de cultura é tão grande e estes teus 5-10 segundos de "trabalho" custam tanto assim ao ponto de dizer que a tecnologia é "coisa do mal".

Na internet não existe nada verdadeiramente grátis, de alguma forma ou de outra você está "pagando", ou "trabalhando". Seja vendo anúncios em sites, ou tendo que clicar em determinado link, ou ainda esperar um contador te liberar o acesso (enquanto exibe mais anúncios).

Será que tudo isto que está dizendo sobre você ter seu trabalho "roubado" é realmente um sentimento real baseado em argumentos lógicos ou é apenas um sentimento anti-Google.

Uma pergunta retórica final: você joga papel no cesto para reciclagem? Por quê? Existem faxineiros, varredores, e catadores para limpar os ambientes, você não é pago para isto, então está trabalhando "de graça". Você também não sabe o destino deste papel que será reciclado, ele pode muito bem ser descartado, ou pior ainda, utilizado para imprimir livros que você não concorda com o conteúdo.

Luiz Borges

PS: Se meu post pareceu um pouco agressivo, é apenas impressão. Costumo utilizar a lógica extensivamente nas minhas argumentações e isto as deixa com um tom frio e impessoal.

19 de novembro de 2009 às 11:39
Laura Pimentel disse...

Mto boa a discussão e tb aceito e tô dentro pras duas propostas feitas pelo Rodrigo. Ah, 'Rmk', o Luiz é gente boníssima!!! Bjos!

Eu dei uma sumida, mas sabe como é.. defender TCC, muita calma... hahahaaha mas eu voltareeeeeeeiiiiiiiiii!!! com posts quentíssimos. A Profa. Marta há de concordar comigo...!! eheheheh

22 de novembro de 2009 às 22:18

Postar um comentário