Quanto as Big Tech sabem sobre nós?

Q

Eu poderia aplicar um algoritmo de análise de sentimentos no meu perfil do Twitter. Uma análise simples, binária, positivo e negativo, só pra ter uma ideia do tipo de sentimentos que predomina nos meus tweets (eu sei qual!). Há milhões de tutoriais — pra todos os níveis — sobre como fazer isso, usando o Python, por exemplo. Você pula a matemática (se quiser), vai direto pro código, segue os passos e pronto, está apto a aplicar o algoritmo sobre seus próprios dados.

Algumas empresas avaliam em tempo real o impacto de suas marcas nas redes sociais, o efeito da exposição de figuras públicas associadas a ela. Avaliam se há um bom fluxo de interações, sentimentos positivos, se a figura vale o investimento. Paolla Oliveira certamente tem contrato com a Reebok, ela sempre fala da marca. Quando estava aprendendo sobre Data science Rafael Nadal era o exemplo, não lembro qual era a marca associada. A gente podia pensar em Neymar, Ronaldo and so on and so on (sic). Pra mim, não deixa de parecer brutal que possamos fazer avaliações de tendências assim, usando essas ferramentas, esses métodos, contando com tantos dados e em tempo real. Nem sempre as redes sociais tem representatividade sobre uma população, depende de que população nós estamos falando. Mas em qualquer caso eles tem uma boa amostra de nós, do quem nós somos. Nos países em que a internet chega a mais gente, o alcance é colossal. O que elas podem saber de nós avaliando os nossos dados? E qual é o limite?

As pessoas que trabalham nessas empresas são absurdamente capazes (não apenas qualificadas, certificados e titulações em computação podem não significar nada) — o melhor que o dinheiro pode comprar e o dinheiro pode comprar muito. São jovens que povoam as séries de tecnologia como Mr Robot e Halt and Catch Fire — um pouco menos rebeldes, na verdade, mais ajustados ao mundo das aparências. Então, em termos de complexificação, o céu é o limite. Pra entender o abismo que nos separa desse mundo tenhamos em conta algo: no mercado das tecnologias de ponta há circunstâncias em que poucas pessoas no mundo podem avaliar se uma ideia é uma aposta, um blefe ou algo sólido — por falta de qualificação técnica pra entender a novidade. Quanto nós sabemos sobre computação quântica pra avaliar se a vale a pena investir numa briga em que já estão a Google e a IBM? Quantas pessoas você acha que sabem sobre o tema de modo a ser capaz de entender o impacto dessa tecnologia? Isso dá uma ideia do nível de complexidade em que circulam as decisões sobre o que fazer com os nossos dados, ou sobre que tipo de software de análise aplicar, que algoritmos utilizar. Nesse campo, o sujeito pode simplesmente desenvolver seu próprio algoritmo, todo o entorno de trabalho (hardware e software pode ser desenvolvido dentro da empresa). A Google criou o TPU, um hardware desenhado para trabalhar com tensores.

Mas o que elas poderiam saber de nós? Bem, não sei muito sobre o que elas já sabem, mas o potencial é imenso.

Artigo da Slate sobre um experimento do Facebook

O que você faria se tivesse uma quantidade colossal de informações sobre quase todo o mundo e ela fosse sua, digo, sua propriedade e você não precisasse prestar contas a ninguém sobre o que faz com ela? Pois é, o Facebook faz a mesma coisa. O céu é o limite, é o que eu digo. A resposta mais didática e bem apresentada que encontrei sobre o que elas podem fazer com o que sabem sobre nós está no documentário Terms and Conditions May Apply.

https://www.youtube.com/watch?v=LIiLoT4Po-c
O documentário está inteiro aqui, mas sem legendas.

E como é que se acumula tanta informação sobre nós? Por exemplo, eu tenho pouco mais de 2 Gb de dados no meu email, que é recente, comecei a usá-lo em 2011. Meu antigo correio deve ser de quando o Gmail foi criado, em 2004 — deve ter mais informações e ocupar mais espaço. São muitos dados! Agora imagine uma pessoa que tem o Gmail desde o começo e que, além disso, usa sua conta Google no Android (no seu smartphone) e no Google Chrome, no computador. Isto é, alguém que dá o login no Chrome do seu computador para que o navegador sincronize suas informações entre todos os dispositivos conectados à conta do Google. Caramba! Geolocalização, históricos de pesquisa em todos os dispositivos, emails, chamadas, tudo centralizado nos data centers do Google — eles tem tudo e podem cruzar todas as informações. Imagine o que se pode saber de uma pessoa uma vez que saibamos por onde ela anda, com quem ela conversa e sobre o quê, que buscas faz no Google, que páginas acessa. Se você acha que elas não nos gravam, com que você acha que são treinados os algoritmos de reconhecimento de voz, com áudio de filmes da Disney? As empresas não apenas podem saber sobre nós, como indivíduos, mais do que nós mesmos sabemos, elas também podem saber sobre nós como coletivo, como massa (ou manada). Podem prever nossa conduta, simular nosso comportamento em determinadas circunstâncias. Eu já escrevi sobre a Cambridge Analytica por aqui. O caso da Cambridge Analytica é paradigmático sobre como podemos ser instrumentalizados por meio das informações coletadas pelas Big Tech, a ponto de nos levar a perguntar se somos mesmo livres, se ainda tem sentido falar em liberdade.

As empresas de tecnologia definem o padrão tecnológico, determinam a regra e dão a medida do que corresponde a um avanço tecnológico em suas áreas. Por isso toda a briga em torno da supramacia quântica. Isso significa que nenhum governo, nenhuma Universidade ou centro de pesquisa tem pleno entendimento do que elas podem fazer e do que elas efetivamente fazem. Isso dificulta qualquer tentativa de controle e compreensão. Dificulta qualquer regulação institucional, pois nada do que as empresas fazem é público e elas não são obrigadas a declarar o que fazem. E ainda que fossem, quem garantiria que cumprem o que declaram? Pelo que eu vejo não há nenhum mecanismo de controle que seja possível. Mesmo que auditores super-qualificados tivessem acesso local a toda infraestrutura das empresas e permissão completa para acessar a base de dados sobre pesquisas em desenvolvimento, ainda assim não seria suficiente. Nada mais fácil do que esconder alguma coisa usando computadores. Descobriríamos os abusos muito depois de nos tornarmos vítimas.

A quantidade de dados sobre apenas um usuário é gigantesca, mas o conjunto de dados de todos os usuários é inconcebivelmente grande. Quando se lida com muitos dados chega um ponto em que é preciso desenvolver as próprias ferramentas para processá-los. O Facebook deu início ao desenvolvimento do entorno Cassandra (agora capitaneado pela Apache), uma base de dados não relacional que lida com informações ao largo de uma infinidade de servidores. Trata-se de permitir que se processe esses dados de uma vez, como se todos estivessem num mesmo computador. Quem tem um cliente de email como o Outlook ou o Thunderbird sabe que, se guarda muitos emails — por exemplo, 10 ou 15 Gb de mensagens —, a aplicação começa a apresentar instabilidade porque carrega com muita informação de uma só vez. A base de dados facilmente se corrompe e estraga a semana do usuário, por isso em políticas de grupo corporativas costuma haver restrições sobre o número de mensagens disponíveis. Agora imagine o que significa processar não Gigabytes, mas Terabytes, Petabytes de dados.

Para processar dados em grande escala (Big Data) é preciso transformar a imensa rede de servidores nos quais os dados estão espalhados numa só máquina. Bem, como se fosse. Daí a necessidade de softwares como o Hadoop, que não faz mais do que criar um File System a partir dessa rede, que torna possível tratá-la como se fosse um único disco rígido. Uma vez configurado o sistema de arquivos, outras aplicações, como o Spark, podem processar os dados. É preciso então configurar essa rede de processadores como se fosse apenas um, e é isso que faz o Spark (entre outros). Portanto, são duas etapas, primeiro é preciso criar as condições para tratar o cluster de computadores como se fosse apenas um único disco rígido, depois é preciso criar as condições para tratar o cluster de computadores como se fosse apenas um único processador. Essas duas etapas representam uma parte significativa das tecnologias que envolvem o que se chama de Big Data, elas dão lugar a uma capacidade computacional sem precedentes. Já não são necessários hardwares caros, mainframes disponíveis apenas a grandes empresas ricas o bastante para pagar a fortuna que eles custam. Agora, qualquer empresa pode montar um cluster com significativa capacidade computacional colocando em série máquinas com configurações apenas razoáveis. É como se pudesse somar a capacidade computacional das máquinas, isso torna incrivelmente fácil e barato operar e escalar esses clusters. Apesar disso, esse é o reino onde a Amazon AWS domina, porque ela vende essa tecnologia nas nuvens, sem precisar montar a infraestrutura, para qualquer empresa ou pessoa que pagar pra utilizar a capacidade computacional de Big Data.

O processamento da primeira imagem de um buraco negro é um bom exemplo disso que se torna possível a partir do uso dessas tecnologias. Katie Bouman, a pesquisadora que aparece acima, na foto em destaque no post, está ao lado de um cluster de discos rígidos com mais de um petabytes de dados sobre o buraco negro. Nada disso seria possível se não existissem as tecnologias que permitem distribuir (paralelamente) o processamento das mesmas tarefas numa rede de computadores.

1 Petabyte equivale a 1000 discos rígidos de 1 Gygabyte

A medida que mais e mais dispositivos coletam informações sobre nós, as regularidades do nosso comportamento passam a estar disponíveis para serem determinadas por máquinas cada vez mais potentes. Máquinas que são capazes de identificar regularidades com precisão inconcebível por nossos limitados recursos biológicos — elas que são capazes de aprender a distinguir entre diferentes tipos de melanona, apesar da imensa pluralidade das amostras. A internet das coisas é uma perspectiva que tem nos feito sonhar com cidades inteligentes, prontas a responder aos nossos anseios antes mesmo que eles se manifestem. Será que de fato esse oceano de informação sobre nós, circulando nas mãos de atores tão poderosos, ajudará a converter a sociedade naquilo que desejamos?

Dado que também somos máquinas, condicionadas por variáveis determinísticas, a única coisa concreta que podemos divisar nesse mar de devaneios é a possibilidade de sermos manipulados como marionetes por empresas munidas de informações que nem mesmo suspeitamos. Todo resto é publicidade! Mas cada um acredita no que quiser.

Adicionar comentário

outras redes

Perfis em outras redes

Preferidos

A categoria Preferidos é especial, porque reúne os textos que eu mais gosto. É uma boa amostra! As outras categorias são mais especializadas e diversas.

Categorias

Arquivos