Big Data pode ser mais simples do que pensamos

03/05/2018 Por Leonardo Sirqueira

Vocês já devem ter ouvido falar nessas palavras, correto? Não entendeu muito bem o que queriam dizer? Adianto que a resposta para “o que é Big Data” você não irá encontrar aqui, porque não existe uma resposta exata para isso. No entanto, vou tentar explicar algumas coisas para você que quer começar a entender melhor sobre esse “big mundo”.

Antes de continuar, você sabe o que são dados? Se sim, pode avançar para o próximo parágrafo. Caso não saiba, não tem problema, me acompanhe em uma breve explicação. Não estamos falando daquele cubinho com seis faces que usamos para jogos. Dados são informações diversas, em estado bruto, que podem ser organizadas de muitas maneiras diferentes. Há muito tempo existe uma ciência chamada de “Data Science” ou “Ciência dos Dados” para tratar de como lidar com esses dados, envolvendo estatística, matemática e mais uma porção de disciplinas. Recentemente, porém, surgem cada vez mais dados. Principalmente da internet, mas de muitos outros lugares também. Hoje, por exemplo, estima-se que temos aproximadamente quatro dispositivos por pessoa no mundo conectados à internet (e enviando dados).

A necessidade de usar o Big Data dá-se quando temos uma situação que envolve velocidade, variedade, valor, veracidade e volume de dados. Esses são os 5 V’s principais que devemos levar em consideração. Existem situações em que vão ser usados três, sete ou até nove, mas elas não vêm ao caso no momento.

Em outras palavras, quando não é possível resolver uma certa demanda relacionada a grandes quantidades de dados usando as mesmas ferramentas e processos usados para problemas tradicionais, você tem aí um problema de Big Data.

Agora que já entendemos para que serve, vamos falar sobre como manejar esse monte de dados que temos. É necessário coletar, realocar, armazenar e processar as informações geradas. Por essas serem “big”, seremos obrigados a usar a computação nas nuvens (ou cloud computing), a não ser que tenha espaço e verba suficientes para montar um Data Center que suporte tantos dados. Conceito similar ao armazenamento nas nuvens, onde alocamos um espaço virtual de memória para realizar as tarefas.

Precisaremos também trabalhar com plataformas de Processamento Massivo Paralelo (PMP). Elas são nada mais do que ferramentas que transformam o montante de dados em pacotes menores. Esses pacotes são eventualmente distribuídos para vários computadores podem processá-los mais facilmente e ao mesmo tempo, ou seja, em paralelo.

Além disso, é possível classificar as ferramentas de acordo com o tipo de resposta que você precisa dentro dos PMPs. São elas imediata e não imediata.

Um exemplo do tipo de resposta imediata é o aplicativo Waze. Ele recebe informações de usuários e tem que repassar imediatamente para outro usuário que está na mesma rua que ele, da forma mais dinâmica possível. Já um exemplo de resposta não imediata é o imposto de renda. A Receita Federal recebe uma declaração de cada pessoa e tem que relacionar com informações de diversas outras pessoas e/ou empresas. No entanto, essa resposta não precisa ser imediata, isso pode ser feito aos poucos, em lotes.

Mas por que alguém ia querer ter todo esse trabalho com certos dados? O que fazer com isso? É a partir da análise dessas informações que as empresas sabem os lugares que você visitou, o tipo de música ou filme que você gosta e o que você comprou no último mês. Com isso, suas ofertas são personalizadas, e elas conseguem muito mais conversões. E não é só de e-commerce que eu falo. O Netflix, por exemplo, tem baseado as suas últimas produções nas estrelinhas que você dá aos filmes e séries. As máquinas aprendem com esses dados, e oferecem soluções cada vez mais organizadas e personalizadas. É o que chamamos de “machine learning”.

Espero que tenha conseguido clarear a ideia dessa expressão usada na atualidade, mas que não é tão clara para todos ainda, a Big Data.