201602_big data

Actualmente existem inúmeros dados nas empresas, tanto os que provêm de dados internos de negócio como novas fontes de dados como os que se recolhem de redes sociais, do site da empresa, etc. Chamamos a isto Big Data.

Podemos dividir os dados disponíveis para as empresas em duas grandes categorias. Por um lado, estão os dados que têm sido tradicionalmente alvo de análise, os estruturados, que são os dados susceptíveis de serem armazenados em bases de dados de tabelas homogéneas.

Por outro lado, existem os dados não estruturados, que cada vez ganham mais importância e que requerem diferentes estruturas e formatos, uma vez que provêm de fontes diferentes. Algumas novas fontes de dados que produzem esta informação são os logs de uso da web e os dados gerados pelas interacções do utilizador online, tais como os mapas de densidade de cliques, tweets, chats do Facebook, mensagens de texto, correio electrónico, etc.

Cria-se assim um ambiente híbrido que enriquece enormemente as possibilidades da análise, mas que ao mesmo tempo aumenta a sua dificuldade, e que implica decisões de grande importância para o projecto. Por exemplo, é preciso decidir se se normaliza toda a informação antes da análise, ou se basta disponibilizar uma visão agregada de todas as fontes, simplificando a integração mas aumentando a incerteza sobre o alcance das conclusões.

Como se analisam os dados não estruturados?

Para analisar dados não estruturados deve-se procurar padrões no texto, vídeo, imagens e outros conteúdos não tradicionais. Isto é diferente de uma pesquisa convencional, que apresenta resultados relevantes em função das ocorrências de uma cadeia de texto. Num ambiente de análise e extracção de dados não estruturados são empregues técnicas desenvolvidas em áreas científicas como a linguística, a estatística e a análise numérica, entre outras.

Por exemplo, a área de Text Analytics tem como fim encontrar padrões repetitivos em documentos, mensagens de correio electrónico ou conversas, e delas extrair inferências e novos conhecimentos. Algumas das tecnologias usadas para a análise de dados não estruturados são o processamento de linguagem natural (NLP), a mineração de dados, a gestão de dados mestres (MDM), os procedimentos estatísticos, etc.

Para dar apoio ao Text Analytics são usadas bases de dados NoSQL (Not Only SQL), que são bases de dados de última geração não relacionais. São caracterizadas por serem escaláveis e terem alta disponibilidade. Além disso, são concebidas para serem fáceis de gerir e são mais económicas do que outro tipo de sistemas como o RDBMS. Existem diferentes tipos de bases NoSQL, pelo que se deve decidir qual é a adequada em função de cada projecto.

Paralelamente, há diferentes tipos de linguagem para trabalhar com bases NoSQL, por exemplo a Hive e a Pig, e cada uma tem as suas vantagens e desvantagens na apresentação de uma solução de Big Data.

Caso esteja interessado em conhecer melhor em que consiste o Big Data, entre em contacto connosco.

#BIG DATA #DADOS #NOSQL

Fonte: GTI – Big Data