Quantos Terabytes de Dark Data sua empresa tem acumulado?

Dark Data é um termo menos conhecido e não tão glamouroso como Big Data, mas muitas empresas tem coletado esse tipo de informação e gasto muito dinheiro armazenando, sem necessariamente fazer uso das mesmas.

A maioria das empresas tenta acumular todas as informações transacionais possíveis de um cliente, e concentram suas análises nesses dados, tais como históricos de compras, endereços fornecidos, números de cartão, mas muitos outros dados são coletados nesse processo e nem sempre são considerados, como, por exemplo, o horário em que determinado cliente acessa, se a conexão era mobile ou desktop, ou mesmo a localização física onde o cliente fez a compra.

Os dados considerados como Dark Data são um subproduto na aquisição dos dados transacionais, muitas vezes armazenados, mas poucas vezes considerados na solução de problemas e detecção de padrões. São dados armazenados muitas vezes para comprovar que uma determinada ação ocorreu, mas que são obsoletos do ponto de vista operacional da empresa.

Alguns exemplos de Dark Data:

  • Dados gerais de clientes
  • Dados de compras já entregues
  • Dados de pedidos já recebidos
  • Arquivos de logs
  • Extratos de contas
  • Dados de ex-empregados
  • Declarações financeiras
  • Dados brutos de pesquisas (respostas)
  • E-mails antigos
  • Anotações ou apresentações
  • Versões anteriores de documentos relevantes

Enfim, a geração desse tipo de informação não tem fim.

Quais os perigos?

Muitas vezes algumas dessas informações são sensíveis e devem ser protegidas contra violação, vazamento e perda como outras informações, isso implica em altos custos para manter esses dados nem sempre relevantes.

Também tem a tendência de se acumularem muito rapidamente e com isso aumentar os custos de processamento, armazenamento e backup dessas informações, prejudicando performance em sistemas críticos de maior relevância mesmo que esses dados não sejam utilizados

Quais as oportunidades?

Com esse tipo de informação muitas questões do negócio podem ser respondidas, por exemplo:

  • Existem clientes que compram em lojas do mesmo grupo em diferentes localidades?
  • Eles compram os mesmos produtos nessas lojas?
  • Existe um horário ou dia da semana em que determinado cliente costuma comprar?
  • Existe um horário que um determinado cliente lê nossos e-mails? Isso coincide com a compra? Será que se aproximarmos o horário que enviamos o e-mail com o horário que ele normalmente compra, ele passará a comprar mais?
  • Nossos servidores de e-commerce tem entregado todas páginas com alta performance? A taxa de fechamento das vendas está relacionado com a performance das páginas? Existe alguma região do país onde a performance é baixa? Compensa colocar um servidor mais próximo desses clientes para melhor atendê-los?
  • Existem clientes de uma determinada região que tem demandado mais serviços que os demais? Nessa região existe algum fator crítico de infraestrutura que nos impede de atender bem o cliente? É possível reverter isso?

Case prático

Um exemplo prático ocorreu com a Gate Gourmet, uma empresa que presta serviços de alimentação para companhias aéreas na Suíça. A Gate Gourmet tinha uma baixa taxa de satisfação entre os funcionários.
Depois de analisar dados demográficos entre os funcionários que haviam saído da empresa, descobriram que boa parte da insatisfação poderia estar relacionada com a distância de moradia dos funcionários aos aeroportos e os meios de transportes disponíveis.
A Gate Gourmet mudou seu processo de contratação depois disso, passando a levar em conta esse tipo de informação e viu seus índices melhorarem significativamente.

E para sua empresa?

Claro que ninguém vai começar a levantar novas questões e descobrir novas constatações do nada, é preciso iniciar um processo de análise de dados, gestão a vista e descoberta de dados com uma ferramenta de Business Inteligence, com suporte a Data Analytics e Data Discovery.
Talvez os primeiros passos sejam confusos, inseguros e tortuosos, mas a prática leva a perfeição, então o primeiro passo é começar.

 

Leia também esse artigo da IDG Connect: What awaits discovery within ‘dark data’?

 

Referência do case: IDG Connect

 

 

Sobre o autor
Fernando Ulisses dos Santos
Diretor de Tecnologia na Blue Solutions
Especialista em Segurança da Informação
Certificado VCP-DCV, VCAP-DT, VCP-DT

 

Read More

O que é Big Data e como funciona?

Muito tem se falado de Big Data, e começam a aparecer algumas soluções interessantes no mercado, inclusive open source, mas poucas são as definições do que é Big Data e qual sua importância para o mundo dos negócios.

O termo tem sido usado para definir grandes quantidades de dados armazenados pelas empresas, mas principalmente dados não estruturados, como logs de acesso, dados de sensores, frases escritas por funcionários e clientes, dados de redes sociais, posições geográficas, e-mails, arquivos no servidor de arquivos, entre outros.

Todos sabem que a evolução da tecnologia tem seguido a Lei de Moore, que prevê que a capacidade de processamento e armazenamento dobra a cada 18 meses, isso tem nos proporcionado cada vez mais capacidade de armazenamento.

Por outro lado, a Lei de Parkinson quando aplicada a computação, determina que toda a capacidade disponível tende a ser ocupada, isso nos dá mais dados para armazenar e principalmente analisar, o que tem se tornado inviável com ferramentas convencionais.

Aí que entram as ferramentas de análise de Big Data, que permitem o tratamento de grandes quantidades de informações, estruturadas ou não, para gerar novas análises e entendimento sobre as informações existentes.

Arquiteturas de Big Data

O grande diferencial dessas ferramentas é a capacidade de processamento distribuído, o que permite criar um cluster dedicado com vários servidores, com grande capacidade de processamento e armazenamento, sem a necessidade de equipamentos especializados e normalmente tolerante a falha.

Em termos de arquitetura, as ferramentas de Big Data utilizam a capacidade de processamento e armazenamento em paralelo, ao invés de utilizar um computador único cada vez maior. Esse conceito já era defendido por Grace Hopper:
In pioneer days they used oxen for heavy pulling, and when one ox couldn’t budge a log, we didn’t try to grow a larger ox. We shouldn’t be trying for bigger computers, but for more (systems of computers).

Casos de Uso

Estima-se que apenas 20% dos dados de uma empresa são dados estruturados, usados para a tomada de decisões, e é aí que entra a capacidade das novas ferramentas, que vão além do banco de dados relacional, permitindo correlacionar dados de diversas fontes, e nos mais variados formatos, como documentos, planilhas, emails, imagens e até vídeos.

Um caso de uso bem comum é utilizar o cluster de Big Data para Business Analytics ou Business Inteligence. Em empresas maiores, a quantidade de dados estruturados pode chegar a números bem expressivos, o que pode inviabilizar a consulta em um banco de dados relacional comum.

Nesses casos, exportar o conteúdo desses bancos para um ambiente de Big Data pode viabilizar a execução, pois o SGBD em Big Data é focado apenas no dado, e não na indexação, relacionamento e validação dos dados como num SGBD comum, permitindo executar consultas que seriam inviáveis em termos de tempo de execução e recursos computacionais das soluções convencionais.

Desafios

O primeiro desafio do Big Data é a coleta de dados para dentro do cluster, normalmente fala-se de enormes quantidades de dados sendo gerados em um taxa maior do que um servidor seria capaz de processar e armazenar, aí entram os clusters, com vários nós capturando essas informações e distribuindo entre os outros nós do cluster para manter a tolerância a falha.

O segundo desafio é processar essas informações, como elas estão distribuídas, a aplicação deve ser capaz de consumir pequenas partes das informações e gerar pequenas partes de dados processados, que depois serão calculados em conjunto para criar o resultado final. Isso normalmente requer um desenvolvimento específico para o processamento desses dados.

A parte mais simples é a exibição dos resultados. Os arquivos gerados normalmente são resumo das informações, agrupando conforme necessário, de forma que alguém possa entender e tomar uma decisão sobre aqueles dados.

Existe SQL em Big Data?

Uma das formas criadas para aproveitar o conhecimento já existente no mercado sobre a linguagem SQL foi desenvolver ferramentas que suportassem SQL (Structured Query Language), comumente utilizada em SGBD.

Assim nasceram aplicações como Cassandra, MongoDB, Hive e Impala (essas duas últimas rodam sobre Hadoop), capazes de executar comandos comuns de SQL em clusters de Big Data.

Isso torna um pouco mais fácil o desenvolvimento para Big Data, pois aproveita um conhecimento já existente, mas Big Data ainda não é um conceito tão simples quanto Plug and Play.

Também o uso dessas ferramentas pode gerar uma expectativa irreal quanto a performance e o funcionamento. Todas essas ferramentas são muito novas, com comandos limitados, e o fato de executar distribuído faz consultas pequenas demorarem muito mais do que em um SGBD comum. A vantagem delas está realmente na hora de trabalhar grandes quantidades de dados, onde o overhead da computação distribuída é insignificante frente a quantidade de dados a ser processada.

Conclusão

Big Data é uma tecnologia que é realidade para grandes empresas. Tem tido rápida adoção para pesquisas, análise de negócios, detecção de fraudes, entendimento de comportamento dos consumidores, entre outros; mas os requisitos iniciais estão longe da realidade da maioria das pequenas e médias empresas, principalmente no Brasil.

Também as aplicações ainda são muito específicas e normalmente desenvolvidas sob demanda, o que aumenta ainda mais os custos iniciais de implantação e desenvolvimento.

Mas a predominância principalmente de ferramentas opensource, a capacidade de executar sobre hardware comum, e a tendência de aparecerem novos fornecedores nesse mundo deve trazer essa realidade em breve para pequenas e médias empresas.

Também deve ser comum a adoção de Big Data em Cloud Computing, principalmente para processar dados obtidos na própria Internet.

 

 

Sobre o autor
Fernando Ulisses dos Santos
Diretor de Tecnologia na Blue Solutions
Especialista em Segurança da Informação
Certificado VCP-DCV, VCAP-DT, VCP-DT

 

Read More