Ter problemas em administrar uma grande quantidade de dados antigamente restringia-se aos grandes das mídias sociais, tais como Amazon, Google, Yahoo, Facebook... Mas de uns tempos para cá, mais empresas, de todos os setores, têm demonstrado interesse em ganhar vantagem competitiva por explorar o seu BIG DATA na esperança de desenterrar qualquer informação valiosa escondida na sua própria montanha de dados.
Sim, companhias como o Walmart e a rede de lojas de conveniência Wawa têm grandes planos para BIG DATA, e excelentes cases de onde podemos abstrair algumas ideias.
Alguns estão se aventurando na análise para atender mais rapidamente aos clientes, e acompanhar melhor o histórico de informações desses ou mesmo apresentar novos produtos ao mercado de forma mais rápida.
Qualquer negócio nessa Era da Internet, que você não faça, os seus concorrentes farão
Ashish Nadkarni
As necessidades de armazenamento resultante são especialmente problemáticas para grandes empresas onde a quantidade de dados estruturados e não estruturados cresceu em média 44% de 2010 a 2011, de acordo com o Aberdeen Group.
Em empresas de todos os tamanhos, as necessidades de armazenamento de dados estão duplicando a cada dois anos e meio. Diferentes ferramentas são necessárias para otimizar o armazenamento de vídeo, planilhas, bancos de dados formatados e dados completamente não estruturados.
As tecnologias que podem ajudar os usuários de BIG DATA incluem a virtualização de armazenamento, a deduplicação e o armazenamento em camadas.
O armazenamento de bancos de dados relacionais e orientado a objeto são as melhores opções para grandes usuários como cientistas, sites de mídia social e desenvolvedores. Os componentes básicos dos sistemas criados para hospedar petabytes de dados (ou mais) em um formato facilmente acessível são mais complexos do que o funcionamento interno das plataformas de armazenamento mais rotineiras.
O que segue são alguns conselhos em relação à administração e armazenamento de BIG DATA:
Que tipo de dados você está analisando?
O tipo de armazenamento necessário depende do tipo e da quantidade de dados que analisamos. Todos os dados têm uma vida útil. Uma cotação de ação, por exemplo, só é relevante por um minuto ou dois antes de seu preço mudar. A pontuação de um jogo de baseball é solicitada por cerca de 24 horas, ou até o próximo jogo. Dados deste tipo precisam permanecer no armazenamento primário enquanto sua procura é grande e podem, depois, serem movidos para um armazenamento mais barato. Uma olhada nas tendências ao longo de vários anos reforça a ideia de que dados armazenados por longos períodos normalmente não precisam estar em dispositivos primários facilmente acessíveis.
Que quantidade de armazenamento você realmente precisa?
A quantidade e o tipo de armazenamento que precisamos para o BIG DATA dependem da quantidade de dados que precisamos armazenar e do tempo que esses dados serão úteis.
Podem ser dados de transmissão de várias fontes que são enviados a você literalmente a cada segundo, sobre os quais só dispõe de alguns minutos antes que esses dados tornem-se velhos. Este tipo de dado inclui atualizações sobre o clima, tráfego, assuntos mais falados em redes sociais e tweets sobre eventos ao redor do mundo.
Também pode incluir dados em repouso ou dados gerados e controlados pelo negócio para utilização moderada. Transmitir dados exige apenas capacidades de captura e análise de alto desempenho. Uma vez que fez sua análise, não precisa mais deles.No caso de dados em repouso ou para dados controlados pelos negócios, cabe a você armazená-los.
Que tipo de ferramenta de armazenamento funciona melhor?
Para empresas que estão apenas começando a luta com a análise e o armazenamento de BIG DATA os observadores da indústria defendem a virtualização do armazenamento para acomodar todo o armazenamento em um só lugar, a deduplicação para comprimir os dados e uma abordagem de armazenamento em camadas para garantir que os dados mais valiosos sejam mantidos nos sistemas de forma mais facilmente acessíveis.
A virtualização do armazenamento oferece uma camada de abstração de software que tira os dispositivos físicos da vista do usuário e permite que todos os dispositivos sejam administrados como um único agrupamento. Embora a virtualização de servidores seja um componente bem estabelecido das infraestruturas de TI hoje em dia, a virtualização do armazenamento ainda precisa chegar a tal nível.
Em pesquisa realizada em fevereiro de 2012 pelo Aberdeen Group, com participação de 106 grandes empresas, apenas 20% dos entrevistados disseram possuir um aplicativo único para gestão de armazenamento. A média era de três aplicativos de gestão para 3,2 dispositivos de armazenamento.
Muitos fornecedores de armazenamento relutam em deixar que seus dispositivos sejam administrados pelo produto de outro fornecedor. A virtualização de armazenamento é muito mais complexa e mais demorada, por isso ela ainda não deslanchou como a virtualização de servidores. Em vez disso, muitos administradores de armazenamento estão voltando-se para implementações do tipo em nuvem para armazenamento de terceira ou quarta camada para movimentar dados mais facilmente por diferentes infraestruturas e reduzir os custos com armazenamento. Algumas empresas já fizeram isso e obtiveram bons resultados, mas não é algo garantido.
Esperamos ver um aumento no uso de armazenamento baseado em nuvem e em outros recursos computacionais baseados em nuvem no futuro próximo à medida que a conectividade de rede melhora, os custos caem e a habilidade de codificar e decodificar dados em tempo real melhore. Com a nuvem recebemos uma conta mensal que é paga a partir do orçamento operacional, e não um orçamento separado.
Deduplicação e compressão
Administradores podem diminuir a quantidade de armazenamento necessário por meio da utilização da deduplicação, que elimina dados redundantes através da utilização de ferramentas de compressão que identificam "strings" curtos e repetidos em arquivos individuais e armazenam somente uma cópia de cada.
Até que ponto as necessidades de armazenamento podem ser reduzidas? Na pesquisa do Aberdeen Group, 13% dos entrevistados contaram que reduziram os dados em até 50%, mas um índice mais provável para grande parte das empresas seria uma redução de 30% a 50% dos dados estruturados altamente repetitivos.
Armazenamento em camadas
Depois que o negócio decide o tipo de dado que quer analisar, os administradores de armazenamento podem colocar os dados mais novos e mais importantes em meios de armazenamento mais confiáveis e rápidos. À medida que os dados vão ficando obsoletos, podem ser movidos para um armazenamento mais lento e barato. Sistemas que automatizam o processo de armazenamento em camadas estão ganhando espaço, mas ainda não são amplamente utilizados.
Ao desenvolver níveis de armazenamento, os administradores devem considerar a tecnologia de armazenamento usada, a velocidade do dispositivo e a forma de RAID necessária para proteger os dados.
A resposta padrão para o "failover" é a replicação, normalmente na forma de matrizes RAID. Mas em grandes escalas, o RAID pode criar mais problemas do que soluções, conta Neil Day, vice-presidente e CTO da Shutterfly, um site de fotos online que permite que usuários armazenem um número ilimitado de imagens em sua resolução original. Seu armazenamento excede os 30 petabytes de dados.
No esquema tradicional de armazenamento de dados em RAID, cópias de cada dado são espelhadas e armazenadas nos vários discos que compõem a matriz, garantindo sua integridade e disponibilidade. Mas isso significa que um único dado armazenado e espelhado (copiado) pode aumentar cinco vezes de tamanho, exigindo mais espaço para armazenamento. À medida que o espaço nos discos utilizados nas matrizes de RAID aumenta – discos de 3 terabytes são muito atraentes do ponto de vista de densidade e consumo de energia – o tempo gasto para recolocar o substituto de um disco avariado em paridade plena está cada vez maior.
A Shutterfly eventualmente adotou uma tecnologia de código de exclusão, onde dados podem ser divididos em pedaços, com cada pedaço sendo inútil se estiver só, e dispersados em diferentes discos ou servidores. Os dados podem ser completamente remontados a qualquer momento com uma fração dos pedaços, mesmo se vários pedaços tiverem sido perdidos devido a falhas de dispositivo. Em outras palavras, você não precisa criar várias cópias de dados; uma única instância pode garantir a integridade e a disponibilidade dos dados. Como os códigos de exclusão são baseados em software, a tecnologia pode ser utilizada com o hardware em commodity, diminuindo ainda mais o custo de escala.
Um dos primeiros fornecedores de software baseado em código de exclusão é a Cleversafe, que acrescentou informações de localização para criar o que ela chama de código de dispersão, permitindo que usuários armazenem pedaços de dados – ou fatias, como eles os denominam – em lugares geograficamente separados, como centros de dados múltiplos.
Megausuários de Big Data
Assim como a Shutterfly, empresas com grandes necessidades na área de armazenamento devem olhar além do armazenamento em blocos. Quando falamos sobre imensos conjuntos de dados, na casa dos petabytes, precisamos buscar os armazenamentos baseados em objeto ou um sistema de arquivos distribuídos. Pense sobre ofertas comercialmente disponíveis como o armazenamento de expansão Isilon, da EMC, ou o Fluid File System, da Dell... e nas soluções de código aberto, também. Elas são muito mais baratas para armazenar dados e, de um ponto de vista de desempenho, podem lhe oferecer uma relação preço/desempenho muito melhor. E, por último, elas são escaláveis.
Usuários de softwares comerciais muitas vezes têm dados que são parcialmente descartáveis ou requerem muito pouco pós-processamento.
Menos administradores necessários
Quando implantados corretamente, a virtualização de armazenamento, a deduplicação, o armazenamento em camadas e as tecnologias de código de exclusão devem reduzir sua necessidade de administradores, pois as ferramentas possibilitam a gestão de dados através de uma única tela. No caso da Shutterfly, a infraestrutura de armazenamento automático permitiu que a empresa diminuísse o crescimento de sua equipe de manutenção. À medida que a carga diária de trabalho de manutenção da empresa diminui, os administradores podem passar mais tempo em projetos proativos.
Em alguns casos, projetos de BIG DATA são realizados por equipes especiais, e não por funcionários de TI tradicionais. São operados por, e de propriedade de, unidades de negócio, pois a infraestrutura de TI não é ágil o suficiente para suportar ambientes de BIG DATA ou ela pode não ter o conjunto de habilidades necessário para isso.
Você pode vir a ter uma situação na qual os administradores de armazenamento não estejam envolvidos. Ou eles podem apenas ter um pequeno papel onde forneçam armazenamento e o resto seja feito pelo grupo dos sistemas.
Em breve
Uma tendência que fará sucesso é o conceito de mover a camada de cálculo para os dados. Olhamos para as soluções da Cleversafe e para as soluções de outros fornecedores de armazenamento que estão desenvolvendo capacidades de cálculo na camada de armazenamento. Não é mais viável mover dados para onde a camada de cálculo fica. É praticamente impossível, especialmente se você tem apenas alguns minutos para analisar os dados antes deles tornarem-se banais. Então, por que eu não deixo a camada de cálculo ficar onde os dados ficam?.
A Cleversafe oferece uma solução de alto desempenho baseada no Hadoop para grandes usuários de BIG DATA como a Shutterfly, mas eles estão tentando torná-la mais abrangente.
A Cleversafe quebra o modelo de aquisição de poder computacional de um fornecedor e de armazenamento de aplicativos de outro fornecedor. Para serem bem-sucedidas junto às grandes empresas as unidades de negócio terão de começar a pensar de forma diferente. Estou confiante de que essa solução logo deslanchará, pois as eficiências no modelo atual simplesmente não são favoráveis para o BIG DATA.
O BIG DATA é uma forma das pessoas manterem sua vantagem competitiva. A fim de tirar o máximo proveito de seus dados, elas terão de modificar processos e a forma como funcionam como empresa – elas terão de ser muito ágeis para derivar valor desses dados.
Mas antes de mergulhar em uma nova infraestrutura de armazenamento de BIG DATA as pessoas precisam fazer seu dever de casa. Pesquisar e falar com pessoas que já passaram por isso. Não é como se fosse uma tecnologia de ponta que ninguém utilizou, portanto, converse com alguém que já a utilizou para não cometer os mesmos erros que eles cometeram.
O Hadoop não é mais a única opção
O conceito de BIG DATA cresceu. O termo já foi aplicável a dados complexos que precisavam ser disponibilizados instantaneamente para consultas altamente repetitivas de usuários frequentes como cientistas e sites de mídia social. Hoje ele inclui a profusão de petabytes de dados estruturados e não estruturados que a maioria das empresas deve armazenar.
Embora os sistemas de código livre Hadoop e Cassandra, dizem alguns, sejam as melhores opções para BIG DATA para os trituradores de dados mais vorazes, alguns fornecedores comerciais estão melhorando seus sistemas de armazenamento para lidar com múltiplos petabytes de dados e oferecer formas rápidas e simples de analisá-los.
BIG DATA costumava ser uma ferramenta que apenas as maiores empresas eram capazes de utilizar, mas agora é difícil encontrar alguém que não esteja utilizando algo para obter conhecimento a partir dos dados. Para fazer isso "é melhor você ter um armazenamento eficiente, ou o custo pode lhe trazer prejuízos. Também precisaremos extrair um desempenho decente desses aplicativos, que são muito dinâmicos. E é melhor podermos fazer o backup disso.
Deixe os seus comentários! Envie este artigo, divulgue este link na sua rede social...
Tags: BIG DATA, deduplicação, armazenamento, administrando, sobrecarga, dados,