O que é um Data Lake?

Aqui está uma definição simples: um data lake é um local para armazenar seus dados estruturados e não estruturados, bem como um método para organizar grandes volumes de dados altamente diversos de diversas fontes.

Os data lakes estão se tornando cada vez mais importantes à medida que as pessoas, especialmente em negócios e tecnologia, desejam realizar ampla exploração e descoberta de dados. Reunir dados em um único local ou a maior parte deles em um único local torna isso mais simples.

Dependendo da sua plataforma, o data lake pode tornar isso muito mais fácil. Ele pode lidar com muitas estruturas de dados, como dados não estruturados e multiestruturados, e pode ajudá-lo a obter valor de seus dados.

Data lake versus data warehouse

A principal diferença entre um data lake e um data warehouse é que o data lake tende a ingerir dados muito rapidamente e prepará-los mais tarde, à medida que as pessoas os acessam. Com um data warehouse , por outro lado, você prepara os dados com muito cuidado antes de deixá-los no data warehouse.

Os usuários tendem a querer ingerir dados no data lake o mais rápido possível, para que as empresas com casos de uso operacionais, especialmente em relação a relatórios operacionais, análises e monitoramento de negócios, tenham os dados mais recentes. Isso permite que eles tenham acesso aos dados mais recentes e vejam as informações mais atualizadas.

Com o data lake, os usuários geralmente ingerem dados no formato original sem alterá-los. Isso pode ser por motivos de velocidade, mas também pode ser por outros motivos, incluindo o desejo de realizar análises avançadas que podem depender de dados de origem detalhados. Isso seria uma análise baseada em qualquer tipo de mineração, seja:

Mineração de texto
Mineração de dados
Análise estatística
Qualquer coisa envolvendo clusters
Análise de gráficos

Casos de uso do data lake

Para fornecer todas as vantagens que os data lakes podem oferecer, uma solução adequada deve ser capaz de oferecer melhores maneiras de:

Ingerir e transformar: Mova e converta diferentes tipos e formatos de dados
Persistir e acessar: Garanta que os dados estejam seguros, possam ser facilmente descobertos, possam ser facilmente dimensionados conforme necessário e serem acessados conforme necessário em todos os produtos
Analise e use a ciência de dados: descubra insights e tendências nos dados

Um data lake é mais útil quando faz parte de uma plataforma de gerenciamento de dados maior e deve se integrar bem aos dados e ferramentas existentes para um data lake mais poderoso.

Lago de dados de marketing omnicanal

Usar o data lake para estender o data warehouse é algo frequentemente visto no marketing omnichannel, às vezes chamado de marketing multicanal. A maneira de pensar sobre o ecossistema de dados em marketing é que cada canal pode ser seu próprio banco de dados, e cada ponto de contato também pode ser. E muitos profissionais de marketing também compram dados de terceiros.

Por exemplo, um profissional de marketing pode querer comprar dados que tenham informações demográficas e de preferência do consumidor adicionais sobre clientes e prospects, e que ajudem o profissional de marketing a preencher essa visão completa de cada cliente, o que, por sua vez, ajuda a criar campanhas de marketing mais personalizadas e direcionadas.

Esse é um ecossistema de dados complexo e está ficando cada vez maior em volume e em complexidade o tempo todo. O data lake é usado com bastante frequência para capturar dados provenientes de vários canais e pontos de contato. E alguns deles na verdade são dados de streaming.

As empresas que oferecem um aplicativo de smartphone para seus clientes podem estar recebendo esses dados em tempo real ou próximo a eles, à medida que os clientes usam esse aplicativo. Muitas vezes, a empresa não precisa de tempo real completo. Pode ser uma ou duas horas de idade. Mas permite que o departamento de marketing faça um monitoramento muito granular do negócio e crie promoções, incentivos, descontos e microcampanhas.

Data lake digital da cadeia de suprimentos

A cadeia de suprimentos digital é um ambiente de dados igualmente diversificado e o data lake pode ajudar nisso, especialmente quando o data lake está no Hadoop. O Hadoop é em grande parte um sistema baseado em arquivos porque foi originalmente projetado para arquivos de log muito grandes e numerosos que vêm de servidores da web. Na cadeia de suprimentos, geralmente há uma grande quantidade de dados baseados em arquivos. Pense em dados baseados em arquivos e documentos de sistemas EDI, XML e, claro, JSONs que hoje estão se tornando muito fortes na cadeia de suprimentos digital. São informações muito diversas.

Há também informações internas a serem consideradas. Os fabricantes geralmente têm dados do chão de fábrica e de envio e faturamento que são altamente relevantes para a cadeia de suprimentos. O lago pode ajudar os fabricantes a reunir esses dados e gerenciá-los de uma maneira baseada em arquivos.

O lago de dados da Internet das Coisas

A Internet das Coisas está criando novas fontes de dados quase diariamente em algumas empresas. E, claro, à medida que essas fontes se diversificam, elas criam ainda mais dados. Cada vez mais, há mais sensores em mais máquinas o tempo todo. Por exemplo, todo veículo ferroviário ou de carga de caminhão como esse tem uma enorme lista de sensores para que a empresa possa rastrear esse veículo no espaço e no tempo, além de como ele é operado. É operado com segurança? É operado de maneira ideal em relação ao consumo de combustível? Enormes quantidades de informações vêm desses lugares, e o data lake é muito popular porque fornece um repositório para todos esses dados.

Um único lago de dados

Agora, esses são exemplos de usos bastante direcionados do data lake em determinados departamentos ou programas de TI, mas uma abordagem diferente é a TI centralizada fornecer um único grande data lake multilocatário. Ele pode ser usado por vários departamentos, unidades de negócios e programas de tecnologia diferentes. À medida que as pessoas se acostumam com o lago, elas descobrem como otimizá -lo para diversos usos e operações, análises e até conformidade.

Diferentes tipos de plataformas de data lake

O data lake pode ser usado de várias maneiras e também possui muitas plataformas que podem estar sob ele. O Hadoop é a plataforma mais comum, mas não a única.

Hadoop

O Hadoop é atraente. Ele provou ter escalabilidade linear. É um baixo custo para escalabilidade em comparação com, digamos, um banco de dados relacional. Mas o Hadoop não é apenas armazenamento barato. É também uma poderosa plataforma de processamento. E para aqueles que tentam fazer análises algorítmicas, o Hadoop pode ser muito útil.

Sistema de gerenciamento de banco de dados relacional

O sistema de gerenciamento de banco de dados relacional também pode ser uma plataforma para o data lake, porque algumas pessoas têm grandes quantidades de dados que desejam colocar no lago estruturado e também relacional. Portanto, se seus dados são inerentemente relacionais, uma abordagem de DBMS para o data lake faria todo o sentido. Além disso, se você tiver casos de uso em que deseja fazer funcionalidade relacional, como SQL ou junções de tabelas complexas, o RDBMS faz todo o sentido.

Armazenamento baseado em nuvem

Mas a tendência é para sistemas baseados em nuvem e, especialmente, armazenamento baseado em nuvem. O grande benefício das nuvens é a escalabilidade elástica. Eles podem empacotar recursos de servidor e outros recursos à medida que as cargas de trabalho aumentam. E em comparação com muitos sistemas locais, a nuvem pode ser de baixo custo. Parte disso é porque não há integração do sistema.

Se você quiser fazer algo no local, você ou outra pessoa precisa fazer uma integração de sistema de vários meses, enquanto para muitos sistemas há um provedor de nuvem que já tem isso integrado. Você basicamente compra uma licença e pode começar a funcionar em poucas horas, em vez de meses. Além disso, a abordagem de armazenamento de objetos na nuvem, que mencionamos em um post anterior sobre as melhores práticas de data lake , tem muitos benefícios.

E, claro, você pode ter uma mistura híbrida de plataformas com um data lake. Se você estiver familiarizado com o que chamamos de data warehouse lógico, você também pode ter algo semelhante, como um data warehouse lógico, e isso é um data lake lógico. É aqui que os dados são distribuídos fisicamente em várias plataformas. E há alguns desafios para isso, como a necessidade de ferramentas especiais que sejam boas com consultas federadas ou virtualização de dados para consultas analíticas de longo alcance.

Mas essa tecnologia está disponível no nível da ferramenta e muitas pessoas a estão usando.