Por mais de uma década, as organizações têm adotado data lakes para superar as limitações técnicas dos data warehouses e evoluir para entidades mais centradas em dados. Enquanto muitas organizações usaram data lakes para explorar novos casos de uso de dados e melhorar suas abordagens orientadas por dados, outras acharam difícil alcançar os benefícios prometidos. Como resultado, a eficácia e o ROI de muitas iniciativas de data lake estão agora sob escrutínio.
Navegando pelas Armadilhas: Quando Data Lakes se Transformam em Pântanos de Dados
A visão da comunidade tecnológica sobre data lakes evoluiu à medida que algumas organizações enfrentam desafios em torno do gerenciamento de vastos armazenamentos de dados e evitam “pântanos de dados”, onde os dados são armazenados, mas não utilizados. Esses pântanos de dados são repositórios massivos onde os dados são despejados indiscriminadamente, levando a problemas de descoberta e usabilidade.
A centralização pode criar gargalos que retardam o acesso e a análise, e sem uma governança rigorosa, a qualidade dos dados pode se deteriorar rapidamente. Além disso, a abordagem única dos data lakes falha em atender às necessidades específicas de diferentes domínios de negócios. O potencial dos data lakes muitas vezes permanece inexplorado porque os usuários lutam para extrair valor devido à falta de ferramentas apropriadas ou à complexidade dos próprios dados.
Data Lakes Bem Implementados | Data Lakes Mal Implementados |
---|---|
Fonte Única da Verdade | Silos de dados difíceis de acessar |
Armazenamento econômico | Muitos dados desnecessários armazenados (“Dados são o novo petróleo”) |
Democratização de dados | Habilidades especializadas necessárias para acessar dados |
Flexibilidade nos formatos de dados | Baixa qualidade e inconsistência dos dados |
Análises avançadas e aprendizado de máquina | Dificuldades em derivar valor de grandes quantidades de dados não estruturados |
Insights mais rápidos | Comunicação demorada e falta de ferramentas, interfaces e habilidades |
Gerenciamento de dados simplificado | Gerenciamento se tornando complicado à medida que o lago cresce |
Produtores vs. Consumidores de Dados: O Abismo Organizacional
A causa raiz desses problemas é a interação organizacional entre produtores e consumidores de dados de um lado e a equipe central do data lake do outro. Os produtores de dados são frequentemente mais motivados a desenvolver novos recursos de aplicativos do que a disponibilizar dados para casos de uso analítico. Seu foco em cargas de trabalho transacionais em vez de analíticas significa que seus dados compartilhados podem ser de baixa qualidade. Eles também carecem de uma conexão com os consumidores de seus dados, levando a uma incompatibilidade entre o que é produzido e o que é necessário.
As equipes de data lake têm seus próprios problemas: estão sobrecarregadas com fontes de dados, têm que realizar manutenção técnica complexa e constantemente lidam com prioridades em mudança. Exacerbado por suas capacidades analíticas limitadas e desconexão dos produtores de dados, os consumidores ficam frustrados com a falta de transparência, valor pouco claro e baixa priorização de suas necessidades. Consumidores e produtores de dados geralmente não interagem diretamente; essa comunicação é bloqueada pela organização proxy do data lake, onde todos os dados são armazenados centralmente.
Capacitando Equipes com Data Mesh: O Caminho para um Ecossistema de Dados Distribuído
A discussão na comunidade tecnológica mudou para uma estratégia de dados mais nuançada e adaptável chamada data mesh. Ela visa superar algumas limitações dos data lakes centralizados, promovendo uma abordagem mais distribuída, centrada no ser humano e específica ao contexto para o gerenciamento de dados.
Data mesh é uma abordagem alternativa para questões de centralização. Atribui a responsabilidade pelos dados analíticos às equipes específicas de domínio que constroem e executam aplicativos e produzem dados transacionais, como equipes de e-commerce, e àquelas que consomem dados e os usam para obter insights. Por exemplo, a equipe que possui a página de checkout em uma loja online e armazena os dados de vendas em um banco de dados transacional também é responsável por disponibilizar esses dados de vendas para análises, relatórios e casos de uso de IA/ML, como marketing ou finanças. O data mesh torna mais fácil e simples para os consumidores usar esses dados analíticos.
Não é apenas outra interface implementada; os dados são disponibilizados como um produto de dados independente que fornece um benefício específico para um consumidor real. Este produto de dados consiste nos dados específicos e seus metadados, o código-fonte necessário para preparar e entregar os dados, a infraestrutura de teste e produção necessária (como IaC) e sua configuração.
Fomentando a Alfabetização de Dados: Introduzindo Novos Papéis em Equipes de Data Mesh
Equipes que criam e usam dados, como a equipe de checkout de e-commerce e o departamento de marketing em nosso exemplo, muitas vezes carecem de expertise para desenvolver e gerenciar dados para análises. No entanto, seu profundo conhecimento do contexto de negócios de seus dados é inestimável. Em uma estrutura de data mesh, é essencial capitalizar esse conhecimento, capacitando essas equipes para implementar casos de uso analítico. Isso inclui fornecer treinamento extensivo aos membros existentes e criar funções especializadas adicionais. Dois papéis-chave são críticos: um proprietário de produto de dados para orientar a direção estratégica dos dados e um engenheiro de dados para lidar com os aspectos técnicos de construção e gerenciamento desses produtos de dados.
Um proprietário de produto de dados é uma pessoa orientada para negócios com conhecimento profundo do domínio de negócios, tanto do ponto de vista transacional quanto analítico. Eles se comunicam diretamente com os consumidores do produto de dados e definem o produto, sua estratégia e seu roteiro.
Um engenheiro de dados é um generalista amplo em engenharia de dados e ciência de dados com expertise mais profunda em uma área relacionada a dados necessária para o negócio. Esta pessoa constrói os produtos de dados reais e é o ponto de contato para questões técnicas de outras equipes.
Criando uma Base para o Sucesso: A Plataforma de Data Mesh
A plataforma de data mesh tem três funções: (1) fornecer ferramentas e infraestrutura, como um catálogo de dados, controle de acesso, pipeline de CI/CD, monitoramento e ambientes de desenvolvimento e teste preparatórios; (2) treinar e aconselhar produtores e consumidores e, se necessário, apoiá-los com capacidade de desenvolvimento adicional; e (3) moderar padrões e procedimentos comuns em uma abordagem federada que deve ser aderida em toda a organização. A missão da plataforma de data mesh é tornar a vida simples, eficiente e livre de estresse para produtores e consumidores.
Infelizmente, executar uma plataforma com sucesso e de forma sustentável não é tão fácil quanto alguns na comunidade tecnológica sugerem. Resumimos nossas experiências em nosso blog sobre como configurar uma plataforma que suporte efetivamente suas equipes de desenvolvimento.
Quando feito corretamente, o modelo de data mesh promove uma abordagem proativa para manter a qualidade, relevância e acessibilidade dos dados, além de adaptar produtos de dados para atender às necessidades únicas de diferentes unidades de negócios. Ao alinhar de perto os dados analíticos com seu contexto operacional, um data mesh facilita o uso e compartilhamento mais eficaz de dados em toda a organização. Ele aproveita princípios modernos de arquitetura distribuída, como aqueles derivados de arquiteturas de microsserviços, para não apenas armazenar dados de forma mais eficiente, mas também torná-los prontamente disponíveis para consumo, impulsionando insights acionáveis estreitamente alinhados com os objetivos de negócios.
________________
A Infomach é uma parceira AWS Advanced e está à disposição para apoiar sua empresa na implementação de estratégias de dados e nos principais desafios de tecnologia de seu negócio.
Vamos conversar sobre como transformar sua organização através da tecnologia. Nossa expertise está à sua disposição para implementar uma estratégia sob medida e eficaz. Dê o próximo passo em direção ao futuro – entre em contato conosco hoje. Fale com um especialista em https://info.infomach.com.br/contato-com-especialista-2024
por Matthias Patzak | em Análise, Melhores Práticas, Como Fazer Técnico, Liderança de Pensamento
Traduzido e adaptado pela Infomach, parceira AWS especializada em consultoria para projetos de adoção de IA generativa