LakeFS oferece um controle de versões semelhante ao Git para data lakes

O que é LakeFS?

Primeiramente, podemos afirmar que um data lake é um armazenamento centralizado que permite guardar seus dados à medida que eles são gerados, em volumes muito grandes. Você pode ter um único repositório contendo vários tipos de dados não estruturados e estruturados, sem limitações de tipo de arquivo e sem limitações de tamanho dos dados. 

O LakeFS foi projetado para “transformar buckets de armazenamento de objetos em repositórios de data lakes que tem uma interface semelhante ao Git”. “A interface semelhante ao Git significa que os usuários do LakeFS podem usar os mesmos fluxos de trabalho de desenvolvimento para código e dados. Os fluxos de trabalho do Git melhoraram muito as práticas de desenvolvimento de software; projetamos o LakeFS para trazer os mesmos benefícios aos dados.” Estas são citações diretas do site oficial de LakeFS, para explicar como o produto funciona.

A Treeverse, uma startup israelense, desenvolveu LakeFS. O objetivo do Treeverse é simplificar a vida dos engenheiros, analistas e cientistas de dados, fornecendo soluções para grandes problemas e contribuindo para a comunidade de código aberto.

Seguindo essa ideia, o LakeFS oferece uma melhor capacidade de gerenciamento para data lakes, sem comprometer a flexibilidade, pois pode ser usado em projetos em execução no AWS S3, no Google Cloud Storage ou no Azure Blob Storage. LakeFS também está pronto para trabalhar em conjunto com os frameworks de dados mais importantes como Kafka, Apache Spark, Delta Lake, Amazon Athena, Databricks e Hadoop. “LakeFS permite fluxos de trabalho simplificados ao desenvolver pipelines de data lakes”, explicam. 

Onde o LakeFS se encaixa em uma arquitetura moderna?

Nas empresas modernas, você tem que processar e cuidar de grandes quantidades de dados. Normalmente, você tem várias fontes de dados e data lakes baseados em nuvem. Neste contexto, os dados são extraídos e carregados no data lake. Bem, o LakeFS fica entre o processo ETL (extracting, transforming, loading, ou extração, transformação e carregamento de dados) e o data lake

“A integração de tecnologias ETL com LakeFS permite escrever novos dados para um ramal diferente designado e testá-los para garantir a qualidade antes de expor aos consumidores”, explicou Einat Orr, cofundador da Treeverse, para venturebeat.com. “Este fluxo de trabalho fornece garantias importantes sobre os dados de produção para os consumidores dos dados.”

Outras soluções semelhantes incluem o DVC da Iterative.ai. O produto destina-se diretamente a cientistas de dados que trabalham com modelos de Machine Learning, ou aprendizado de máquina. Delta Lake também é uma das ferramentas que podem trabalhar com data lakes, mas é limitado porque você não pode trabalhar com todos os conjuntos de dados ao mesmo tempo.

Diferente dos anteriores, o LakeFS foi projetado para incluir uma quantidade maior de casos de uso. Assim, qualquer pessoa que trabalhe com dados pode se beneficiar de funcionalidades construídas no LakeFS. A tecnologia do LakeFS melhora a visibilidade dos dados e aumenta a eficiência em toda a sua organização. Sendo de código aberto, cientistas e engenheiros de dados podem participar da concepção de soluções para atender às suas próprias necessidades ou às de seus colegas.

O que você pode fazer com um controle de versões semelhante ao Git para data lakes?

  • Criar um ramal ou branch que é isolado do resto e é uma cópia do repositório original. Ele não duplica objetos, é rentável através de seu mecanismo de cópia e escrita. Uma nova ramificação também pode ser usada para reprocessar dados de maneira isolada, por exemplo.
  • Usando a operação de confirmação (commit), você pode criar pontos de verificação contendo snapshots completos de um repositório.
  • Com os pontos de verificação acima mencionados, você pode reverter todo o seu repositório para um estado anterior de dados. Isso é especialmente útil para se recuperar de erros de dados.
  • Se podem juntar dois ramais (merge), atualizando um com as alterações feitas no outro. Isso permite fazer atualizações síncronas para dois ou mais ativos de dados.
  • Criar tags que apontam para um único commit com um nome mais utilizável e significativo do que o que você teria que usar normalmente.

Resumo

O LakeFS é mais uma ferramenta para trabalhar em seus projetos de dados. Está pronto para entrar em produção, é de código aberto, ajuda você a ter mais controle sobre as tarefas realizadas em seus dados, é fácil de incluir em um projeto que já está em produção e adiciona novo valor com seus recursos de ramificação, merge e confirmação.

Scroll to Top