Por Flávio Rescia e Cassius Oliveira
A transformação digital já é uma realidade, seja como forma de atender as demandas atuais ou para seguir um caminho de otimização de custos, alta performance e segurança nos processos de uma empresa. Para isso o investimento em tecnologia em cloud pode trazer grandes ganhos na infraestrutura do negócio, isso se dá por sua capacidade de integração com outras áreas da tecnologia da informação, como a Ciência de Dados, por exemplo.
Como forma de implementar uma verdadeira gestão estratégica na empresa, as empresas começaram a olhar de forma mais cuidadosa para ferramentas capazes de gerenciar e analisar dados corporativos, e a partir desse cenário as equipes de big data e análise de dados ganharam mais espaço no processo de decisão das empresas. E com o auxílio das plataformas de serviços em cloud, como a AWS, encontram serviços cada vez mais otimizados e de baixo custo ao processar e armazenar dados. É aí que entram os conceitos de ‘Data Lake’ e ‘Data Warehouse’.
O que é Data Lake e Data Warehouse?
Normalmente Data Lakes são comparados com Data Warehouse. Mas não deveriam. Eles apresentam conceitos totalmente diferentes, desde a estrutura e processamento até quem os utiliza e o porquê.
Data Warehouse
Um data warehouse é um banco de dados relacional que é projetado para o trabalho analítico e não transacional, uso mais comum de banco de dados a décadas. Ele coleta e agrega dados de uma ou várias fontes para que possa ser analisado para produzir insights de negócio, além disso ele trabalha essencialmente com dados estruturados. Os Data Warehouses estão mais ligados a analistas de big data e business intelligence (BI) e por isso suas ferramentas ajudam as organizações a se tornarem mais eficientes, pois eles as ajudam a tomar decisões empresariar que auxiliam no gerenciamento de processos.
Aquele ‘banco de dados de BI’ que você tem na sua empresa, talvez seja um Data Warehouse e você nem saiba. Com o tempo empresas de tecnologia desenvolveram bancos de dados otimizado para analise de dados, como é o caso do Amazon Redshift, que é um serviço baseado em postgres (banco de dados opensource), mas que com o tempo veio sofrendo diversas modificações de modo a ser um especialista em Data Warehouse. Serviços usados para um Data Warehouse costumam ter um custo alto por Gigabyte, uma vez que deve ter rápido acesso com alta performance.
Veja aqui como podemos utilizar o Data Lake em empresas do setor elétrico!
Data Lake
Já um Data Lake é um repositório de armazenamento capaz de guardar, com um baixo custo, uma grande quantidade de dados, sejam eles estruturados, semi-estruturados, ou não estruturados. Em um Data Lake podemos armazenar quaisquer tipos de dados em seu formato nativo, sem limites fixos no tamanho da conta ou do arquivo.
Os serviços usandos para construir um Data Lake oferecem uma grande quantidade de dados para um maior desempenho analítico e integração nativa, como é o caso do S3 da AWS, o custo do Gigabyte pode variar entre $0,025 até $0,00099 o Gigabyte para arquivamento de dados históricos, além de um limite virtualmente infinito para capacidade de armazenamento. O S3 se integra com diversos serviços da AWS e de terceiros, o que torna seu uso muito comum pelos times de engenharia e cientistas de dados, o Data Lake auxilia na automação de processos e a inovação com base em dados, assim os gerenciando de forma econômica e segura. É muito comum que os dados mais recentes, ou mais utilizados do Data Lake, estejam também no Data Warehouse, para assim serem consultados pelos cientistas de dados, analistas de BI e até aplicações que usam as informações do Data Warehouse para tomada de decisões transacionais.
Saiba mais sobre o mundo da cloud no blog da Darede!