Fusão de gigantes do Big Data: Cloudera e Hortonworks unem forças

Fusão de gigantes do Big Data: Cloudera e Hortonworks unem forças

Grande mudança no mercado de Big Data

Uma notícia no final de 2018 causou muita surpresa no mundo de TI, em especial, para a área de Big Data. A Cloudera e a Hortonworks, distribuições comerciais Hadoop, firmaram um acordo para uma fusão de suas operações. O valor patrimonial combinado das duas empresas é de US$ 5,2 bilhões, com base nos preços de fechamento de suas ações no início de outubro de 2018. As companhias combinadas terão 2,5 mil clientes e US$ 720 milhões em receita, surgindo daí a segunda maior empresa open source do mundo, tendo como nome Cloudera. O Hadoop é uma plataforma open source de software em Java de computação distribuída voltada para clusters e processamento de grandes volumes de dados, ou seja, Big Data, com atenção a tolerância a falhas e foi inspirado no MapReduce e no GoogleFS.

As motivações para a fusão da Cloudera com a Hortonworks

A princípio a fusão não está relacionada a inovação, mas sim a dois fatores: a “comoditização” do Hadoop e, principalmente, o crescimento de ofertas de Big Data em nuvem com Google Cloud, AWS e Microsoft Azure. A palavra “comoditização” vem da palavra inglesa “commodity”. “Comoditização” é um processo que ocorre no mercado quando existe uma igualdade de ofertas. Em uma definição objetiva, significa dizer, que aos olhos de um cliente não há diferença entre o produto da Hortonworks ou da Cloudera. Se não existe diferença para o cliente, o mesmo certamente irá escolher aquele que lhe ofereça o menor preço.

Quando ocorre o processo de “comoditização”, as empresas tentam entender melhor os anseios e desejos dos clientes, e, em especial, as ofertas dos concorrentes e as principais tendências do mercado. Uma tendência para superar o processo de “comoditização” é transformar um produto em uma plataforma, isto é, as empresas precisam atender as necessidades dos clientes com uma série de ofertas integradas.

Outros fatores, também relevantes, que merecem destaque são o corte de custo – Jim Frankola, CFO da Cloudera, indicou que o negócio pode gerar uma poupança anual de mais de 109 milhões de dólares – e a eliminação de tecnologias redundantes que a Cloudera e a Hortonworks mantêm, respectivamente, Ambari e Cloudera Manager para gerenciamento de cluster, Sentry e Ranger para gerenciamento de segurança, Impala e Hive para gerenciamento de dados estruturados etc. As tecnologias redundantes serão unificadas. Mas ainda não há clareza de quem sai e quem fica!

Por que a Cloudera e a Hortonworks são tão importantes para o mercado de Big Data?

A importância do surgimento da Cloudera e Hortonworks se deve ao fato de o ecossistema Hadoop ser um aglomerado de projetos Apache com vida própria e quase sem funcionalidades de segurança. Portanto, era um trabalho técnico imenso e pouco confiável para investimentos neste contexto, uma vez que os dados, atualmente, são os ativos mais valiosos de organizações e empresas. Logo, a Cloudera foi pioneira pois prometia resolver este problema com uma camada de software proprietário para ajudar a administrar, operar e implementar segurança em mais de 10 projetos Apache, garantindo que funcionassem de forma integrada. A Cloudera chegou ao mercado, com um discurso sólido, de segurança, “compliance”, PCI, com preço menor do que os dominadores da época e maior flexibilidade.

Pontos fortes e fracos da Cloudera e Hortonworks

A Hortonworks surgiu dois anos depois, em 2011. Os que entendem de finanças dizem que um mercado maduro tem dois “players” dominantes, e a Hortonworks percebeu bem qual seria seu objetivo, sua estratégia foi distinta em relação a Cloudera. O foco foi investir em poucos softwares proprietários, mas ser 100% alinhada com a comunidade de software livre e com preços menores. Em consequência, conseguiu ser mais flexível para incluir e adaptar as evoluções da comunidade. Já a Cloudera, sempre tardava em incluir as alterações, precisamente por ter que integrá-las com toda a sua camada adicional de administração, fazendo com que seu grande benefício fosse também sua vulnerabilidade. Resumindo, a Cloudera e a Hortonworks são soluções para quem não quer construir um Hadoop do zero.

Embora a Cloudera e a Hortonworks trabalhem no mesmo núcleo do ecossistema Hadoop, elas tomaram caminhos um pouco distintos. A Hortonworks investiu pesado em ingestão de dados para suportar IoT (Internet das Coisas) e “streaming” em tempo real, portanto, foco nos engenheiros de dados. Já a Cloudera investiu em Inteligência Artificial, em especial, em Machine Learning para empoderar cientistas de dados a fim de automatizar “workflows” de Machine Learning.

Big Data em nuvem

A partir dessa fusão surge agora uma disputa mais concentrada de Big Data em nuvem. Com novas soluções de Big Data baseadas na nuvem, rodar um sistema Hadoop passou a parecer um trabalho em vão. Assim, a união das empresas busca combater um mercado fragmentado que já passou de seu ápice com as ofertas que deslancharam os negócios. Ser capaz de implantar infra de Big Data em um ambiente de nuvem agora é um recurso essencial. A nuvem, portanto, foi crucial na fusão. Não há dúvidas de que a crescente adoção dos serviços da AWS, do Azure e do Google Cloud ocorre devido ao alto custo de manter infraestrutura local (“on-premise”). Ambas as empresas, Hortonworks e Cloudera, migraram para modelos de nuvem híbrida e com várias nuvens, mas os serviços do Azure, como o Azure Data Lake, o Data Bricks e o Azure Data Warehouse, estão capturando volumes muito altos de clientes e obtendo uma adoção mais rápida.

Como a fusão impacta os grandes players de Big Data em nuvem?

O produto específico do “Hadoop da Microsoft” sob a plataforma Azure é fornecido pela Hortonworks Data Platform, e esse acordo foi renovado em 2018 por três anos. É provável que a Microsoft decida se afastar da Hortonworks para uma versão totalmente aberta do produto nos próximos anos, para remover essa dependência de um concorrente direto, mas até o momento a Microsoft não deu indicações de que seguirá esse caminho.

Os primeiros passos após a fusão

A principal iniciativa da nova Cloudera é entregar uma plataforma open source totalmente integrada, que aproveita os melhores recursos da Hortonworks Data Platform (HDP) 3.0 e do CDH 6.0 da antiga Cloudera. A plataforma unificada incorpora a visão compartilhada da nova Cloudera de “nuvem em todos os lugares” e permitirá que as empresas criem maior valor a partir de dados com: (i) A análise de dados correta, executada em dados de qualquer lugar; (ii) Forte segurança, governança e gerenciamento de dados em toda a empresa; (iii) Flexibilidade para escolher entre multi-cloud e nuvens híbridas. A Cloudera é agora a única empresa de gerenciamento de dados a ser executada em todas as principais infraestruturas de nuvem pública: AWS, Azure, Google, IBM e Oracle.

“Ao reunir os investimentos da Hortonworks em gerenciamento de dados de ponta a ponta com os investimentos da Cloudera em armazenamento de dados e Machine Learning, entregaremos a primeira nuvem de dados corporativos do setor desde a borda até a inteligência artificial”, disse Tom Reilly, CEO da Cloudera, e que será o CEO da nova empresa. Como resultado da fusão, o CEO da Hortonworks, Rob Bearden, se juntará ao conselho de diretores.

Como ficam as certificações da Hortonworks e Cloudera?

Ainda não há pronunciamento oficial da nova empresa Cloudera sobre a unificação das certificações. E é importante ressaltar que as certificações da Hortonworks não expiram, mas as da Cloudera possuem prazo de validade – certificações CCA são válidas por 2 anos e certificações CCP são válidas por 3 anos. Outro fator positivo é que as certificações compartilham quase que integralmente os mesmos assuntos. Vale lembrar que as certificações são importantes para quem quer entrar no mercado, mas ainda não tem experiência no ramo ou deseja participar de licitações do governo. Portanto, vale a pena investir nas certificações seja da Hortonworks ou Cloudera. Continue estudando a plataforma que você escolheu para iniciar em Big Data seja HDP ou CDH, pois o importante é entender como a tecnologia usada por elas funcionam e suas melhores aplicações, seja para processamento em lote ou em tempo real.

*Foto: Connor Vercueil no Unsplash e arte de Altino Dantas.

CURSOSCONSULTORIA    CONTATO

 

Anterior Domine o Linux: Curso Online Completo e Atualizado!
Próxima Descubra as vantagens de usar o Linux como Sistema Operacional

About author

Leonardo Afonso Amorim
Leonardo Afonso Amorim 8 posts

Professor de cursos de Big Data e Machine Learning na 4Linux. Doutor em Ciência da Computação pela UFG com pesquisa sobre Processamento de Alto Desempenho (HPC) com aplicações em Processamento de Linguagem Natural (NLP).

View all posts by this author →

Você pode gostar também

Cloud

Atualização do curso Cloud Services Administrator: AWS-GCP-Azure da 4Linux

Olá, queridos alunos e entusiastas da computação em nuvem! A 4Linux acaba de realizar diversas atualizações no curso 532 – Cloud Services Administrator: AWS-GCP-Azure. As mudanças refletem o compromisso contínuo

Big Data

Por que Python é a linguagem preferida para análise de dados?

É inegável que o uso do Python de maneira geral está crescendo! No entanto, o uso da programação Python está crescendo não só para desenvolvimento de aplicações, testes e automações

Notícias

Gerente brasileiro participa de atualização de provas de certificação Linux

Gerente de Desenvolvimento foi o único brasileiro participante do seleto grupo de trabalho. As provas de certificação da Linux Foundation passam constantemente por revisões e atualizações. Em 2013, William Welter