Fusão da Cloudera com a Hortonworks – Como isto impacta o mundo de TI e o profissional de Big Data?

Fusão da Cloudera com a Hortonworks – Como isto impacta o mundo de TI e o profissional de Big Data?

Grande mudança no mercado de Big Data

Uma notícia no final de 2018 causou muita surpresa no mundo de TI, em especial, para a área de Big Data. A Cloudera e a Hortonworks, distribuições comerciais Hadoop, firmaram um acordo para uma fusão de suas operações. O valor patrimonial combinado das duas empresas é de US$ 5,2 bilhões, com base nos preços de fechamento de suas ações no início de outubro de 2018. As companhias combinadas terão 2,5 mil clientes e US$ 720 milhões em receita, surgindo daí a segunda maior empresa open source do mundo, tendo como nome Cloudera. O Hadoop é uma plataforma open source de software em Java de computação distribuída voltada para clusters e processamento de grandes volumes de dados, ou seja, Big Data, com atenção a tolerância a falhas e foi inspirado no MapReduce e no GoogleFS.

As motivações para a fusão da Cloudera com a Hortonworks

A princípio a fusão não está relacionada a inovação, mas sim a dois fatores: a “comoditização” do Hadoop e, principalmente, o crescimento de ofertas de Big Data em nuvem com Google Cloud, AWS e Microsoft Azure. A palavra “comoditização” vem da palavra inglesa “commodity”. “Comoditização” é um processo que ocorre no mercado quando existe uma igualdade de ofertas. Em uma definição objetiva, significa dizer, que aos olhos de um cliente não há diferença entre o produto da Hortonworks ou da Cloudera. Se não existe diferença para o cliente, o mesmo certamente irá escolher aquele que lhe ofereça o menor preço.

Quando ocorre o processo de “comoditização”, as empresas tentam entender melhor os anseios e desejos dos clientes, e, em especial, as ofertas dos concorrentes e as principais tendências do mercado. Uma tendência para superar o processo de “comoditização” é transformar um produto em uma plataforma, isto é, as empresas precisam atender as necessidades dos clientes com uma série de ofertas integradas.

Outros fatores, também relevantes, que merecem destaque são o corte de custo – Jim Frankola, CFO da Cloudera, indicou que o negócio pode gerar uma poupança anual de mais de 109 milhões de dólares – e a eliminação de tecnologias redundantes que a Cloudera e a Hortonworks mantêm, respectivamente, Ambari e Cloudera Manager para gerenciamento de cluster, Sentry e Ranger para gerenciamento de segurança, Impala e Hive para gerenciamento de dados estruturados etc. As tecnologias redundantes serão unificadas. Mas ainda não há clareza de quem sai e quem fica!

Por que a Cloudera e a Hortonworks são tão importantes para o mercado de Big Data?

A importância do surgimento da Cloudera e Hortonworks se deve ao fato de o ecossistema Hadoop ser um aglomerado de projetos Apache com vida própria e quase sem funcionalidades de segurança. Portanto, era um trabalho técnico imenso e pouco confiável para investimentos neste contexto, uma vez que os dados, atualmente, são os ativos mais valiosos de organizações e empresas. Logo, a Cloudera foi pioneira pois prometia resolver este problema com uma camada de software proprietário para ajudar a administrar, operar e implementar segurança em mais de 10 projetos Apache, garantindo que funcionassem de forma integrada. A Cloudera chegou ao mercado, com um discurso sólido, de segurança, “compliance”, PCI, com preço menor do que os dominadores da época e maior flexibilidade.

Pontos fortes e fracos da Cloudera e Hortonworks

A Hortonworks surgiu dois anos depois, em 2011. Os que entendem de finanças dizem que um mercado maduro tem dois “players” dominantes, e a Hortonworks percebeu bem qual seria seu objetivo, sua estratégia foi distinta em relação a Cloudera. O foco foi investir em poucos softwares proprietários, mas ser 100% alinhada com a comunidade de software livre e com preços menores. Em consequência, conseguiu ser mais flexível para incluir e adaptar as evoluções da comunidade. Já a Cloudera, sempre tardava em incluir as alterações, precisamente por ter que integrá-las com toda a sua camada adicional de administração, fazendo com que seu grande benefício fosse também sua vulnerabilidade. Resumindo, a Cloudera e a Hortonworks são soluções para quem não quer construir um Hadoop do zero.

Embora a Cloudera e a Hortonworks trabalhem no mesmo núcleo do ecossistema Hadoop, elas tomaram caminhos um pouco distintos. A Hortonworks investiu pesado em ingestão de dados para suportar IoT (Internet das Coisas) e “streaming” em tempo real, portanto, foco nos engenheiros de dados. Já a Cloudera investiu em Inteligência Artificial, em especial, em Machine Learning para empoderar cientistas de dados a fim de automatizar “workflows” de Machine Learning.

Big Data em nuvem

A partir dessa fusão surge agora uma disputa mais concentrada de Big Data em nuvem. Com novas soluções de Big Data baseadas na nuvem, rodar um sistema Hadoop passou a parecer um trabalho em vão. Assim, a união das empresas busca combater um mercado fragmentado que já passou de seu ápice com as ofertas que deslancharam os negócios. Ser capaz de implantar infra de Big Data em um ambiente de nuvem agora é um recurso essencial. A nuvem, portanto, foi crucial na fusão. Não há dúvidas de que a crescente adoção dos serviços da AWS, do Azure e do Google Cloud ocorre devido ao alto custo de manter infraestrutura local (“on-premise”). Ambas as empresas, Hortonworks e Cloudera, migraram para modelos de nuvem híbrida e com várias nuvens, mas os serviços do Azure, como o Azure Data Lake, o Data Bricks e o Azure Data Warehouse, estão capturando volumes muito altos de clientes e obtendo uma adoção mais rápida.

Como a fusão impacta os grandes players de Big Data em nuvem?

O produto específico do “Hadoop da Microsoft” sob a plataforma Azure é fornecido pela Hortonworks Data Platform, e esse acordo foi renovado em 2018 por três anos. É provável que a Microsoft decida se afastar da Hortonworks para uma versão totalmente aberta do produto nos próximos anos, para remover essa dependência de um concorrente direto, mas até o momento a Microsoft não deu indicações de que seguirá esse caminho.

Os primeiros passos após a fusão

A principal iniciativa da nova Cloudera é entregar uma plataforma open source totalmente integrada, que aproveita os melhores recursos da Hortonworks Data Platform (HDP) 3.0 e do CDH 6.0 da antiga Cloudera. A plataforma unificada incorpora a visão compartilhada da nova Cloudera de “nuvem em todos os lugares” e permitirá que as empresas criem maior valor a partir de dados com: (i) A análise de dados correta, executada em dados de qualquer lugar; (ii) Forte segurança, governança e gerenciamento de dados em toda a empresa; (iii) Flexibilidade para escolher entre multi-cloud e nuvens híbridas. A Cloudera é agora a única empresa de gerenciamento de dados a ser executada em todas as principais infraestruturas de nuvem pública: AWS, Azure, Google, IBM e Oracle.

“Ao reunir os investimentos da Hortonworks em gerenciamento de dados de ponta a ponta com os investimentos da Cloudera em armazenamento de dados e Machine Learning, entregaremos a primeira nuvem de dados corporativos do setor desde a borda até a inteligência artificial”, disse Tom Reilly, CEO da Cloudera, e que será o CEO da nova empresa. Como resultado da fusão, o CEO da Hortonworks, Rob Bearden, se juntará ao conselho de diretores.

Como ficam as certificações da Hortonworks e Cloudera?

Ainda não há pronunciamento oficial da nova empresa Cloudera sobre a unificação das certificações. E é importante ressaltar que as certificações da Hortonworks não expiram, mas as da Cloudera possuem prazo de validade – certificações CCA são válidas por 2 anos e certificações CCP são válidas por 3 anos. Outro fator positivo é que as certificações compartilham quase que integralmente os mesmos assuntos. Vale lembrar que as certificações são importantes para quem quer entrar no mercado, mas ainda não tem experiência no ramo ou deseja participar de licitações do governo. Portanto, vale a pena investir nas certificações seja da Hortonworks ou Cloudera. Continue estudando a plataforma que você escolheu para iniciar em Big Data seja HDP ou CDH, pois o importante é entender como a tecnologia usada por elas funcionam e suas melhores aplicações, seja para processamento em lote ou em tempo real.

*Foto: Connor Vercueil no Unsplash e arte de Altino Dantas.

CURSOSCONSULTORIA    CONTATO

 

Anterior Por que fazer um Curso de Linux Online?
Próxima Porque usar o Linux como Sistema Operacional ?

About author

Leonardo Afonso Amorim
Leonardo Afonso Amorim 5 posts

Bacharel em Engenharia de Computação pela PUC-GO. Mestre em Ciência da Computação pela UFG com foco em Inteligência Computacional. No mestrado criou os agentes de mineração de dados e suporte à decisão para o projeto ADGEPA (Assistente Digital de Gestão Pública Participativa). Doutorando em Ciência da Computação pela UFG com pesquisa sobre algoritmos eficientes e escaláveis e suas implementações paralelas em arquiteturas multicore e manycore a fim de acelerar tarefas de busca de documentos por similaridade usando técnicas de Machine Learning. Também na UFG faz pesquisa sobre aplicação de Machine Learning para Reparo Automatizado de Software. Lecionou sobre Inteligência Artificial/Computacional para Engenharia de Computação na Universidade Federal de Goiás. É Analista de Infraestrutura Sênior e Engenheiro de Dados. Possui sólidos conhecimentos em infraestrutura Linux, programação Java/Python, Hadoop e ensino. Experiência adquirida no mestrado e doutorado com os seguintes algoritmos: kNN, kMeans, Regras de Associação, Redes Neurais Artificiais, Processamento Natural de Linguagem com Word2Vec, Sistemas Multiagentes, Algoritmos Genéticos e Programação Genética. Além disso possui experiência em ensino técnico (Redes Linux com ênfase em Segurança) e programação Java. Ministrou mais de 100 cursos. Possui as seguintes certificações em TI: LPIC-1, LPIC-2 e LPIC-3 Security (Linux Professional Institute), Novell Certified Linux Administrator (Suse Linux Enterprise).

View all posts by this author →

Você pode gostar também

Notícias

Migração e Atualização do Moodle para o maior Sistema de Cooperativas de Crédito Rural Solidário do Brasil.

Case – Com mais de 600 cursos na plataforma e mais de 4 mil alunos eles viram a necessidade de ir para um ambiente com maior escalabilidade, desempenho e suporte

Infraestrutura

Ambari: crie um cluster Hadoop em minutos

O Apache Ambari é uma plataforma desenvolvida pela Hortonworks que permite  instalar, configurar e monitorar um cluster hadoop em poucos minutos. Neste post irei ensinar como instalar o Ambari em

Notícias

4Linux lança oferta de serviços focada para o mundo DevOps e Cloud.

E-book gratuito explicando como implementar práticas DevOps em 3 fases será o destaque de lançamento do novo website. A 4Linux anuncia, uma nova oferta de serviços de consultoria para o