5 de abril de 2019 Leonardo Afonso Amorim 4462 Views

4Linux atualiza seus cursos na área de Big Data!

Conheça os cursos de Big Data da 4Linux

A fim de atender demandas específicas do mercado por profissionais de Ciência de Dados e Engenharia de Dados, a 4Linux decidiu reformular os seus cursos de Big Data. Nosso objetivo é formar novos profissionais a partir das exigências dinâmicas do mercado de trabalho, principalmente na área de Big Data que ainda está passando por uma fase de amadurecimento, através da qual vem se consolidando a atuação de cada especialista, inclusive pela convergência de muitos assuntos concernentes aos perfis de Ciência e Engenharia de Dados.

Aprender com grandes volumes de dados envolve conhecimentos derivados de diversas áreas que vão além da Computação, como Matemática e Estatística. Portanto, ensinar o aluno(a) de maneira eficiente (rápida) e eficaz demanda uma estratégia diferenciada para que o objetivo de aprendizado se concretize. O nosso desafio é atingir este objetivo ao lidar com públicos de variados seguimentos (áreas de TI – como programação e infraestrutura – ou acadêmica). Logo, as mudanças começam pelos nomes dos cursos. O curso “Python and Hadoop for Data Engineering” passa a se chamar “Python and Hadoop for Big Data e Machine Learning”. E o curso “Big Data Analytics com Hadoop”, após a reformulação, se chamará “Hadoop and Spark for Data Engineering“.

Em relação ao curso “Python and Hadoop for Big Data e Machine Learning”, a 4Linux se preocupou em condensar em 40 horas conhecimentos de altíssima relevância, nas 3 grandes áreas relacionadas a Big Data que são Ciência de Dados, Machine Learning (ML) e Processamento de Alto Desempenho (HPC), com o objetivo de entregar ao aluno um RoadMap (“o caminho das pedras”) bem elaborado para entrar de cabeça no mundo dos grandes dados. Nossa estratégia é, portanto, orientar nossos alunos para que eles tenham sólidos fundamentos iniciais de Big Data, ML e HPC que os permitam progredir de maneira fluente em qualquer uma dessas áreas. Vale ressaltar que a área de Big Data é fortemente dependente de ML e HPC! Não se engane com “fundamentos iniciais” escrito neste texto. Isso é muito conteúdo de fato, assim, é importante ter foco no que aprender primeiro! E a forma como o conteúdo é apresentado faz a diferença! Nossa missão é “dar o pontapé” inicial para a pessoa que queira se tornar um profissional de Big Data completo.

Atualmente, não é raro nos depararmos com pessoas que usam frameworks de Big Data e Machine Learning, mas não sabem como tais ferramentas de fato funcionam, por outro lado, também existem aqueles que dominam tão somente fundamentos teóricos. É fundamental fazer a interface entre os dois mundos! O resultado disso é um profissional com espírito crítico capaz de adaptar arquiteturas de processamento a um volume específico de dados e criar modelos de Machine Learning eficazes.

O curso “Python and Hadoop for Big Data e Machine Learning” fornece uma visão geral (“Big Picture”) dos principais e mais destacados algoritmos de Machine Learning da atualidade e discute de forma crítica como aplicá-los em cada tipo de problema. Além disso, nosso treinamento se preocupa em como executar os modelos de Machine Learning com alto desempenho e, para isso, usamos bibliotecas, em Python, otimizadas para Deep Learning que permitem o uso tanto de CPUs (arquitetura multicore) quanto GPUs (arquitetura manycore). Neste curso, apresentamos ao aluno (a) uma visão holística (ampla) e prática (com bastante hands on) dos princípios fundamentais de Ciência de Dados e Machine Learning, usando como ferramentas a linguagem Python, a mais usada atualmente para esta finalidade, e frameworks de processamento de Big Data como o Hadoop, PySpark, Numba e para processamento de Deep Learning como Tensorflow e Keras.

Já em relação ao curso “Hadoop and Spark for Data Engineering”, nossa estratégia é apresentar mais ferramentas open source, como, por exemplo, Presto, Phoenix, Kafka, Spark Streaming, Storm, Flink. Além disso, melhorarmos os aspectos relacionados a infraestrutura de Hadoop, em especial, nos tópicos de troubleshooting, gerenciamento de usuários (Knox, Ranger, ACLs) e, também, tópicos relacionados a alta disponibilidade e balanceamento no Hadoop. Com isso, passamos a atender em 100% dos requisitos para a certificação HDPCA (HDP Certified Administrator) da Hortonworks. O curso também atende em 100% dos requisitos da certificação HDPCD (HDP Certified Developer). Este curso também se preocupa em orientar o aluno mostrando como encaixar todas essas ferramentas open source em uma arquitetura de dados: lambda. É importante que o Engenheiro de Dados domine uma linguagem de programação que seja fácil de aprender e seja escalável, por isso, adotamos a linguagem Scala para este curso. No curso “Python and Hadoop for Big Data e Machine Learning”, adotamos o PySpark para este objetivo.

Para facilitar a visão geral das nossas mudanças, apresentamos um resumo sobre tudo isso na tabela abaixo:

	Python and Hadoop for Big Data e Machine Learning – 522		Hadoop and Spark for Data Engineering – 812
Nome antigo	Python and Hadoop for Data Engineering		Big Data Analytics com Hadoop
Foco predominante em que área?	Análise de Dados e Algoritmos de Machine Learning		Engenharia de Dados, Spark e Tópicos de Infraestrutura Hadoop
Novos conteúdos	Fundamentos de Estatística e Matemática para Ciência de Dados; Aprofundamento em Regressão Linear; Classificação com Naive Bayes; Deep Learning com Keras; Kmeans em Python (Mahout excluído do curso); Notebook com Google Colab; Aplicações Real Time com Spark; Introdução a Arquitetura CUDA; Algoritmos básicos de redução e soma de prefixo em Python; Principais frameworks Python para Machine Learning que usam GPUs;		Ingestão de Dados com Kafka; Spark Streaming; Apache Storm; Apache Flink; Gerenciamento de usuários no Hadoop; Apache Knox; Apache Ranger; ACLs no HDFS; Lidar com outros esquemas de arquivos: Avro, Parquet Gerenciamento de Snapshot de diretório HDFS; Alta disponibilidade no Hadoop (Namenode e Hive); Tabela comparativa entre serviços on-premises do Hadoop x Google Cloud;
Metodologia	Altamente “hands on”, mas com os cuidados para que o aluno (a) realmente entenda os algoritmos de Machine Learning e tenha uma base estatística bem trabalhada;		Atenção especial à arquitetura de dados; Altamente “hands on”, mas com a preocupação que o aluno (a) realmente entenda sobre pipelines de processamento de dados e ETL; Abordagem comparativa de infraestrutura de Big Data on-premise x cloud computing;
Tópicos que são aprofundados	Machine Learning Análise de Dados		Ingestão de Dados e ETL Streaming Infraestrutura
Atende a que Certificações?	100% da teoria envolvida de Machine Learning para a Google Data Engineer; Parcialmente HDPCSD HDP Certified Spark Developer ***;		100% HDPCD da Hortonworks; 100% HDPCA da Hortonworks; Parcialmente HDPCSD HDP Certified Spark Developer; Apresentação das tecnologias de Big Data da Google para a certificação Google Data Engineer; 70% Cloudera CCP Data Engineer ; 70% Cloudera CCA Spark and Hadoop Developer ; 70% Cloudera CCA Data Analyst ; 30% Cloudera Administrator Certification CCA *;
Skills mais exigidas	Programação nível intermediário Infraestrutura Linux baixo		Programação nível iniciante Infraestrutura Linux intermediário
Grau de abordagem por área	Alto:	Machine Learning Análise de Big Data	Alto:	Engenharia de Dados Infraestrutura de Big Data
	Médio:	Engenharia de Dados	Médio:	Análise de Big Data
	Baixo:	Infraestrutura de Big Data	Baixo:	Machine Learning

Conheça a ementa completa dos novos cursos:
Curso: 522 – Python and Hadoop for Big Data e Machine Learning
Curso: 812 – Hadoop and Spark for Data Engineering

*Não abordamos Apache Impala, Apache Crunch, Kite SDK, DataFu e Cloudera HUE nos nossos cursos;

**Não mostramos como preparar infraestrutura com distribuição Hadoop da Cloudera (Cloudera Manager), e sim, da Hortonworks, Impala, Sentry

***Não mostramos integração de Spark com Java

CURSOS CONSULTORIA CONTATO

Compartilhe este post:

Twitter Facebook LinkedIn WhatsApp Email

Anterior Entenda o que é Imagem Forense e sua importância na tecnologia

Próxima 4Linux patrocina DevOpsDays São Paulo 2019 com foco em Containers

Categoria Big Data Notícias

About author

Leonardo Afonso Amorim 8 posts

Professor de cursos de Big Data e Machine Learning na 4Linux. Doutor em Ciência da Computação pela UFG com pesquisa sobre Processamento de Alto Desempenho (HPC) com aplicações em Processamento de Linguagem Natural (NLP).

View all posts by this author →

4Linux atualiza seus cursos na área de Big Data!

Conheça os cursos de Big Data da 4Linux

Compartilhe este post:

About author

Você pode gostar também

Presidente da Microsoft reconhece erro histórico sobre open source

Fusão de gigantes do Big Data: Cloudera e Hortonworks unem forças

Alavanque seu negócio com a cultura DevOps: saiba como implementar

Pesquisar

Cursos com IA

E-Book Cloud

E-book Cases de Sucesso

Suporte e Consultoria Cloud

Treinamento para empresas

Suporte e Consultoria em Big Data

Especialistas em open source

Nuvem de tags