4Linux atualiza seus cursos na área de Big Data!

4Linux atualiza seus cursos na área de Big Data!

Conheça os cursos de Big Data da 4Linux

A fim de atender demandas específicas do mercado por profissionais de Ciência de Dados e Engenharia de Dados, a 4Linux decidiu reformular os seus cursos de Big Data. Nosso objetivo é formar novos profissionais a partir das exigências dinâmicas do mercado de trabalho, principalmente na área de Big Data que ainda está passando por uma fase de amadurecimento, através da qual vem se consolidando a atuação de cada especialista, inclusive pela convergência de muitos assuntos concernentes aos perfis de Ciência e Engenharia de Dados.

Aprender com grandes volumes de dados envolve conhecimentos derivados de diversas áreas que vão além da Computação, como Matemática e Estatística. Portanto, ensinar o aluno(a) de maneira eficiente (rápida) e eficaz demanda uma estratégia diferenciada para que o objetivo de aprendizado se concretize. O nosso desafio é atingir este objetivo ao lidar com públicos de variados seguimentos (áreas de TI – como programação e infraestrutura – ou acadêmica). Logo, as mudanças começam pelos nomes dos cursos. O curso “Python and Hadoop for Data Engineering” passa a se chamar “Python and Hadoop for Big Data e Machine Learning”. E o curso “Big Data Analytics com Hadoop”, após a reformulação, se chamará “Hadoop and Spark for Data Engineering“.

Em relação ao curso “Python and Hadoop for Big Data e Machine Learning”, a 4Linux se preocupou em condensar em 40 horas conhecimentos de altíssima relevância, nas 3 grandes áreas relacionadas a Big Data que são Ciência de Dados, Machine Learning (ML) e Processamento de Alto Desempenho (HPC), com o objetivo de entregar ao aluno um RoadMap (“o caminho das pedras”) bem elaborado para entrar de cabeça no mundo dos grandes dados. Nossa estratégia é, portanto, orientar nossos alunos para que eles tenham sólidos fundamentos iniciais de Big Data, ML e HPC que os permitam progredir de maneira fluente em qualquer uma dessas áreas. Vale ressaltar que a área de Big Data é fortemente dependente de ML e HPC! Não se engane com “fundamentos iniciais” escrito neste texto. Isso é muito conteúdo de fato, assim, é importante ter foco no que aprender primeiro! E a forma como o conteúdo é apresentado faz a diferença! Nossa missão é “dar o pontapé” inicial para a pessoa que queira se tornar um profissional de Big Data completo.

Atualmente, não é raro nos depararmos com pessoas que usam frameworks de Big Data e Machine Learning, mas não sabem como tais ferramentas de fato funcionam, por outro lado, também existem aqueles que dominam tão somente fundamentos teóricos. É fundamental fazer a interface entre os dois mundos! O resultado disso é um profissional com espírito crítico capaz de adaptar arquiteturas de processamento a um volume específico de dados e criar modelos de Machine Learning eficazes.

O curso “Python and Hadoop for Big Data e Machine Learning” fornece uma visão geral (“Big Picture”) dos principais e mais destacados algoritmos de Machine Learning da atualidade e discute de forma crítica como aplicá-los em cada tipo de problema. Além disso, nosso treinamento se preocupa em como executar os modelos de Machine Learning com alto desempenho e, para isso, usamos bibliotecas, em Python, otimizadas para Deep Learning que permitem o uso tanto de CPUs (arquitetura multicore) quanto GPUs (arquitetura manycore). Neste curso, apresentamos ao aluno (a) uma visão holística (ampla) e prática (com bastante hands on) dos princípios fundamentais de Ciência de Dados e Machine Learning, usando como ferramentas a linguagem Python, a mais usada atualmente para esta finalidade, e frameworks de processamento de Big Data como o Hadoop, PySpark, Numba e para processamento de Deep Learning como Tensorflow e Keras.

Já em relação ao curso “Hadoop and Spark for Data Engineering”, nossa estratégia é apresentar mais ferramentas open source, como, por exemplo, Presto, Phoenix, Kafka, Spark Streaming, Storm, Flink. Além disso, melhorarmos os aspectos relacionados a infraestrutura de Hadoop, em especial, nos tópicos de troubleshooting, gerenciamento de usuários (Knox, Ranger, ACLs) e, também, tópicos relacionados a alta disponibilidade e balanceamento no Hadoop. Com isso, passamos a atender em 100% dos requisitos para a certificação HDPCA (HDP Certified Administrator) da Hortonworks. O curso também atende em 100% dos requisitos da certificação HDPCD (HDP Certified Developer). Este curso também se preocupa em orientar o aluno mostrando como encaixar todas essas ferramentas open source em uma arquitetura de dados: lambda. É importante que o Engenheiro de Dados domine uma linguagem de programação que seja fácil de aprender e seja escalável, por isso, adotamos a linguagem Scala para este curso. No curso “Python and Hadoop for Big Data e Machine Learning”, adotamos o PySpark para este objetivo.

Para facilitar a visão geral das nossas mudanças, apresentamos um resumo sobre tudo isso na tabela abaixo:

Python and Hadoop for Big Data e Machine Learning – 522

Hadoop and Spark for Data Engineering – 812

Nome antigo

Python and Hadoop for Data Engineering

Big Data Analytics com Hadoop

Foco predominante em que área?

Análise de Dados e Algoritmos de Machine Learning

Engenharia de Dados, Spark e Tópicos de Infraestrutura Hadoop

Novos conteúdos
  • Fundamentos de Estatística e Matemática para Ciência de Dados;

  • Aprofundamento em Regressão Linear;

  • Classificação com Naive Bayes;

  • Deep Learning com Keras;

  • Kmeans em Python (Mahout excluído do curso);

  • Notebook com Google Colab;

  • Aplicações Real Time com Spark;

  • Introdução a Arquitetura CUDA;

  • Algoritmos básicos de redução e soma de prefixo em Python;

  • Principais frameworks Python para Machine Learning que usam GPUs;

  • Ingestão de Dados com Kafka;

  • Spark Streaming;

  • Apache Storm;

  • Apache Flink;

  • Gerenciamento de usuários no Hadoop;

  • Apache Knox;

  • Apache Ranger;

  • ACLs no HDFS;

  • Lidar com outros esquemas de arquivos: Avro, Parquet

  • Gerenciamento de Snapshot de diretório HDFS;

  • Alta disponibilidade no Hadoop (Namenode e Hive);

  • Tabela comparativa entre serviços on-premises do Hadoop x Google Cloud;

Metodologia
  • Altamente “hands on”, mas com os cuidados para que o aluno (a) realmente entenda os algoritmos de Machine Learning e tenha uma base estatística bem trabalhada;

  • Atenção especial à arquitetura de dados;

  • Altamente “hands on”, mas com a preocupação que o aluno (a) realmente entenda sobre pipelines de processamento de dados e ETL;

  • Abordagem comparativa de infraestrutura de Big Data on-premise x cloud computing;

Tópicos que são aprofundados
  • Machine Learning

  • Análise de Dados

  • Ingestão de Dados e ETL

  • Streaming

  • Infraestrutura

Atende a que Certificações?
  • 100% da teoria envolvida de Machine Learning para a Google Data Engineer;

  • Parcialmente HDPCSD HDP Certified Spark Developer ***;

  • 100% HDPCD da Hortonworks;

  • 100% HDPCA da Hortonworks;

  • Parcialmente HDPCSD HDP Certified Spark Developer;

  • Apresentação das tecnologias de Big Data da Google para a certificação Google Data Engineer;

  • 70% Cloudera CCP Data Engineer *;

  • 70% Cloudera CCA Spark and Hadoop Developer *;

  • 70% Cloudera CCA Data Analyst *;

  • 30% Cloudera Administrator Certification CCA **;

Skills mais exigidas
  • Programação nível intermediário

  • Infraestrutura Linux baixo

  • Programação nível iniciante

  • Infraestrutura Linux intermediário

Grau de abordagem por área

Alto:

Machine Learning

Análise de Big Data

Alto:

Engenharia de Dados

Infraestrutura de Big Data

Médio:

Engenharia de Dados

Médio:

Análise de Big Data

Baixo:

Infraestrutura de Big Data

Baixo:

Machine Learning

Conheça a ementa completa dos novos cursos:
Curso: 522 – Python and Hadoop for Big Data e Machine Learning
Curso: 812 – Hadoop and Spark for Data Engineering

*Não abordamos Apache Impala, Apache Crunch, Kite SDK, DataFu e Cloudera HUE nos nossos cursos;

**Não mostramos como preparar infraestrutura com distribuição Hadoop da Cloudera (Cloudera Manager), e sim, da Hortonworks, Impala, Sentry

***Não mostramos integração de Spark com Java

CURSOSCONSULTORIA    CONTATO

Anterior Entenda o que é Imagem Forense e sua importância na tecnologia
Próxima 4Linux patrocina DevOpsDays São Paulo 2019 com foco em Containers

About author

Leonardo Afonso Amorim
Leonardo Afonso Amorim 8 posts

Professor de cursos de Big Data e Machine Learning na 4Linux. Doutor em Ciência da Computação pela UFG com pesquisa sobre Processamento de Alto Desempenho (HPC) com aplicações em Processamento de Linguagem Natural (NLP).

View all posts by this author →

Você pode gostar também

Notícias

Entrevista exclusiva com Nicolas Grekas sobre o Symfony Framework

Em Maio o Nicolas Grekas – um dos desenvolvedores do Symfony Framework – esteve no Brasil pela primeira vez para o SymfonyLive e tivemos a oportunidade de recebê-lo aqui na

Infraestrutura TI

Conexão com Cluster Kafka Hospedado em Kubernetes: Guia Completo

Nesse artigo vamos discutir questões relacionadas a como disponibilizar um cluster kafka hospedado em um k8s para aplicações que estejam hospedadas fora do cluster kubernetes. Não vamos tratar da instalação

Infraestrutura TI

Acelere seus algoritmos de Machine Learning com CUDA no Linux

Se você deseja trabalhar com algoritmos de Machine Learning, provavelmente precisará usar processamento paralelo para acelerar os resultados dos seus algoritmos. Muitos frameworks como por exemplo, o TensorFlow, já possuem