4Linux atualiza seus cursos na área de Big Data!

4Linux atualiza seus cursos na área de Big Data!

Conheça os cursos de Big Data da 4Linux

A fim de atender demandas específicas do mercado por profissionais de Ciência de Dados e Engenharia de Dados, a 4Linux decidiu reformular os seus cursos de Big Data. Nosso objetivo é formar novos profissionais a partir das exigências dinâmicas do mercado de trabalho, principalmente na área de Big Data que ainda está passando por uma fase de amadurecimento, através da qual vem se consolidando a atuação de cada especialista, inclusive pela convergência de muitos assuntos concernentes aos perfis de Ciência e Engenharia de Dados.

Aprender com grandes volumes de dados envolve conhecimentos derivados de diversas áreas que vão além da Computação, como Matemática e Estatística. Portanto, ensinar o aluno(a) de maneira eficiente (rápida) e eficaz demanda uma estratégia diferenciada para que o objetivo de aprendizado se concretize. O nosso desafio é atingir este objetivo ao lidar com públicos de variados seguimentos (áreas de TI – como programação e infraestrutura – ou acadêmica). Logo, as mudanças começam pelos nomes dos cursos. O curso “Python and Hadoop for Data Engineering” passa a se chamar “Python and Hadoop for Big Data e Machine Learning”. E o curso “Big Data Analytics com Hadoop”, após a reformulação, se chamará “Hadoop and Spark for Data Engineering“.

Em relação ao curso “Python and Hadoop for Big Data e Machine Learning”, a 4Linux se preocupou em condensar em 40 horas conhecimentos de altíssima relevância, nas 3 grandes áreas relacionadas a Big Data que são Ciência de Dados, Machine Learning (ML) e Processamento de Alto Desempenho (HPC), com o objetivo de entregar ao aluno um RoadMap (“o caminho das pedras”) bem elaborado para entrar de cabeça no mundo dos grandes dados. Nossa estratégia é, portanto, orientar nossos alunos para que eles tenham sólidos fundamentos iniciais de Big Data, ML e HPC que os permitam progredir de maneira fluente em qualquer uma dessas áreas. Vale ressaltar que a área de Big Data é fortemente dependente de ML e HPC! Não se engane com “fundamentos iniciais” escrito neste texto. Isso é muito conteúdo de fato, assim, é importante ter foco no que aprender primeiro! E a forma como o conteúdo é apresentado faz a diferença! Nossa missão é “dar o pontapé” inicial para a pessoa que queira se tornar um profissional de Big Data completo.

Atualmente, não é raro nos depararmos com pessoas que usam frameworks de Big Data e Machine Learning, mas não sabem como tais ferramentas de fato funcionam, por outro lado, também existem aqueles que dominam tão somente fundamentos teóricos. É fundamental fazer a interface entre os dois mundos! O resultado disso é um profissional com espírito crítico capaz de adaptar arquiteturas de processamento a um volume específico de dados e criar modelos de Machine Learning eficazes.

O curso “Python and Hadoop for Big Data e Machine Learning” fornece uma visão geral (“Big Picture”) dos principais e mais destacados algoritmos de Machine Learning da atualidade e discute de forma crítica como aplicá-los em cada tipo de problema. Além disso, nosso treinamento se preocupa em como executar os modelos de Machine Learning com alto desempenho e, para isso, usamos bibliotecas, em Python, otimizadas para Deep Learning que permitem o uso tanto de CPUs (arquitetura multicore) quanto GPUs (arquitetura manycore). Neste curso, apresentamos ao aluno (a) uma visão holística (ampla) e prática (com bastante hands on) dos princípios fundamentais de Ciência de Dados e Machine Learning, usando como ferramentas a linguagem Python, a mais usada atualmente para esta finalidade, e frameworks de processamento de Big Data como o Hadoop, PySpark, Numba e para processamento de Deep Learning como Tensorflow e Keras.

Já em relação ao curso “Hadoop and Spark for Data Engineering”, nossa estratégia é apresentar mais ferramentas open source, como, por exemplo, Presto, Phoenix, Kafka, Spark Streaming, Storm, Flink. Além disso, melhorarmos os aspectos relacionados a infraestrutura de Hadoop, em especial, nos tópicos de troubleshooting, gerenciamento de usuários (Knox, Ranger, ACLs) e, também, tópicos relacionados a alta disponibilidade e balanceamento no Hadoop. Com isso, passamos a atender em 100% dos requisitos para a certificação HDPCA (HDP Certified Administrator) da Hortonworks. O curso também atende em 100% dos requisitos da certificação HDPCD (HDP Certified Developer). Este curso também se preocupa em orientar o aluno mostrando como encaixar todas essas ferramentas open source em uma arquitetura de dados: lambda. É importante que o Engenheiro de Dados domine uma linguagem de programação que seja fácil de aprender e seja escalável, por isso, adotamos a linguagem Scala para este curso. No curso “Python and Hadoop for Big Data e Machine Learning”, adotamos o PySpark para este objetivo.

Para facilitar a visão geral das nossas mudanças, apresentamos um resumo sobre tudo isso na tabela abaixo:

Python and Hadoop for Big Data e Machine Learning – 522

Hadoop and Spark for Data Engineering – 812

Nome antigo

Python and Hadoop for Data Engineering

Big Data Analytics com Hadoop

Foco predominante em que área?

Análise de Dados e Algoritmos de Machine Learning

Engenharia de Dados, Spark e Tópicos de Infraestrutura Hadoop

Novos conteúdos
  • Fundamentos de Estatística e Matemática para Ciência de Dados;

  • Aprofundamento em Regressão Linear;

  • Classificação com Naive Bayes;

  • Deep Learning com Keras;

  • Kmeans em Python (Mahout excluído do curso);

  • Notebook com Google Colab;

  • Aplicações Real Time com Spark;

  • Introdução a Arquitetura CUDA;

  • Algoritmos básicos de redução e soma de prefixo em Python;

  • Principais frameworks Python para Machine Learning que usam GPUs;

  • Ingestão de Dados com Kafka;

  • Spark Streaming;

  • Apache Storm;

  • Apache Flink;

  • Gerenciamento de usuários no Hadoop;

  • Apache Knox;

  • Apache Ranger;

  • ACLs no HDFS;

  • Lidar com outros esquemas de arquivos: Avro, Parquet

  • Gerenciamento de Snapshot de diretório HDFS;

  • Alta disponibilidade no Hadoop (Namenode e Hive);

  • Tabela comparativa entre serviços on-premises do Hadoop x Google Cloud;

Metodologia
  • Altamente “hands on”, mas com os cuidados para que o aluno (a) realmente entenda os algoritmos de Machine Learning e tenha uma base estatística bem trabalhada;

  • Atenção especial à arquitetura de dados;

  • Altamente “hands on”, mas com a preocupação que o aluno (a) realmente entenda sobre pipelines de processamento de dados e ETL;

  • Abordagem comparativa de infraestrutura de Big Data on-premise x cloud computing;

Tópicos que são aprofundados
  • Machine Learning

  • Análise de Dados

  • Ingestão de Dados e ETL

  • Streaming

  • Infraestrutura

Atende a que Certificações?
  • 100% da teoria envolvida de Machine Learning para a Google Data Engineer;

  • Parcialmente HDPCSD HDP Certified Spark Developer ***;

  • 100% HDPCD da Hortonworks;

  • 100% HDPCA da Hortonworks;

  • Parcialmente HDPCSD HDP Certified Spark Developer;

  • Apresentação das tecnologias de Big Data da Google para a certificação Google Data Engineer;

  • 70% Cloudera CCP Data Engineer *;

  • 70% Cloudera CCA Spark and Hadoop Developer *;

  • 70% Cloudera CCA Data Analyst *;

  • 30% Cloudera Administrator Certification CCA **;

Skills mais exigidas
  • Programação nível intermediário

  • Infraestrutura Linux baixo

  • Programação nível iniciante

  • Infraestrutura Linux intermediário

Grau de abordagem por área

Alto:

Machine Learning

Análise de Big Data

Alto:

Engenharia de Dados

Infraestrutura de Big Data

Médio:

Engenharia de Dados

Médio:

Análise de Big Data

Baixo:

Infraestrutura de Big Data

Baixo:

Machine Learning

Conheça a ementa completa dos novos cursos:
Curso: 522 – Python and Hadoop for Big Data e Machine Learning
Curso: 812 – Hadoop and Spark for Data Engineering

*Não abordamos Apache Impala, Apache Crunch, Kite SDK, DataFu e Cloudera HUE nos nossos cursos;

**Não mostramos como preparar infraestrutura com distribuição Hadoop da Cloudera (Cloudera Manager), e sim, da Hortonworks, Impala, Sentry

***Não mostramos integração de Spark com Java

CURSOSCONSULTORIA    CONTATO

Anterior Análise forense em imagens
Próxima 4Linux estará presente no DevOpsDays São Paulo

About author

Leonardo Afonso Amorim
Leonardo Afonso Amorim 5 posts

Bacharel em Engenharia de Computação pela PUC-GO. Mestre em Ciência da Computação pela UFG com foco em Inteligência Computacional. No mestrado criou os agentes de mineração de dados e suporte à decisão para o projeto ADGEPA (Assistente Digital de Gestão Pública Participativa). Doutorando em Ciência da Computação pela UFG com pesquisa sobre algoritmos eficientes e escaláveis e suas implementações paralelas em arquiteturas multicore e manycore a fim de acelerar tarefas de busca de documentos por similaridade usando técnicas de Machine Learning. Também na UFG faz pesquisa sobre aplicação de Machine Learning para Reparo Automatizado de Software. Lecionou sobre Inteligência Artificial/Computacional para Engenharia de Computação na Universidade Federal de Goiás. É Analista de Infraestrutura Sênior e Engenheiro de Dados. Possui sólidos conhecimentos em infraestrutura Linux, programação Java/Python, Hadoop e ensino. Experiência adquirida no mestrado e doutorado com os seguintes algoritmos: kNN, kMeans, Regras de Associação, Redes Neurais Artificiais, Processamento Natural de Linguagem com Word2Vec, Sistemas Multiagentes, Algoritmos Genéticos e Programação Genética. Além disso possui experiência em ensino técnico (Redes Linux com ênfase em Segurança) e programação Java. Ministrou mais de 100 cursos. Possui as seguintes certificações em TI: LPIC-1, LPIC-2 e LPIC-3 Security (Linux Professional Institute), Novell Certified Linux Administrator (Suse Linux Enterprise).

View all posts by this author →

Você pode gostar também

Notícias

Caça Talentos – A 4Linux selecionará 10 alunos para realizarem gratuitamente cursos de Python.

Os melhores alunos poderão ser contratados pela 4Linux. Frequentemente a 4Linux organiza caça talentos com o objetivo de selecionar e capacitar jovens talentos para trabalharem em sua área de treinamentos

Notícias

Lançamento do curso -Python and Hadoop for Data Engineering

O curso Python and Hadoop for Data Engineering é pioneiro no Brasil, conta com 3 grandes áreas: Big Data, Machine Learning e Computação de Alto Desempenho, mostramos as diferenças de

Big Data

Fusão da Cloudera com a Hortonworks – Como isto impacta o mundo de TI e o profissional de Big Data?

Grande mudança no mercado de Big Data Uma notícia no final de 2018 causou muita surpresa no mundo de TI, em especial, para a área de Big Data. A Cloudera