Biografia do Palestrante:
Engenheiro de Dados Tech Lead na Dadosfera, AWS Community Builder, Pós-Graduado em Big Data e Machine Learning pela Fasam. Bacharel em Sistemas de Informação pelo IFG. Palestrante em eventos como FGSL, Campus Party, DevFest Cerrado, Join Community e TDC Dev Conf.
Palestrante no evento
CPBSB4 - Campus Party Brasília
Agenda do Palestrante:
12:00
13:55
\"Big Data e Machine Learning na Prática: Construção de um Data Lake na nuvem com AWS \"
Cicero Moura, Marco Nogueira
Cicero Moura, Marco Nogueira
A forma mais moderna de se organizar um ambiente de Big Data atualmente é o Data Lake, onde podemos centralizar todos os dados de uma organização. Tendo os dados organizados, processados e catalogados dentro de um ambiente de Data Lake, surge a possibilidade de gerar análises eficientes e também a aplicação de Inteligência Artificial (IA) através das técnicas de Machine Learning (ML) para agregar valor ao negócio. Porém quando falamos de ambientes de Big Data, temos um grande problema para ser resolvido, que vai do seu desenho à implementação passando pela extração de valor dos dados. Integrar várias fontes de dados não é algo simples e envolve muito trabalho e equipes multidisciplinares, pois são tarefas que exigem um amplo conhecimento sobre diversas tecnologias e ferramentas, além de um planejamento bem claro sobre os objetivos que se deseja alcançar. Pensando no processo de construção de um Data Lake, o objetivo do workshop é apresentar uma solução prática, de ponta a ponta, para criação de um ambiente de Big Data para aplicação de Machine Learning, tudo isso na nuvem, com a AWS e também ferramentas open source. Durante o workshop serão apresentados diversos serviços dentro da AWS, buscando simplificar a criação de um ambiente corporativo para análise de dados, que é utilizado por grandes empresas como a Netflix, Amazon e Nubank. Dentro da AWS serão abordados serviços como S3, EMR, Redshift, Glue e Athena. Para a criação de infraestrutura como código o Terraform, além de abordar a Linguagem Pyhton e o Spark para processamento de grandes conjuntos de dados. A ideia é cobrir de ponta a ponta os conceitos, desde o desenho de uma arquitetura de Data Lake, passando pela aquisição e processamento dos dados, até a aplicação de modelos preditivos com ML, tudo isso de forma prática. No final do workshop espera-se que os participantes tenham o caminho inicial para construir um ambiente de dados dentro de suas organizações, seja startup ou corporações maiores, além de terem uma arquitetura de base que seja reproduzível em vários projetos, tudo isso na nuvem, levando em consideração custos, escalabilidade e disponibilidade.
Ver descrição
Ocultar descrição