Przetwarzanie Big Data z wykorzystaniem Apache Spark – szkolenie dla inżynierów wielkich danych

Opis szkolenia

Wielkie zbiory danych występują dziś w każdym sektorze gospodarki. Innowacyjne firmy IT wykorzystują potencjał Big Data, tworząc wielkoskalowe rozwiązania analityczne. Jest to możliwe dzięki nowym technologiom, takim jak ekosystem Apache Spark, który umożliwia przetwarzanie wielkich zbiorów danych i wydobywanie z nich cennych informacji.

Grupa docelowa

Inżynierowie danych zainteresowani zastosowaniem ekosystemu Apache Spark w rozwiązywaniu rzeczywistych problemów biznesowych. Osoby chcące wykorzystywać wielkie dane, łącząc przy tym biblioteki uczenia maszynowego z językami Python, SQL.

Program szolenia

Szkolenie z Apache Spark jest skierowane do osób zajmujących się analityką Big Data. Podczas szkolenia uczestnicy:

poznają ekosystemy Hadoop i Spark;
nauczą się pracować z Apache Spark tak w trybie interaktywnym (konsola), jak i wsadowym;
dowiedzą się, jak realizować zapytania ETL przy użyciu Spark SQL;
wykorzystają algorytmy uczenia maszynowego dostępne w bibliotece MLlib;
na przykładzie Twittera dowiedzą się, jak pobierać dane poprzez API serwisów społecznościowych.

Wymagania

Podstawowa znajomość systemu Linux (Ubuntu)
Podstawowa znajomość języka Python
Komputer przenośny z przeglądarką internetową

Prowadzący

Piotr Jan Dendek – analityk danych, doświadczenie zawodowe zdobył w ICM na Uniwersytecie Warszawskim, programista z blisko pięcioletnim doświadczeniem w pracy z ekosystemem Apache Hadoop. Tworzył rozwiązania w językach Java, Apache Pig, Scala, Python wykorzystujące techniki uczenia maszynowego. Prelegent na konferencji Spark Summit Europe 2015. W Polskiej Akademii Nauk prowadził kurs „Web-Scale Data Mining and Processing” (3 edycje, 2014–2015). Współpracował z firmami Spotify i Xerox w projektach analizy danych.

Michał Oniszczuk – inżynier danych w ICM na Uniwersytecie Warszawskim, deweloper Java i Scala, pasjonat programowania funkcyjnego i technologii Big Data. Współpracował z firmami takimi jak Spotify i Barclays PLC w projektach analizy danych. Posiada wieloletnie doświadczenie w stosowaniu technologii Apache Spark i Apache Hadoop. W zespole Market Intelligence na Parkiecie Handlu Surowcami w Bank of America Merrill Lynch w Londynie rozwijał systemy przetwarzające duże dane z wykorzystaniem technologii .NET.

Rejestracja

Rejestracja na szkolenie odbywa się tylko poprzez formularz zgłoszeniowy. Rejestracja na szkolenie jest otwarta do dnia 18 maja 2017 r. do godziny 23:59 albo do wyczerpania się miejsc. Maksymalna liczba uczestników szkolenia to 12 osób.
O przyjęciu na szkolenie decyduje kolejność zgłoszeń i uiszczenie wpłaty. Płatność za szkolenie można dopełnić tylko przelewem na konto wskazane w mailu potwierdzającym rejestrację.