Курс "Инженер на данни" - курс 95 000 rub. от Yandex Workshop, обучение 6,5 месеца, Дата: 11 декември 2023 г.
разни / / November 30, 2023
За практикуващи разработчици
Научете се да изграждате инфраструктура за работа с данни и систематизирайте знанията си, за да ги използвате в текущата си роля или сменете посоката към инженер по данни.
За амбициозни инженери по данни
Структуриране на знания: освен ясна теория, ще има и много практика. Ще придобиете опит в работата по проекти - това ще ви помогне да изградите портфолио, да се откроите от другите кандидати и да не се изгубите в реалната работа.
Специалисти и анализатори по наука за данни
Овладейте умения, които ще ви помогнат да се справите по-ефективно със задачите: изграждайте канали за данни, проектирайте витрини, изграждайте ETL и събирайте необработени данни в големи обеми.
Актуализиране на модела на данните
1 модул 2 седмици
Компанията продължава да ви потапя в своите процеси. Данните, с които работихте, бяха актуализирани, така че трябва да промените модела на данните.
В този курс вие:
- разбират как компанията изгражда база данни;
- актуализиране на структурата на текущата база данни в съответствие с новите бизнес изисквания;
- подгответе нови витрини и показатели за анализатори и мениджъри.
Технологии и инструменти:
- PostgreSQL
+1 проект в портфолиото
Изградете витрина с данни с постепенно зареждане за анализ на аудиторията на онлайн магазина.
DWH: ревизия на модела на данните
Модул 2 3 седмици
Компанията се разраства, архитектурата на данните става все по-сложна. Получавате задача - да оптимизирате процесите с данни.
В този курс вие:
- обмислете процеса на преход от старата схема на база данни към новата, като същевременно минимизирате бизнес загубите (разгръщане с нулево време на престой);
- подготвя миграция на данни;
- вземете предвид възможните проблеми и проектирайте опция за връщане назад на промените;
- прилагане на нова структура на база данни и адаптирането й към съществуващите процеси около данните.
Технологии и инструменти:
- PosgreSQL
- Python
+1 проект в портфолиото
Ще подредите модела на данни и ще мигрирате данни в текущото хранилище на онлайн магазина.
ETL: автоматизация на подготовката на данни
Модул 3 3 седмици
Вече знаете почти всичко за хранилището на данни на компанията. Време е да преосмислим ETL процесите.
В този курс вие:
- автоматизиране на тръбопровода за данни;
- конфигуриране на автоматично изтегляне на данни от източници;
- научете се редовно и постепенно да зареждате данни в базата данни.
Технологии и инструменти:
- Python
- Въздушно течение
- PostgreSQL
+1 проект в портфолиото
Изградете тръбопровод за автоматизирано получаване, обработка и зареждане на данни от източници към витрината за проект за електронна търговия.
Проверка на качеството на данните
Модул 4 1 седмица
Искате да сте сигурни, че първите ви тръбопроводи работят добре. Качеството на данните трябва да се проверява и авариите трябва да се проследяват своевременно.
В този курс вие:
- разбират как да използват метаинформация и документация;
- оценка на качеството на данните.
DWH за множество източници
Модул 5 2 седмици
Вие продължавате да изследвате DWH, защото развитието на компанията и следователно увеличаването на обема на данните не може да бъде спряно.
В този курс вие:
- изграждане на DWH от нулата върху релационна СУБД;
- запознайте се с MongoDB като източник на данни.
Технологии и инструменти:
- PostgreSQL
- MongoDB
+1 проект в портфолиото
Ще проектирате и внедрите DWH за вътрешно стартиране.
Аналитични бази данни
Модул 6 2 седмици
Има все повече специфични неструктурирани данни, които също трябва да се съхраняват и обработват. Затова ще ви запознаем с концепцията за аналитични бази данни, използвайки СУБД Vertica като пример.
В този курс вие:
- организиране на съхранението на проучвания във Vertica;
- научите как да правите основни операции с данни във Vertica;
- изграждане на просто хранилище на данни във Vertica.
Технологии и инструменти:
- Вертика
- PostgreSQL
- Въздушно течение
- S3
+1 проект в портфолиото
Изградете DWH за високонатоварена нискоструктурирана система за данни за съобщения с помощта на Vertica.
Data Lake Организация
Модул 7 4 седмици
Класическите решения не помагат да се справите с обема на данните. За да се справите с новите бизнес предизвикателства, вие ще изградите и попълните Data Lake.
В този курс вие:
- разгледайте архитектурата на Data Lake (прев. "езеро от данни");
- да се научат да обработват данни в MPP системата;
- попълване на Data Lake с данни от източници;
- практикувайте обработка на данни с помощта на PySpark и Airflow.
Технологии и инструменти:
- Hadoop
- MapReduce
- HDFS
- Apache Spark (PySpark)
+1 проект в портфолиото
Изградете Data Lake и автоматизирайте зареждането и обработката на данни в него.
Поточна обработка
Модул 8 3 седмици
Преодоляхте трудностите с голямо количество данни, но се появи нова задача - трябва да помогнете на бизнеса да взема решения по-бързо. Тук ще ви трябват познания за обработка на данни от потоци. стрийминг).
В този курс вие:
- разгледайте характеристиките на обработката на поточни данни;
- изградете своя собствена система за стрийминг;
- изградете витрина, използвайки данни в реално време.
Технологии и инструменти:
- Кафка
- Spark Streaming
+1 проект в портфолиото
Ще разработите система за обработка на данни в реално време.
Облачни технологии
Модул 9 3 седмици
Сега можете да работите както с големи обеми данни, така и с потоци. Остава само да се автоматизира мащабирането на системи, използващи облачни услуги.
В този курс ще научите как да внедрявате вече изучени решения, но в облака (използвайки Yandex Cloud като пример).
Технологии и инструменти:
- Яндекс. Облак
- Kubernetes
- kubectl
- Redis
- PostgreSQL
+1 проект в портфолиото
Ще разработите инфраструктура за съхранение и обработка на данни в облака.
Проект за дипломиране
Модул 10 3 седмици
Потвърдете, че сте научили нови умения.
Тук ще трябва самостоятелно да изберете и приложите решения на бизнес проблем. Това ще ви помогне отново да затвърдите използването на инструментите, които сте научили, както и вашата независимост.