Курс „Анализатор на данни“ - курс 96 000 rub. от Yandex Workshop, обучение 7 месеца, дата 7 декември 2023 г.
разни / / December 02, 2023
Анализаторът на данни извлича значение от числата и стойностите: той вижда тенденции, прогнозира събития и помага на компанията да разбере клиентите, да оптимизира процесите и да расте.
Пазарът се нуждае от специалисти, които могат да използват данните полезно. Проучване на компанията за персонал Ancor за септември 2022 г. показа, че 45% от руските компании търсят анализатори, които да се присъединят към екипа си.
Умения, които ще научите на курса
Длъжност
Анализатор, анализатор на данни, анализатор на данни
Възможности за развитие: Продуктов анализатор, маркетингов анализатор, BI анализатор, специалист по наука за данни
Ето технологиите и инструментите, които ще използвате:
Python
Тетрадка на Юпитер
SQL
PostgreSQL
Таблица
A/B тестове
Започнете да правите пари, като анализирате
Ще започнете от младша позиция и след това ще продължите само напред. Ще се изкачите по кариерната стълбица и ще растете в стойността си. И един ден няма да има цена за теб.
Пълна програма за курсове по анализ на данни
Ние го актуализираме редовно, за да гарантираме, че отговаря на нуждите на индустрията и работодателите.
С други думи, научавате само това, което определено ще бъде полезно в работата ви.
Безплатна част - 1 седмица
Безплатно въведение: Основи на Python и анализ на данни
Научете основните концепции за анализ на данни и разберете какво правят анализаторите на данни и учените по данни.
• Москва Catnamycs. Показване на данни на екрана. CSV файлове. Работа с таблици. Топлинни карти. Умножение на колона по цяло число.
• Грешки в кода. Синтактични грешки. Грешки при именуване. Грешки при деление на нула. Грешки при импортиране на модул.
• Променливи и типове данни. Променливи. Типове данни. Аритметични действия с числа и низове.
• Как се правят хипотези. Хипотези. ХАДИ цикли. Аналитично мислене. Четене на графики.
• Какво правят учените по данни. Задачи на анализатора. Изясняване на задачи. Разграждане. Етапи на проекта.
• Проверка на реализациите. Преобразуване. Изследване на данни. Формиране на заключения.
• Възвръщаемост на рекламните кампании. Колонна диаграма. Разлика на елементите. Индексиране в колони.
• Машинно обучение и Data Science. Обучение по машинно обучение. Намиране на уникални стойности в колони. Логическо индексиране. Групиране на стойности в таблица. Грешки в прогнозите.
• Финален проект. Сегментиране на потребителите.
PythonPandasErrorsSeabornHypothesesConversionVariablesData TypesHeatmaps
1 спринт 3 седмици
Основен Python
Гмурнете се по-дълбоко в езика за програмиране Python и библиотеката Pandas.
• Променливи и типове данни. Език Python. Променливи. Показване на данни на екрана. Показване на обекти на екрана. Обработка на грешки, опитайте...освен оператор. Типове данни. Конверсии на типове данни.
• Линии. Индекси в редове. Режещи линии. Операции върху низове. Стрингови методи. Форматиране на низове, метод format(), f-низове.
• Списъци. Индекси в списъци. Избройте резени. Добавяне на елементи към списък. Премахване на елементи от списъка. Събиране и умножение на списъци. • Сортиране на списъци. Търсене на елементи в списък. Разделяне на низ в списък от низове, обединяване на списък от низове в низ.
• За цикъл. Цикли. Изброяване на елементи. Итериране на индекси на елементи. Обработка на елементи от списък с помощта на цикли: намиране на сумата и произведението на елементите.
• Вложени списъци. Преминаване през вложени списъци с преброяване на стойности. Добавяне на елементи към вложени списъци. Сортиране на вложени списъци.
• Условен оператор. Цикъл докато. Булев тип данни. Булеви стойности. Логически изрази. Съставни логически изрази. Условен израз if...elif...else. Разклоняване. Филтриране на списъци с помощта на условен оператор. Цикъл докато.
• Функции. Възлагане на функции. Параметри и аргументи. Параметри със стойности по подразбиране. Позиционни и наименувани аргументи. Връщане на резултат от функция.
• Речници. Ключове и стойности. Търсене на стойност по ключ. Добавяне на елементи към речника. Списък с речници. Красив изход на речници.
• Библиотека Pandas. Четене на csv файлове. Dataframe. Конструктор на Dataframe. Отпечатване на първия и последния ред на рамка с данни. Индексиране в кадри с данни. Индексиране на колони от серии.
• Предварителна обработка на данни. Принципът GIGO. Преименуване на колони от рамка с данни. Обработка на липсващи стойности. Обработване на явни и неявни дубликати.
• Анализ на данни и представяне на резултатите. Групиране на данни. Сортиране на данни. Основи на описателната статистика.
• Тетрадка Jupyter - тетрадка в клетка. Интерфейс на Jupyter Notebook. Преки пътища към бележника на Jupyter.
Loops PythonPandasStrings Lists FunctionsDictionariesDataFrameVariablesDataTypesConditional statement
Проект
Сравнете потребителските данни на Yandex Music по град и ден от седмицата.
2 спринт 2 седмици
Предварителна обработка на данни
Научете се да почиствате данни от отклонения, пропуски и дубликати, както и да конвертирате различни формати на данни.
• Работа с пропуски. Преобразуване. Бисквитки. Категориални и количествени променливи. Обработка на пропуски в категориалните променливи. Справяне с пропуски в количествените променливи. Справяне с пропуски в количествените променливи по категории.
• Промяна на типове данни. Четене на Excel файлове. Преобразуване на серия в числов тип. Числов модул, метод abs(). Работа с дата и час. Обработка на грешки, опитайте...освен оператор. Обединяване на кадри с данни, метод merge(). Пивотни таблици.
• Търсене на дубликати. Търсете дубликати, чувствителни към главни и малки букви.
• Категоризация на данните. Разлагане на таблици. Категоризация по числови диапазони. Категоризирайте въз основа на множество стойности на ред.
• Системно и критично мислене в работата на анализатора. Системно мислене. Причини за грешки в данните. Критично мислене.
PythonPandasGap обработка Обработка на данни Дублирана обработка Категоризация на данни
Проект
Анализирайте данните за банковите клиенти и определете дела на кредитоспособните.
3 спринт 2 седмици
Проучвателен анализ на данни
Научете основите на вероятността и статистиката. Използвайте ги, за да изследвате основните свойства на данните, търсейки модели, разпределения и аномалии. Запознайте се с библиотеката Matplotlib. Начертайте диаграми и се упражнявайте да анализирате графики.
• Първи графики и изводи. Използване на обобщени таблици. Стълбовидна диаграма. Разпределения. Диаграма на диапазона.
• Проучване на срезове с данни. Методът query(). Работа с дата и час. Изграждане на графики чрез метода plot(). Бръсначът на Окам.
• Работа с множество източници на данни. Срез от данни, базиран на външни обекти. Добавяне на нови колони към рамка с данни. Добавяне на данни от други кадри с данни. Преименуване на колони. Комбиниране на таблици с помощта на методите merge() и join().
• Връзки с данни. Точкова диаграма. Корелация на променливи. Точкова диаграма.
• Валидиране на резултатите. Консолидация на групи. Разделяне на данните в групи.
PythonPandasMatplotlibHistogramsData Slices Анализ на данни ScatterplotScatterplot Визуализация на данни Описателна статистика
Проект
Разгледайте архива с обяви за продажба на недвижими имоти в Санкт Петербург и Ленинградска област.
4 спринт 3 седмици
Анализ на статистически данни
Научете се да анализирате връзките в данните с помощта на статистически методи. Научете какво е статистическа значимост и хипотези.
• Комбинаторика. Комбинации. Правило за умножение. Пренареждания. Брой пермутации. Разположения. Брой разположения. Комбинации. Брой комбинации.
• Теория на вероятностите. Експериментирайте. Вероятностно пространство. събития. Вероятност. Пресичащи се и взаимно изключващи се събития. Диаграма на Ойлер-Вен. Закон за големите числа.
• Описателна статистика. Категориални и количествени променливи. Режим и медиана. Средна стойност. дисперсия. Стандартно отклонение. Квартили и процентили. Диаграма на диапазона. Колонна диаграма. Плътност на честотата. Стълбовидна диаграма.
• Случайни променливи. Дискретна случайна променлива. Разпределение на вероятностите за дискретна случайна променлива. Кумулативна функция (функция на разпределение) на дискретна случайна променлива. Математическо очакване на дискретна случайна променлива. Дисперсия на дискретна случайна променлива.
• Разпределения. Опитът на Бернули. Биномен експеримент. Биномиално разпределение. Непрекъснато равномерно разпределение. Нормална дистрибуция. Стандартно нормално разпределение. CDF и PPF за нормално разпределение. Поасоново разпределение. Апроксимация на едно разпределение с друго.
• Проверка на хипотези. Общо население. проба. Разпределение на пробите. Централна гранична теорема. Едностранни и двустранни хипотези. P-стойност. Тестване на едностранни и двустранни хипотези за една проба. Тестване на хипотезата за равенство на средните на две генерални съвкупности. Тестване на хипотезата за равенство на средните за зависими извадки.
ScipyNumpyPythonPandasMatplotlibCombinatoricsDistributionsТестване на хипотези Теория на вероятностите
Проект
Тествайте хипотези за услугата за отдаване на скутери под наем, за да помогнете за развитието на бизнеса си.
Допълнителен спринт
Теория на вероятностите
Запомнете или разпознайте основните термини в теорията на вероятностите: независими, противоположни, несъвместими събития и др. Използвайки прости примери и забавни задачи, ще се упражнявате да работите с числа и да изграждате логиката на решенията.
Това е незадължителен спринт. Това означава, че всеки студент сам избира една от опциите:
• Усвоете допълнителен спринт от 10 кратки урока, освежете теорията и решете задачи.
• Отворете само блока със задачи за интервю, припомнете си практика без теория.
• Пропуснете напълно курса или се върнете към него, когато има време и нужда.
Python Събития Вероятност Теорема на Байс Случайни променливи Теория на вероятностите Статистически анализ на данни
5 спринт 1 седмица
Финален проект на първи модул
Научете как да провеждате предварителни изследвания на данни и да формулирате и тествате хипотези.
ScipyNumpyPythonPandasMatplotlib Анализ на данни Тестване на хипотези Обработка на данни
Проект
Намерете модели в данните за продажбите на игри.
6 спринт 2 седмици
Основен SQL
Научете основите на езика за структурирани заявки SQL и релационната алгебра за работа с бази данни. Запознайте се с възможностите за работа в PostgreSQL, популярна система за управление на бази данни (СУБД). Научете се да пишете заявки с различни нива на сложност и да превеждате бизнес проблеми в SQL. Ще работите с база данни на онлайн магазин, специализиран в търговията с филми и музика.
• Въведение в базите данни. Системи за управление на бази данни (СУБД). SQL език. SQL заявки. Форматиране на SQL заявки.
• Срезове с данни в SQL. Типове данни в PostgreSQL. Преобразуване на типове данни. WHERE клауза. Логически оператори. Срезове с данни. Оператори IN, LIKE, BETWEEN. Работа с дата и час. Обработка на липсващи стойности. Условна CASE конструкция.
• Агрегиращи функции. Групиране и сортиране на данни. Математически операции. Агрегиращи функции. Групиране на данни. Сортиране на данни. Филтриране по агрегирани данни, оператор HAVING.
• Връзки между таблици. Видове свързване на таблици. ER диаграми. Преименуване на полета и таблици. Псевдоними. Обединяване на таблици. Видове съединения: ВЪТРЕШНО СЪЕДИНЯВАНЕ, ЛЯВО СЪЕДИНЯВАНЕ, ДЯСНО СЪЕДИНЯВАНЕ, ПЪЛНО ВЪНШНО СЪЕДИНЯВАНЕ. Алтернативни видове съюзи UNION и UNION ALL.
• Подзаявки и общи таблични изрази. Подзапитвания. Подзаявки във FROM. Подзаявки в WHERE. Комбинация от съединения и подзаявки. Общи таблични изрази (CTE). Променливост на заявките.
SQLDBMSPostgreSQL Подзапитви Бази данниSQL заявки Филтриране на данни Сортиране на данни Групиране на данни Обединяване на таблици Общи изрази на таблици
Проект
Ще напишете поредица от заявки с различна сложност към база данни, която съхранява данни за рискови инвеститори, стартиращи фирми и инвестиции в тях.
7 спринт 3 седмици
Анализ на бизнес показатели
Научете какви са показателите в бизнеса. Научете се да използвате инструменти за анализ на данни в бизнеса: кохортен анализ, фуния на продажбите и икономика на единиците.
• Метрики и фунии. Преобразуване. Фунии. Маркетингова фуния. Впечатления. Щраквания. CTR. Продуктова фуния.
• Кохортен анализ. Потребителски профил. процент на задържане. Скорост на оттегляне. Хоризонт за анализ. Визуализация на кохортен анализ. Анализ на задържането на случайни кохорти. Конверсия в кохортен анализ. Изчисляване на показатели в Python.
• Икономика на единица. Метрики LTV, CAC, ROI. ARPU, ARPPU. Изчисляване на показатели в Python. Разширена визуализация на показателите. Параметър Sharey. Пълзяща средна.
• Персонализирани показатели. Оценка на потребителската активност. Потребителска сесия. Изследване на аномалии.
Метрики Фунии Преобразуване Икономика на единица Кохортен анализ Продуктови показатели Маркетингови показатели
Проект
Въз основа на данните разберете поведението на потребителите, както и анализирайте рентабилността на клиентите и възвръщаемостта на инвестициите в рекламата, за да направите препоръки за маркетинговия отдел.
8 спринт 2 седмици
Разширен SQL
Ще вземете допълнителен курс за работа с бази данни и ще се доближите още повече до бизнеса. С помощта на езика SQL ще анализирате изчислението на основните бизнес показатели, с които се запознахте в спринта „Анализ на бизнес показатели“. Помислете за работа със сложен инструмент като прозоречните функции. Научете се да променяте съдържанието на базите данни локално, без симулатор, като използвате специални клиентски програми и библиотеки за Python.
• Изчисляване на бизнес показатели. Схема на данните. Преобразуване. LTV. ARPU. ARPPU. ROI. Изчисляване чрез SQL.
• Агрегиране на прозоречни функции. НАД изражението. ДЯЛЕНИЕ ПО параметър на прозореца.
• Функции за класиране на прозорци. Функции за класиране. Прозорец ORDER BY оператор. ROW_NUMBER(). РАНГ(). DENSE_RANK(). NTILE(). Прозоречни оператори заедно с функции за класиране.
• Функции за отместване на прозореца. Кумулативни стойности. Офсетни функции. ВОДЯ(). ЗАКЪСНЕНИЕ(). Функции на прозореца и псевдоними.
• Кохортен анализ. Степен на задържане, процент на оттегляне. LTV.
• Инсталиране и конфигуриране на базата данни и клиента на базата данни. Клиент за база данни. Инсталиране на PostgreSQL. Инсталиране на DBeaver. DBeaver интерфейс. Създаване на база данни. Разполагане на дъмп на база данни. Качване на резултатите от заявката. Представяне на резултатите от заявката.
SQLDBMSMetricsPostgreSQLDatabasesSQL заявки Функции на прозорциКохортен анализ
Проект
Използвайки Python и SQL, свържете се с база данни, изчислете и визуализирайте ключови показатели в система за обслужване на въпроси и отговори за програмиране.
9 спринт 2 седмици
Вземане на решения в бизнеса
Ще научите какво е A/B тестване и ще разберете в какви случаи се използва. Научете се да проектирате A/B тестване и да оценявате резултатите от него.
• Основи на тестването на хипотези в бизнеса. Водещи показатели. Основи на експерименти. Генериране на хипотези. Приоритетизиране на показателите. Избор на метод за провеждане на експеримент. Качествени методи за проверка на хипотези. Количествени методи за проверка на хипотези. Предимства и недостатъци на A/B тестовете.
• Приоритизиране на хипотезите. RICE рамка. Параметър за достигане. Параметър на въздействието. Параметър за доверие. Параметър на усилията.
• Подготовка за провеждане на A/B тест. A/A тест. Грешки тип I и II. Сила на статистическия тест. Значение на статистическия тест. Множество сравнения, методи за намаляване на вероятността от грешка. Изчисляване на размера на извадката и продължителността на A/B тест. Графичен анализ на метрики.
• Анализ на резултатите от A/B тестове. Проверка на хипотезата за равенство на дяловете. Тест на Shapiro-Wilk за проверка на нормалността на данните. Непараметрични статистически тестове. Тест на Ман-Уитни. Стабилност на кумулативните показатели. Анализ на отклонения и изблици.
• Поведенчески алгоритми. Факти, емоции, оценки. Обяснете своята гледна точка.
A/B тестване Приоритизиране на хипотези Подготовка за A/B тестване Анализ на резултатите от A/B тестване Анализ на резултатите от A/B тестване
Проект
Анализирайте резултатите от A/B тестване в голям онлайн магазин.
10 спринт 1 седмица
Финален проект на втория модул
Научете се да тествате статистически хипотези с помощта на A/B тестване и да подготвяте заключения и препоръки във формат на аналитичен доклад.
Фуния за продажби A/B тестване Обработка на данни Анализ на данни от изследвания
Проект
Разгледайте фунията на продажбите и анализирайте резултатите от A/B тестване в мобилното приложение.
11 спринт 2 седмици
Как да разкажем история с данни
Ще се научите как правилно да представяте резултатите от вашите изследвания с помощта на графики, най-важните фигури и тяхната правилна интерпретация. Запознайте се с библиотеките Seaborn и Plotly.
• На кого, как, какво и защо да кажа. Представяне на резултатите от изследването. Целевата аудитория на разказвача. Какво и защо да кажем на анализатора на данни.
• Seaborn Library. Библиотеката Seaborn като разширение на библиотеката Matplotlib. метод jointplot(). Цветови гами. Стилове на диаграми. Визуализация на разпределения.
• Сюжетна библиотека. Интерактивни графики. Линейна графика. Колонна диаграма. Кръгова диаграма. Диаграма на фунията.
• Визуализация на данни в геоаналитиката. Геоаналитика. Библиотека Фолиум. Показване на карта. Задаване на маркери с зададени координати. Създаване на точкови клъстери. Персонализирани икони за маркери. Хороплет.
• Подготвяне на презентация. Изводи въз основа на изследването. Сезонност и външни фактори. Абсолютни и относителни стойности. Парадоксът на Симпсън. Принципи на изграждане на презентации. Отчети в Jupyter Notebook.
PlotlyFoliumSeabornMatplotlibPresentationGeoanalytics Визуализация на данни
Проект
Подгответе пазарно проучване въз основа на отворени данни за заведения за обществено хранене в Москва, визуализирайте получените данни.
12 спринт 2 седмици
Изграждане на табла за управление в Tableau
В този спринт ще работите със системата Tableau BI. Научете се да се свързвате с данни и да ги променяте, да създавате различни видове графики, да сглобявате табла за управление и презентации.
• Основи на работа с Tableau. BI системи. Таблица. Създаване на документ. Запазване на документа. Публикуване на документа.
• Работа с източници на данни. Източници на данни. Обединяване на данни. Метод на връзката. Метод на присъединяване. Метод на смесване. Метод на съюза. Промяна на формата на таблицата.
• Типове данни. Основни типове данни. Измервания. Мерки. Работа с дата и час. Комплекти. Групи. Настроики. Промяна на формата на променливите. Имена на измерване на променливи, стойности на измерване, брой.
• Таблици и изчисления. Интерфейс за редактиране на листове. Пивотни таблици. Изчисляеми полета. LOD изрази.
• Филтри и сортиране. Мерки за сортиране. Сортиране на размери. Вложени сортове. Сортиране с помощта на параметър. Филтри.
• Визуализации. Контроли за визуализация. Топлинни карти. Кръгови диаграми. Колонни диаграми. Хистограми. Диаграми на обхвата. Точкова диаграма. Линейни графики. Комбинирани графики. Областни диаграми.
• Специални визуализации и подсказки. Карти. Карта на знаците. Балонна диаграма. Карта на дървото. Диаграми на кръгови изгледи. Булет диаграми. Диаграми на Гант. Измервайте имена и измервайте стойности във визуализации. Обратно инженерство. Подсказки. Подсказки с визуализации. Прагови стойности на графики. Аналитични инструменти в Custom.
• Презентации. Допълнителни опции. Изследване на типичните параметри. Създаване на презентация.
• Табла. Зареждане и подготовка на данни. Изготвяне на визуализации. Монтаж на таблото. Действия. Демонстрация на таблото. Публикуване на табло за управление.
TableauDashboardsBI-toolsBI-tools Визуализация на данни
Проект
Проучете историята на конференциите на TED и създайте табло за управление в Tableau въз основа на получените данни.
Допълнителен спринт
Основи на машинното обучение
Запознайте се с основите на машинното обучение и научете за основните задачи на машинното обучение в бизнеса.
PythonPandasSklearnМашинно обучение Задачи за машинно обучение Алгоритми за машинно обучение
Допълнителен спринт
Практикувайте Python
Ще вземете няколко лабораторни упражнения с допълнителни задачи на езика за програмиране Python. Ще научите също как да извличате данни от уеб ресурси.
Ти ще:
• в структурата на HTML страниците и работата на GET заявки,
• научете се да пишете прости регулярни изрази,
• запознайте се с API и JSON,
• правете няколко заявки към сайтове и събирайте данни.
JSONPythonREST API Уеб скрапинг
13 спринт 3 седмици
Проект за дипломиране
В последния проект потвърдете, че сте усвоили нова професия. Изяснете задачата на клиента и преминете през всички етапи на анализ на данните. Сега няма уроци и домашни - всичко е като на истинска работа.
Финалният спринт включва работа по проект, A/B тестване и SQL задачи, както и допълнителна задача. Проектът съдържа изложение на проблема, очаквания резултат, набор от данни и тяхното описание.
Задачата е свързана с една от петте бизнес области:
• банки,
• на дребно,
• игри,
• мобилни приложения,
• е-търговия.
Няма да има обичайно описание на стъпките в проекта. Вие сами ще ги преодолеете.
SQ LPython PandasTableau Табла за управление Postgre SQL Декомпозиция A/B тестване