Обобщени линейни модели - курс 3600 rub. от отворено образование, обучение 3 седмици, около 6 часа на седмица, дата 29 ноември 2023 г.
разни / / December 01, 2023
Едно от условията за приложимостта на конвенционалните линейни модели е независимостта на наблюденията едно от друго, въз основа на които се избира моделът. На практика обаче често има ситуации, при които дизайнът на събирането на материали е такъв, че нарушаването на това условие е неизбежно. Представете си, че сте решили да изградите модел, който описва връзката между резултатите от физическото възпитание и резултатите от IQ теста сред учениците. За да разрешите този проблем, направихте множество проби в няколко институции. Възможно ли е да се комбинират такива данни в един анализ, изграден по традиционната схема? Разбира се, че не. Студентите във всеки университет може да си приличат по някакъв начин. Дори характерът на връзката между изследваните количества може да е малко по-различен. Този тип данни, в които има вътрешногрупови корелации, трябва да се анализират с помощта на линейни смесени модели. Ще покажем, че някои предиктори трябва да бъдат включени в модела като така наречените „случайни фактори“. Ще научите, че случайните фактори могат да бъдат йерархично подчинени. Ще обсъдим как такива смесени модели могат да бъдат изградени за зависими променливи, които следват различни видове разпределения. Освен това ще покажем, че случайната част на модела може да бъде още по-сложна - тя може да има компонент, който моделира поведението на дисперсията в отговор на влиянието на ковариата. В края на курса ще намерите проект, в който можете да практикувате изграждането на смесени модели, като изберете един от няколко набора от данни. Въз основа на анализа на тези данни можете да създадете отчет в традицията на възпроизводими изследвания.
Доцент, Катедра по зоология на безгръбначните, Факултет по биология, Държавен университет в Санкт Петербург, доктор по философия
Научни интереси: структура и динамика на морски бентосни съобщества, пространствени мащаби, сукцесия, междувидови и вътревидови биотични взаимодействия, растеж и размножаване на морски безгръбначни, демографска структура на популациите, микроеволюция, биостатистика.
Курсът се състои от 4 модула:
1) Въведение в обобщените линейни модели
Обобщените линейни модели (GLM) ви позволяват да моделирате поведението на величини, които не следват нормално разпределение. За да улесним първите ви стъпки в света на GLM, ще анализираме тяхната структура, като използваме примера на GLM за нормално разпределени количества - по този начин можете да направите паралели с прости линейни модели. Ще научите какво е функция за връзка, как работи максималната вероятност и как да тествате хипотези на GLM с помощта на тестове на Wald и тестове за съотношение на вероятност.
2) Проблем с избора на модел
В този модул ще говорим за методологични въпроси, свързани с изграждането на модели. Моделът е опростено представяне на реалността и изборът между различни конкуриращи се методи за такова опростяване е честа задача за анализатора. В този модул ще се научите да сравнявате модели, като използвате информационни критерии. Ще обсъдим основните възможности за анализ при избора на модели и ще говорим за трудностите, възникващи във връзка със скритото множество модели. И накрая, ще ви научим да разпознавате основните типове злоупотреби с избор на модел (data-fishing, p-hacking).
3) Обобщени линейни модели за преброяване на данни
В този модул ще обсъдим основни методи за моделиране на изброими величини. Първо, ще обсъдим защо конвенционалните линейни модели не са подходящи за преброяване на данни. Свойствата на изброимите разпределения ще ви помогнат да разберете разликите между типовете GLM за изброими данни и характеристиките на тяхната диагностика. Ще видите функцията на връзката да работи, когато визуализирате прогнозите на GLM в мащаба на функцията на връзката и в мащаба на променливата на отговора.
4) Обобщени линейни модели с бинарен отговор
Понякога има нужда да се симулира дали дадено събитие се е случило или не, дали футболен отбор или загубен, независимо дали пациентът се е възстановил след лечението или не, дали клиентът се е ангажирал покупка или не. Конвенционалните линейни модели не са подходящи за моделиране на такива двоични данни (събития с два резултата), но това може лесно да се направи с помощта на обобщени линейни модели. В този модул ще се научите да моделирате вероятностите за възникване на събития, като ги представяте като шансове. Ще разгледаме как работи функцията logit link и как се интерпретират GLM коефициентите, когато се използва. И накрая, ще можете да практикувате анализиране на обобщени линейни модели с различни разпределения, като завършите проект за анализ на данни. Резултатите от този анализ ще трябва да бъдат представени като отчет в html формат, написан с помощта на rmarkdown/knitr.
• Научете какви умения са необходими, за да започнете в анализа и Data Science• Научете се да използвате Excel, SQL, Power BI, Google Data Studio за работа данни и напишете първия си код в Python• Вземете ръководство стъпка по стъпка и научете как да влезете в областта на науката за данните и да изберете роля в науката за данни
4,4
1 490 ₽