Multivariate Data Analyse

Verwerven van informatie en inzichten via de analyse van grote hoeveelheden data

DOELSTELLING

Multivariate analyse omvat een breed scala aan technieken om informatie uit grote hoeveelheden data te halen, maar bevat tegelijkertijd een even breed scala aan valkuilen. Inzicht krijgen in het belang van een multivariate aanpak, de drempel tot multivariate analyse verlagen en het effenen van het pad naar expertise-opbouw, zijn de belangrijkste doelstellingen van deze cursus. Aan het einde van de cursus kunnen deelnemers de juiste methode selecteren voor hun specifiek probleem, de gegevens analyseren en de resultaten correct interpreteren.

DOELPUBLIEK EN VOORKENNIS

Deze cursus is bedoeld voor wie in de dagelijkse praktijk te maken krijgt met grote hoeveelheden data, en voor wie het toepassen van multivariate methoden nieuw is. Ook voor hen die al wat praktijkervaring hebben met multivariate methoden, maar meer inzicht willen krijgen in de onderliggende methoden, zal deze cursus een eye-opener zijn. Statistische voorkennis is niet vereist. De cursus is op academisch niveau. De meeste voorbeelden komen uit de chemie, maar ook als u niet in die wereld werkzaam bent zal u deze cursus waarderen.

CURSUSOPZET

De structuur van de cursus komt overeen met de (aanbevolen) gestructureerde aanpak bij het analyseren van grote hoeveelheden data; plotten van de data, zoeken naar correlaties, outliers, …. en daarna pas starten met het ontwikkelen van regressie- en/of classificatiemodellen. De theorie wordt afgewisseld met hands-on oefeningen op real-life cases.

CURSUSINHOUD

Exploratieve multivariate analyse

  • Visualisatie van grote datasets
  • Principale Componenten Analyse (PCA)
  • Cluster analyse: zoeken naar groepen van gelijkaardige samples

Kwantitatieve analyse: Op zoek naar oorzaak-effect relaties

  • Multipele Lineaire Regressie (MLR) met niet-gecorreleerde variabelen
  • Multipele Lineaire Regressie (MLR) met sterk gecorreleerde variabelen
  • Stapsgewijze regressie
    Het collineariteit probleem
  • Een overzicht van de valkuilen
    Principale Componenten Regressie (PCR)
  • Partial Least Squares (PLS)
  • Interpretatie van PCR en PLS modellen
  • Validatie van regressiemodellen
    Detectie van outliers en niet-lineariteiten
  • Predictie met behulp van regressiemodellen
  • Enkele alternatieven
  • Feasibility study: heeft een kwantitatieve studie zin?

Classificatie (“supervised pattern recognition”): voorspellen tot welke groep nieuwe samples behoren

  • Lineaire Discriminant Analyse (LDA)
  • PLS-DA

Bespreking van specifieke toepassingen:

  • QSAR / QSPR (Quantitative Structure Activity / Property Relations)
  • Multivariate SPC (M-SPC)
  • Principal Properties Design

Inhoudstafel

Meer informatie over deze training