Partielo | Create your study note online quickly
Post-Bac
1

Introduction aux analyses multivariées (CM1)

Analyse de données multivariées

Définition

Analyse multivariée
C'est un ensemble de méthodes utilisés quand il y a plusieurs variables que l’on peut mettre sous forme de matrice avec les individus statistique en ligne et les variables en colonne

On peut identifier 2 démarches statistiques pour analyser et observer ces données:

  • La statistique exploratoire qui décrit et structure les données (analyse en composantes principales - ACP)
  • La statistique inférentielle qui permet d’expliquer les variations des données

L'approche descriptive: permet de synthétiser et de structurer l’information afin de mettre en évidence des propriétés de l’échantillon et de suggérer des hypothèses.

En fonction du type de variables (quantitatives ou qualitatives), on n'utilise pas les mêmes méthodes de modélisation des données :

  • Régression pour les variables quantitatives (ML, GLM, modèle non linéaire GAM)
  • Méthode par discrimination : Analyse discriminante factorielle (ADF) ou CART (arbre de décision)

En plus du type de variables, l’objectif de la méthode est le second facteur de choix de la méthode de représentation: est-ce qu’on cherche à décrire, structurer, expliquer ou prédire ?

  • Pour décrire les données, on utilise des méthodes factorielles telles que l'ACP, l'AFP ou l'ACM qui ordonnent un tableau, ou l'Analyse de Co-inertie qui couple des ordinations, représentation de la co-structure de deux tableaux.
  • Pour structurer les données, on utilise des méthodes de classification, on cherche à définir des groupes, une typologie avec des méthodes telles que le K-means ou la classification hiérarchique.
  • Pour prédire/expliquer les données, on utilise des méthodes de modélisation qui sont différentes en fonction du type de données :
  • s'il y a 1 Y quantitatif, alors on utilise les méthodes de régression ANOVA, GLM ou modèle non linéaire (GAM) ou CART.
  • si il y a 1 Y sont qualitatif alors on utilise les méthodes de discrimination comme l'AFD ou le CART.
  • si il y a plusieurs Y quelques soit le types de variables on utilise l'analyse canonique des correspondances.

A retenir :

Sur un même jeu de données, différentes analyses sont possibles, il est donc nécessaire de connaître les objectifs des méthodes et l'importance fondamentale de la question abordée.

Il est aussi nécessaire de maîtriser la procédure des méthodes : distance utilisée, transformation des variables, pondération, critères d’optimisation.

des variables, pondération, critères d’optimisation.

Post-Bac
1

Introduction aux analyses multivariées (CM1)

Analyse de données multivariées

Définition

Analyse multivariée
C'est un ensemble de méthodes utilisés quand il y a plusieurs variables que l’on peut mettre sous forme de matrice avec les individus statistique en ligne et les variables en colonne

On peut identifier 2 démarches statistiques pour analyser et observer ces données:

  • La statistique exploratoire qui décrit et structure les données (analyse en composantes principales - ACP)
  • La statistique inférentielle qui permet d’expliquer les variations des données

L'approche descriptive: permet de synthétiser et de structurer l’information afin de mettre en évidence des propriétés de l’échantillon et de suggérer des hypothèses.

En fonction du type de variables (quantitatives ou qualitatives), on n'utilise pas les mêmes méthodes de modélisation des données :

  • Régression pour les variables quantitatives (ML, GLM, modèle non linéaire GAM)
  • Méthode par discrimination : Analyse discriminante factorielle (ADF) ou CART (arbre de décision)

En plus du type de variables, l’objectif de la méthode est le second facteur de choix de la méthode de représentation: est-ce qu’on cherche à décrire, structurer, expliquer ou prédire ?

  • Pour décrire les données, on utilise des méthodes factorielles telles que l'ACP, l'AFP ou l'ACM qui ordonnent un tableau, ou l'Analyse de Co-inertie qui couple des ordinations, représentation de la co-structure de deux tableaux.
  • Pour structurer les données, on utilise des méthodes de classification, on cherche à définir des groupes, une typologie avec des méthodes telles que le K-means ou la classification hiérarchique.
  • Pour prédire/expliquer les données, on utilise des méthodes de modélisation qui sont différentes en fonction du type de données :
  • s'il y a 1 Y quantitatif, alors on utilise les méthodes de régression ANOVA, GLM ou modèle non linéaire (GAM) ou CART.
  • si il y a 1 Y sont qualitatif alors on utilise les méthodes de discrimination comme l'AFD ou le CART.
  • si il y a plusieurs Y quelques soit le types de variables on utilise l'analyse canonique des correspondances.

A retenir :

Sur un même jeu de données, différentes analyses sont possibles, il est donc nécessaire de connaître les objectifs des méthodes et l'importance fondamentale de la question abordée.

Il est aussi nécessaire de maîtriser la procédure des méthodes : distance utilisée, transformation des variables, pondération, critères d’optimisation.

des variables, pondération, critères d’optimisation.

Back

Actions

Actions