- La statistique exploratoire qui décrit et structure les données (analyse en composantes principales - ACP)
- La statistique inférentielle qui permet d’expliquer les variations des données
Définition
On peut identifier 2 démarches statistiques pour analyser et observer ces données:
L'approche descriptive: permet de synthétiser et de structurer l’information afin de mettre en évidence des propriétés de l’échantillon et de suggérer des hypothèses.
En fonction du type de variables (quantitatives ou qualitatives), on n'utilise pas les mêmes méthodes de modélisation des données :
- Régression pour les variables quantitatives (ML, GLM, modèle non linéaire GAM)
- Méthode par discrimination : Analyse discriminante factorielle (ADF) ou CART (arbre de décision)
En plus du type de variables, l’objectif de la méthode est le second facteur de choix de la méthode de représentation: est-ce qu’on cherche à décrire, structurer, expliquer ou prédire ?
- Pour décrire les données, on utilise des méthodes factorielles telles que l'ACP, l'AFP ou l'ACM qui ordonnent un tableau, ou l'Analyse de Co-inertie qui couple des ordinations, représentation de la co-structure de deux tableaux.
- Pour structurer les données, on utilise des méthodes de classification, on cherche à définir des groupes, une typologie avec des méthodes telles que le K-means ou la classification hiérarchique.
- Pour prédire/expliquer les données, on utilise des méthodes de modélisation qui sont différentes en fonction du type de données :
- s'il y a 1 Y quantitatif, alors on utilise les méthodes de régression ANOVA, GLM ou modèle non linéaire (GAM) ou CART.
- si il y a 1 Y sont qualitatif alors on utilise les méthodes de discrimination comme l'AFD ou le CART.
- si il y a plusieurs Y quelques soit le types de variables on utilise l'analyse canonique des correspondances.

A retenir :
Sur un même jeu de données, différentes analyses sont possibles, il est donc nécessaire de connaître les objectifs des méthodes et l'importance fondamentale de la question abordée.
Il est aussi nécessaire de maîtriser la procédure des méthodes : distance utilisée, transformation des variables, pondération, critères d’optimisation.
des variables, pondération, critères d’optimisation.