Données - Joaquin Fernandez

À quoi sert cette page

Cette page fixe un point de départ simple : une donnée n’est pas un fait “pur”.

Une donnée est un résultat d’observation, produit par un dispositif, dans un contexte, pour une intention.

Si vous oubliez cela, vous analysez mal :

ce qui est réellement observé,
ce qui a été perdu ou transformé par la mesure,
ce que les résultats permettent, ou non, d’inférer.

Définition

Dans ce site, une donnée désigne :

un élément enregistré à partir d’une opération d’observation, selon des règles explicites ou implicites (catégories, instruments, seuils, conventions).

Une donnée est donc toujours :

sélectionnée (tout n’est pas observé),
formatée (on découpe le réel en variables, catégories, unités),
située (moment, lieu, population, contexte),
interprétable seulement sous conditions (validité, biais, erreurs).

Donnée, fait, information, connaissance

Pour éviter les confusions, voici une distinction utile.

Donnée : ce qui est enregistré (mesure, réponse, trace, comptage).
Fait : une proposition stabilisée sur le réel, appuyée sur des données et des règles d’inférence.
Repère : ce qui oriente ou modifie le cadrage d’une situation (sur ce site, c’est le rôle de la page Repères).
Connaissance : ce qui tient dans le temps et dans des contextes comparables, avec conditions et limites explicites.

Une accumulation de données peut coexister avec une compréhension faible, si les conditions de production et de traitement ne sont pas clarifiées.

Une donnée suppose une intention

On ne “prend” pas des données comme on ramasse des cailloux. On les produit.

Toute production de données implique au minimum :

Une intention : qu’essaie-t-on d’éclairer, quel problème est posé, à quelles décisions cela se rattache?
Un dispositif : comment observe-t-on, avec quels outils, quelles unités, quel protocole (desk, field, capteurs, logs, entretiens, questionnaires…) ?
Un cadre de variables : quelles propriétés observe-t-on, comment les nomme-t-on, comment les code-t-on ?
Un modèle implicite ou explicite : qu’est-ce qu’on suppose sur le phénomène (causalité, structure, mécanisme, temporalité) ?
Des contraintes de calcul : ce que les méthodes et algorithmes permettent réellement, et ce qu’ils interdisent.

Types de variables et conséquences analytiques

Le type de variable n’est pas un détail technique, il détermine ce que vous pouvez faire.

1. Nominale : catégories sans ordre (ex. canal, statut, type de client).

→ comparaisons par fréquences, croisements, associations.

2. Ordinale : catégories ordonnées (ex. satisfaction 1–5).

→ prudence sur les écarts, analyses adaptées (rang, médianes, non paramétriques).

3. Discrète : comptages (ex. nombre d’achats).

→ distribution souvent asymétrique, zéros fréquents, modèles spécifiques.

4. Continue : mesures (ex. temps, montant).

→ traitements sensibles aux extrêmes, aux unités, à la transformation (log, normalisation).

Si vous traitez une variable comme si elle était d’un autre type, vous fabriquez des artefacts “significatifs” qui ne disent rien.

La qualité d’une donnée ne se résume pas à “fiable / pas fiable”

Une donnée est jugée sur des critères concrets :

Validité : mesure-t-on bien ce qu’on prétend mesurer ?
Fidélité : obtiendrait-on la même mesure dans des conditions comparables ?
Couverture : qui et quoi est inclus, exclu, sous-représenté ?
Granularité : l’échelle est-elle trop grossière ou trop fine pour l’usage ?
Traçabilité : sait-on d’où ça vient, comment ça a été produit, transformé, agrégé ?
Comparabilité : peut-on comparer dans le temps, entre segments, entre contextes ?

Piège fréquent : confondre trace et comportement

Une trace n’est pas automatiquement un comportement. Exemples :

un clic n’est pas une intention,
une visite n’est pas un intérêt,
un achat n’est pas une satisfaction,
un abandon n’est pas un rejet (il peut être contextuel : temps, friction, contrainte).

Sans cadrage (Perception), sans repères (Repères), et sans contexte (Contexte), la donnée reste ambiguë.

Exemple

Une entreprise dit : « Nos clients ne s’engagent plus ».

Les “données” disponibles : taux d’ouverture, clics, visites, temps passé, achats.

Avant d’interpréter, il faut expliciter :

ce que ces mesures capturent réellement (ex. ouverture dépend du tracking, des clients mail, des protections),
ce qu’elles ignorent (ex. lecture sans chargement d’images, partage, lecture hors ligne),
ce qui a changé dans le dispositif (nouvel outil, nouvelle définition d’un clic, changement de canal),
le contexte (saisonnalité, offre, concurrence, contrainte budgétaire, changement de segment).

Sinon, on produit une “explication” qui est en fait un effet de mesure.

Comment utiliser cette page

Quand vous voyez des données dans une analyse, posez cinq questions simples :

Quelle intention guidait la production de ces données ?
Quel dispositif les a produites, avec quelles conventions ?
Quel est le type de variables et quelles opérations sont légitimes ?
Quelles sont les limites de validité (couverture, biais, erreurs) ?
Qu’est-ce qui changerait si le dispositif ou le contexte changeait ?

Si ces points sont explicités, la discussion devient contrôlable.

Pages liées