À quoi ressemblent vraiment 30 000 fiches vins mal rangées
Nous avions raconté comment nous avons aidé un ERP viticole à ne plus perdre ses week-ends au nettoyage de données. Cet article va plus loin — dans les données elles-mêmes.
Feb 24, 2026
Vous connaissez l'histoire : un catalogue de vins construit au fil des années par des dizaines de fournisseurs, et plus personne ne fait confiance aux chiffres. Mais à quoi ressemble le désordre concrètement quand on ouvre le tableur ?
Voici un échantillon d'un vrai lot d'import. Cinq entrées, censées être cinq vins différents :
| Type | Nom | Domaine | Région | Millésime |
|---|---|---|---|---|
| Vin Effervescent | Prestige Initiale Grand Cru | François Girard | Champagne | 2010 |
| Vin Effervescent | Prestige Initiale | Domaine François Girard | Champagne | 2010 |
| Vin Rosé | Odyssée Archiver | Jean & Matthieu Compeyrot | Côtes De Provence | 2022 |
| Vin Rosé | Odyssée Archiver | Jean & Matthieu Compeyrot | Côtes De Provence | 2022 |
| Vin Effervescent | Flamboyante | Juliette Pétret | Champagne | — |
Cinq entrées. Trois vins réels. Ce schéma se répétait des milliers de fois dans le catalogue.
Pourquoi la déduplication traditionnelle échoue sur les données viticoles
La correspondance exacte de chaînes détecte les lignes 3 et 4 — elles sont identiques. Mais elle rate complètement les lignes 1 et 2, qui sont le même vin exprimé différemment.
Les différences sont subtiles et spécifiques au domaine :
"Prestige Initiale Grand Cru" vs "Prestige Initiale" — La première inclut la classification du vignoble. Les deux désignent la même cuvée. Une correspondance de chaînes voit 0% de similarité. Un sommelier voit la même bouteille.
"François Girard" vs "Domaine François Girard" — Un fournisseur inclut "Domaine", l'autre non. Pratique courante dans le vin français. Cela casse complètement la correspondance exacte.
Le matching flou se rapproche, mais crée des faux positifs. "Réserve Blanc De Blancs Grand Cru" de François Girard n'est pas le même vin que "Prestige Initiale Grand Cru" de François Girard — même s'ils partagent un domaine et des termes de classification. Un score de similarité les signalerait. Ils ne devraient pas l'être.
Les données viticoles nécessitent quelque chose qui comprend le contexte, pas seulement les caractères.
Trois scénarios tirés du vrai nettoyage
Scénario 1 : Quasi-doublon — détecté par le contexte, pas par les chaînes
| Entrée dans le catalogue | Correspondance existante | |
|---|---|---|
| Nom | Prestige Initiale Grand Cru | Prestige Initiale |
| Domaine | François Girard | Domaine François Girard |
| Région | Champagne | Champagne |
| Millésime | 2010 | 2010 |
| Type | Vin Effervescent | Vin Effervescent |
| Correspondance | 91% | |
| Décision | Doublon — fusionné | |
Le nom de cuvée inclut une classification supplémentaire ("Grand Cru") et le préfixe du domaine diffère ("Domaine"). Mais le producteur, la région et le millésime confirment qu'il s'agit du même vin.
C'est celui qui fait le plus mal. Sans détection contextuelle, il reste dans votre catalogue pour toujours — créant des stocks fantômes, des conflits de prix et des clients confus.
Scénario 2 : Doublon exact — caché en pleine vue
| Entrée dans le catalogue | Correspondance existante | |
|---|---|---|
| Nom | Odyssée Archiver | Odyssée Archiver |
| Domaine | Jean & Matthieu Compeyrot | Jean & Matthieu Compeyrot |
| Région | Côtes De Provence | Côtes De Provence |
| Millésime | 2022 | 2022 |
| Type | Vin Rosé | Vin Rosé |
| Correspondance | 100% | |
| Décision | Doublon — supprimé | |
Entrée identique provenant d'une source d'import différente. Le cas facile — sauf quand vous avez 30 000 entrées et des milliers de ces doublons cachés dans des années d'imports de différents fournisseurs. Personne ne les détecte manuellement parce que personne ne regarde le catalogue entier en une fois.
Scénario 3 : Entrée unique — confirmée, pas simplement supposée
| Entrée dans le catalogue | Correspondance 1 | Correspondance 2 | Correspondance 3 | |
|---|---|---|---|---|
| Nom | Flamboyante | 745 | Brut Nature Fleur De L'europe | Réserve Blanc De Blancs Grand Cru |
| Domaine | Juliette Pétret | Jacquesson | Fleury | François Girard |
| Région | Champagne | Champagne | Champagne | Champagne |
| Correspondance | Aucune correspondance trouvée | |||
| Décision | Unique — ajouté au catalogue | |||
Les quatre sont des Champagnes. Un système naïf hésiterait. La classification contextuelle comprend qu'une appellation partagée seule ne fait pas un doublon. Producteur différent, cuvée différente — confirmé comme nouvelle entrée.
Ce dont personne ne parle : l'auditabilité
Nettoyer les données, c'est une chose. Faire confiance au nettoyage, c'en est une autre.
Chaque décision dans le pipeline — doublon, quasi-doublon ou unique — est accompagnée d'une explication : à quoi l'entrée a été comparée, pourquoi la décision a été prise, et quel était le niveau de confiance. L'équipe peut examiner n'importe quelle classification, la corriger si nécessaire, et savoir exactement pourquoi une entrée donnée a été conservée ou supprimée.
C'est la différence entre un outil de nettoyage boîte noire et quelque chose qu'une équipe adopte réellement. L'IA propose. Les humains approuvent.
Ce n'est pas qu'un problème de vin
Les schémas — nommage incohérent, abréviations de fournisseurs, entrées dupliquées provenant de sources multiples, formats variants entre les lots d'import — existent dans toute industrie avec des catalogues produits complexes.
Les distributeurs de spiritueux font face au même problème. Tout comme les agrégateurs de cosmétiques gérant des variantes de teintes sur 500 marques. Les catalogues de pièces automobiles où une seule pièce porte douze noms. Les importateurs de produits alimentaires spécialisés avec des données d'origine, de grade et de certification qui ne correspondent jamais entre fournisseurs.
Le vocabulaire du domaine change. Le problème de données est identique.
Ceci est le deuxième article de notre série sur les données de catalogues viticoles. Lisez le premier : Comment nous avons aidé un ERP viticole à ne plus perdre ses week-ends au nettoyage de données.
Reflekt Lab construit des outils de nettoyage de données alimentés par l'IA pour les catalogues produits. Basés à Bordeaux. Discutons.