À quoi ressemblent vraiment 30 000 fiches vins mal rangées

Vous connaissez l'histoire : un catalogue de vins construit au fil des années par des dizaines de fournisseurs, et plus personne ne fait confiance aux chiffres. Mais à quoi ressemble le désordre concrètement quand on ouvre le tableur ?

Voici un échantillon d'un vrai lot d'import. Cinq entrées, censées être cinq vins différents :

Type	Nom	Domaine	Région	Millésime
Vin Effervescent	Prestige Initiale Grand Cru	François Girard	Champagne	2010
Vin Effervescent	Prestige Initiale	Domaine François Girard	Champagne	2010
Vin Rosé	Odyssée Archiver	Jean & Matthieu Compeyrot	Côtes De Provence	2022
Vin Rosé	Odyssée Archiver	Jean & Matthieu Compeyrot	Côtes De Provence	2022
Vin Effervescent	Flamboyante	Juliette Pétret	Champagne	—

Cinq entrées. Trois vins réels. Ce schéma se répétait des milliers de fois dans le catalogue.

Pourquoi la déduplication traditionnelle échoue sur les données viticoles

La correspondance exacte de chaînes détecte les lignes 3 et 4 — elles sont identiques. Mais elle rate complètement les lignes 1 et 2, qui sont le même vin exprimé différemment.

Les différences sont subtiles et spécifiques au domaine :

"Prestige Initiale Grand Cru" vs "Prestige Initiale" — La première inclut la classification du vignoble. Les deux désignent la même cuvée. Une correspondance de chaînes voit 0% de similarité. Un sommelier voit la même bouteille.

"François Girard" vs "Domaine François Girard" — Un fournisseur inclut "Domaine", l'autre non. Pratique courante dans le vin français. Cela casse complètement la correspondance exacte.

Le matching flou se rapproche, mais crée des faux positifs. "Réserve Blanc De Blancs Grand Cru" de François Girard n'est pas le même vin que "Prestige Initiale Grand Cru" de François Girard — même s'ils partagent un domaine et des termes de classification. Un score de similarité les signalerait. Ils ne devraient pas l'être.

Les données viticoles nécessitent quelque chose qui comprend le contexte, pas seulement les caractères.

Trois scénarios tirés du vrai nettoyage

Scénario 1 : Quasi-doublon — détecté par le contexte, pas par les chaînes

	Entrée dans le catalogue	Correspondance existante
Nom	Prestige Initiale Grand Cru	Prestige Initiale
Domaine	François Girard	Domaine François Girard
Région	Champagne	Champagne
Millésime	2010	2010
Type	Vin Effervescent	Vin Effervescent
Correspondance	91%
Décision	Doublon — fusionné

Le nom de cuvée inclut une classification supplémentaire ("Grand Cru") et le préfixe du domaine diffère ("Domaine"). Mais le producteur, la région et le millésime confirment qu'il s'agit du même vin.

C'est celui qui fait le plus mal. Sans détection contextuelle, il reste dans votre catalogue pour toujours — créant des stocks fantômes, des conflits de prix et des clients confus.

Scénario 2 : Doublon exact — caché en pleine vue

	Entrée dans le catalogue	Correspondance existante
Nom	Odyssée Archiver	Odyssée Archiver
Domaine	Jean & Matthieu Compeyrot	Jean & Matthieu Compeyrot
Région	Côtes De Provence	Côtes De Provence
Millésime	2022	2022
Type	Vin Rosé	Vin Rosé
Correspondance	100%
Décision	Doublon — supprimé

Entrée identique provenant d'une source d'import différente. Le cas facile — sauf quand vous avez 30 000 entrées et des milliers de ces doublons cachés dans des années d'imports de différents fournisseurs. Personne ne les détecte manuellement parce que personne ne regarde le catalogue entier en une fois.

Scénario 3 : Entrée unique — confirmée, pas simplement supposée

	Entrée dans le catalogue	Correspondance 1	Correspondance 2	Correspondance 3
Nom	Flamboyante	745	Brut Nature Fleur De L'europe	Réserve Blanc De Blancs Grand Cru
Domaine	Juliette Pétret	Jacquesson	Fleury	François Girard
Région	Champagne	Champagne	Champagne	Champagne
Correspondance	Aucune correspondance trouvée
Décision	Unique — ajouté au catalogue

Les quatre sont des Champagnes. Un système naïf hésiterait. La classification contextuelle comprend qu'une appellation partagée seule ne fait pas un doublon. Producteur différent, cuvée différente — confirmé comme nouvelle entrée.

Ce dont personne ne parle : l'auditabilité

Nettoyer les données, c'est une chose. Faire confiance au nettoyage, c'en est une autre.

Chaque décision dans le pipeline — doublon, quasi-doublon ou unique — est accompagnée d'une explication : à quoi l'entrée a été comparée, pourquoi la décision a été prise, et quel était le niveau de confiance. L'équipe peut examiner n'importe quelle classification, la corriger si nécessaire, et savoir exactement pourquoi une entrée donnée a été conservée ou supprimée.

C'est la différence entre un outil de nettoyage boîte noire et quelque chose qu'une équipe adopte réellement. L'IA propose. Les humains approuvent.

Ce n'est pas qu'un problème de vin

Les schémas — nommage incohérent, abréviations de fournisseurs, entrées dupliquées provenant de sources multiples, formats variants entre les lots d'import — existent dans toute industrie avec des catalogues produits complexes.

Les distributeurs de spiritueux font face au même problème. Tout comme les agrégateurs de cosmétiques gérant des variantes de teintes sur 500 marques. Les catalogues de pièces automobiles où une seule pièce porte douze noms. Les importateurs de produits alimentaires spécialisés avec des données d'origine, de grade et de certification qui ne correspondent jamais entre fournisseurs.

Le vocabulaire du domaine change. Le problème de données est identique.

Ceci est le deuxième article de notre série sur les données de catalogues viticoles. Lisez le premier : Comment nous avons aidé un ERP viticole à ne plus perdre ses week-ends au nettoyage de données.

Reflekt Lab construit des outils de nettoyage de données alimentés par l'IA pour les catalogues produits. Basés à Bordeaux. Discutons.