Comment fusionner et compter les enregistrements de plusieurs fichiers CSV

Points clés à retenir :

  • Compter des enregistrements à travers de nombreux fichiers CSV n'est pas une simple affaire de calcul ; cela nécessite une liste de référence, une règle de correspondance claire et un moyen de savoir de quel CSV provient chaque donnée.
  • Une méthodologie fiable consiste à combiner chaque export dans un tableau unique traçable avant de synthétiser les données, afin que chaque compte puisse être vérifié à la source et examiné pour détecter les doublons ou les oublis.
  • RowSpeak peut gérer des flux de travail CSV multi-fichiers (plus de 30 fichiers simultanés), puis fusionner, compter, signaler les données manquantes et générer un rapport de synthèse à partir d'instructions en langage naturel.

Lorsque chaque système, requête, campagne ou période de rapport génère son propre export CSV, la difficulté ne réside pas dans le comptage lui-même.

Le plus dur est de combiner les fichiers sans perdre le sens profond des données.

Cet article s'inspire d'une question réelle posée sur Super User concernant la fusion et le comptage d'entrées provenant de différents fichiers CSV. L'utilisateur disposait d'un CSV de référence contenant des adresses e-mail, ainsi que de plus de 50 fichiers de requêtes. Chaque fichier de requête contenait les adresses e-mail ayant répondu à cette requête spécifique. L'objectif était d'obtenir une liste maîtresse où chaque e-mail était associé à un compteur indiquant le nombre de requêtes auxquelles il avait répondu.

C'est un problème de tableur très courant. Il survient dès qu'une équipe exporte un CSV par sondage, campagne, produit, fournisseur ou période de reporting.

Certains utilisateurs apparaissent dans chaque export, d'autres seulement dans quelques-uns. Certains fichiers peuvent avoir des en-têtes différents, des doublons peuvent s'y glisser, et certains utilisateurs attendus peuvent ne jamais apparaître. La question semble simple, mais le processus est souvent laborieux.

Un résultat utile n'est pas juste un chiffre. C'est un rapport de synthèse qui montre quels enregistrements correspondent, leur fréquence d'apparition, les fichiers où ils manquent et les lignes nécessitant une révision.

Le même problème se pose avec des listes de réponses (RSVP) mal formatées : un fichier peut utiliser Oui, un autre O, et un autre X. Pour un reporting fiable, ces variations doivent être standardisées avant que le comptage ne soit considéré comme valide.

Données de réponse désordonnées avec des valeurs incohérentes avant le comptage

Commencer par la structure exacte des sources

Pour ce type de problème, il existe deux types de fichiers :

type de fichier exemples de colonnes objectif
liste d'utilisateurs maîtresse email la liste complète des utilisateurs devant figurer dans le résultat final
fichiers de réponses aux requêtes email, reply un fichier par requête, contenant les utilisateurs ayant répondu

Le résultat le plus sûr ne se limite pas à l' email et au reply_count. Un bon rapport inclut généralement :

  • l'e-mail
  • le nombre de fichiers de requêtes où cet e-mail a répondu
  • la liste des fichiers sources où l'e-mail est apparu
  • la liste des fichiers attendus où l'e-mail était absent
  • un indicateur de doublon
  • une note de révision

Cette structure répond à la question réelle tout en rendant le résultat auditable.

Définir la règle de comptage avant la fusion

Avant de fusionner quoi que ce soit, définissez ce que signifie le "compte".

Voulez-vous compter :

  • le nombre total de réponses par utilisateur sur tous les fichiers ?
  • le nombre de fichiers dans lesquels chaque utilisateur apparaît ?
  • les réponses par groupe de requêtes ?
  • les utilisateurs uniques par export ?
  • les réponses dans une plage de dates précise ?

Ce sont tous des rapports différents.

Si la règle de comptage est floue, vous risquez d'obtenir un tableau qui semble correct mais qui répond à la mauvaise question.

Par exemple, si le même e-mail apparaît deux fois dans query_07.csv, cela doit-il compter comme une seule réponse à la requête ou comme deux lignes de réponse ? Généralement, la règle métier est d'un compte par utilisateur et par fichier. Cela signifie que les doublons à l'intérieur d'un même fichier doivent être signalés plutôt que comptés aveuglément deux fois.

Rédigez cette règle en langage clair avant de construire votre classeur.

Inventorier d'abord les exports CSV

Considérez chaque fichier comme une source qui peut ne pas correspondre parfaitement aux autres.

Pour chaque CSV, notez :

  • le nom de la source ou de la requête
  • la plage de dates
  • le nombre de lignes
  • le champ d'identification de l'utilisateur
  • le champ de réponse
  • les filtres spécifiques au fichier
  • les colonnes manquantes
  • les enregistrements en double
  • les incohérences de nommage

Cette étape révèle souvent le vrai problème. Certains fichiers peuvent utiliser un nom d'utilisateur tandis que d'autres utilisent un ID. Certains peuvent avoir une ligne par réponse, d'autres une ligne par utilisateur avec un champ de comptage.

Si les champs ne sont pas alignés, la logique de comptage échouera.

Normaliser l'identité des utilisateurs avant de compter

Les noms d'utilisateurs ne sont pas des identifiants stables.

Si possible, comptez via un ID unique plutôt que par le nom d'affichage. Si seuls les noms sont disponibles, créez une table de correspondance qui normalise :

  • la casse (majuscules/minuscules)
  • les espaces
  • la ponctuation
  • les alias
  • les variantes d'orthographe
  • les préfixes ou suffixes manquants

C'est crucial lorsqu'un utilisateur apparaît dans de nombreux fichiers CSV. Un nom incohérent peut diviser une seule personne en deux comptes distincts.

Si aucun ID stable n'existe, précisez-le dans le rapport. Le compte peut rester utile, mais il sera moins certain.

C'est ici qu'un flux de travail de reporting par IA devient pertinent si le résultat final doit être révisé et partagé plutôt que de rester un simple tableur brut.

Construire un tableau combiné avant de synthétiser

Ne passez pas directement aux totaux.

Combinez d'abord les fichiers dans un seul tableau de travail avec des colonnes telles que :

  • fichier source
  • ID utilisateur ou nom normalisé
  • nombre de réponses
  • texte ou statut de la réponse
  • date
  • étiquette de requête ou de groupe
  • indicateur de révision

Une fois les données combinées, vous pouvez calculer :

  • le total des réponses par utilisateur
  • le nombre de fichiers par utilisateur
  • la moyenne des réponses par fichier
  • la participation manquante par fichier
  • les utilisateurs atypiques (outliers)
  • les enregistrements en double

Cette structure facilite l'audit du rapport et permet de remonter chaque ligne de synthèse à son CSV source.

Pour un rapport de comptage de réponses, un tableau de travail combiné pourrait ressembler à ceci :

fichier source email réponse brute inclure dans le compte note de révision
query_01.csv [email protected] oui oui correspondance propre
query_12.csv [email protected] a répondu oui synonyme mappé
query_18.csv [email protected] vide non réponse vide
query_22.csv [email protected] oui révision e-mail en double dans le fichier

Ensuite, la synthèse maîtresse peut ressembler à ceci :

email fichiers répondus liste des fichiers fichiers manquants note de révision
[email protected] 18 query_01, query_03, query_12... 32 propre
[email protected] 0 vide 50 aucune réponse trouvée
[email protected] 7 query_02, query_04, query_22... 43 doublon dans query_22

Vérification de la qualité des données CSV avant le reporting mensuel

Examiner les utilisateurs manquants séparément

Les utilisateurs manquants ne doivent pas disparaître dans le comptage.

Qu'un utilisateur apparaisse dans un fichier mais pas dans un autre peut être normal, ou cela peut signifier que l'export est incomplet.

Créez une liste de révision distincte pour :

  • les utilisateurs absents de certains fichiers
  • les fichiers sans enregistrements pour les utilisateurs attendus
  • les utilisateurs avec des identifiants incohérents
  • les exports avec des nombres de lignes inhabituels
  • les fichiers qui n'ont pas pu être chargés correctement

Cela aide la personne qui consulte le rapport à comprendre si un compte faible est un signal réel ou simplement un problème de données.

Si ce processus se répète chaque mois ou semaine, liez-le à un flux de travail de reporting CSV mensuel plus large pour garantir la cohérence des étapes.

Comment demander à RowSpeak de résoudre cela

RowSpeak est idéal lorsque les fichiers CSV sont assez désordonnés pour que la logique de comptage change souvent, ou lorsque l'équipe ne souhaite pas construire manuellement des étapes Power Query.

Vous pouvez télécharger le CSV maître et les exports de requêtes ensemble. RowSpeak supporte les flux multi-fichiers (plus de 30 fichiers dans un seul chat), ce qui est parfait pour les lots de requêtes ou de campagnes.

Un bon prompt doit décrire les fichiers, la règle de comptage et les onglets de sortie souhaités :

J'ai téléchargé un fichier utilisateur maître et plusieurs fichiers CSV de réponses aux requêtes.

Le fichier maître contient la liste complète des utilisateurs attendus dans la colonne email.
Chaque CSV de requête contient les utilisateurs ayant répondu, également identifiés par email.

Veuillez créer un classeur Excel téléchargeable avec ces feuilles :
1. Master Reply Count : une ligne par email de la liste maîtresse, avec le nombre de fichiers de requêtes où cet email apparaît.
2. Combined Replies : fusionner tous les fichiers CSV de requêtes dans un seul tableau et ajouter une colonne Fichier Source.
3. Missing Users Review : pour chaque email, montrer quels fichiers de requêtes n'ont reçu aucune réponse de cet email.
4. File QA : montrer le nombre de lignes, les emails en double, les valeurs manquantes et les en-têtes inhabituels pour chaque fichier source.

Comptez chaque email au maximum une fois par fichier de requête. Si un email apparaît deux fois dans le même fichier, signalez-le comme doublon au lieu de le compter deux fois.

Vous pouvez aussi demander un résultat plus simple :

Créez un tableau maître avec l'email et le reply_count. Comptez combien de fichiers CSV téléchargés contiennent chaque email. Utilisez la liste d'utilisateurs maîtresse comme liste de sortie complète, incluant les utilisateurs avec zéro réponse.

RowSpeak peut vous aider à :

  • identifier le bon champ de comptage
  • normaliser les noms ou les IDs
  • combiner les fichiers en un seul tableau vérifiable
  • signaler les utilisateurs manquants et les écarts suspects
  • synthétiser les modèles de participation
  • générer une vue de rapport pour révision

C'est bien plus utile que de demander à un chatbot générique de "compter les réponses", car le problème n'est pas seulement arithmétique. C'est une question de structure de fichiers, de correspondance d'identité et d'explication.

Si le résultat final doit être partagé, RowSpeak peut transformer les données combinées en un flux de travail Excel vers tableau de bord plus lisible.

Un prompt RowSpeak efficace doit nommer les règles de réponse et les sorties de révision, pas seulement demander un total :

Utiliser RowSpeak pour compter des réponses incohérentes avec des règles explicites

Ce modèle s'applique au-delà des réponses utilisateurs

La logique reste la même : liste maîtresse, exports multiples, fusion par clé, comptage des occurrences, puis révision des données manquantes ou en double.

Ce schéma se retrouve dans toutes les équipes :

Pour la finance :

  • Compter quels centres de coûts ont soumis leurs fichiers budgétaires mensuels.
  • Compter combien d'exports de relevés bancaires contiennent un ID de transaction donné.
  • Faire correspondre les factures fournisseurs sur plusieurs exports et signaler les fournisseurs manquants dans un cycle de paiement.

Pour l'e-commerce :

  • Compter combien d'exports de places de marché incluent chaque SKU.
  • Identifier les produits manquants sur un canal mais présents sur un autre.
  • Compter les retours, les avis ou les cas de remboursement sur plusieurs CSV de plateformes.

Pour le marketing :

  • Compter combien d'exports de campagnes contiennent chaque e-mail de prospect.
  • Fusionner les fichiers de webinaires, de newsletters et de réponses aux formulaires en un score d'engagement unique.
  • Signaler les prospects qui apparaissent dans les fichiers de campagnes payantes mais jamais dans les fichiers de réponse.

Pour la chaîne logistique :

  • Compter combien de fournisseurs ont répondu aux demandes de confirmation hebdomadaires.
  • Faire correspondre les IDs d'expédition entre les exports de l'entrepôt, du transporteur et du fournisseur.
  • Signaler les SKUs qui apparaissent dans les fichiers de demande mais pas dans les fichiers d'inventaire disponible.

Une méthodologie de comptage pratique

Suivez cette séquence :

  1. Décider de la règle de comptage
    Total des réponses, participation par fichier ou compte d'utilisateurs uniques.

  2. Inventorier chaque CSV
    Notez les en-têtes, les champs, le nombre de lignes et les périodes.

  3. Normaliser l'identité des utilisateurs
    Privilégiez les IDs. Si nécessaire, standardisez les noms.

  4. Combiner tous les fichiers en un seul tableau
    Gardez le fichier source visible.

  5. Construire le tableau de synthèse
    Comptez les réponses, les fichiers ou la participation selon les besoins.

  6. Créer une liste de révision des utilisateurs manquants
    Séparez les lacunes de données de la véritable inactivité.

  7. Ajouter une brève explication
    Indiquez au lecteur ce que signifie le compte et ce qui doit encore être vérifié.

Erreurs courantes à éviter

Ne comptez pas les noms d'affichage sans vérifier les alias.

Ne supposez pas que chaque CSV utilise la même structure de lignes.

Ne mélangez pas les utilisateurs manquants dans le même tableau que les comptes valides.

N'oubliez pas d'expliquer si le rapport compte les réponses, les utilisateurs, les fichiers ou les apparitions uniques.

Ce qu'il faut retenir

Fusionner et compter des enregistrements sur de nombreux fichiers CSV est avant tout un problème de reporting.

Le résultat utile est une synthèse combinée et vérifiable qui montre qui apparaît où, à quelle fréquence, et quels enregistrements nécessitent une attention particulière.

Excel peut gérer la logique. Power Query peut la rendre répétable. RowSpeak intervient lorsque l'équipe souhaite passer de nombreux exports à un rapport partageable sans perdre de vue les utilisateurs manquants ou les structures de fichiers complexes.

Lancez-vous : Transformez vos exports CSV en un rapport exploitable

Si vos réponses sont éparpillées dans de nombreux fichiers CSV, téléchargez-les sur RowSpeak et décrivez votre règle de comptage en français simple. Demandez-lui de combiner les fichiers, de normaliser les identités, de compter les réponses et de lister séparément les enregistrements manquants ou suspects.

Essayez RowSpeak dès aujourd'hui et remplacez le comptage manuel par un rapport que votre équipe pourra réellement utiliser.

L'IA renforce les données, les décisions sont garanties !

Pas besoin de code ou de fonctions, dialoguez simplement et laissez RowSpeak traiter automatiquement les données et générer des graphiques. Essayez gratuitement maintenant et découvrez comment l'IA révolutionne votre flux de travail Excel →

Essayez gratuitement maintenant

Articles Recommandés

Comment créer un rapport sur les lacunes de formation dans Excel
Excel IA

Comment créer un rapport sur les lacunes de formation dans Excel

Deux feuilles de calcul ne font pas un rapport de conformité. Voici une méthode pratique pour croiser les formations des employés avec les exigences des postes et identifier les réels écarts.

Ruby
Comment nettoyer les données avant de créer un tableau de bord Excel
Excel IA

Comment nettoyer les données avant de créer un tableau de bord Excel

Lorsqu'un responsable demande des tableaux de bord à partir de 13 jeux de données brutes, la priorité n'est pas la visualisation, mais la structuration du flux de données qui donnera du sens aux graphiques.

Ruby
Transformer un export CSV mensuel en rapport prêt pour le client
Excel IA

Transformer un export CSV mensuel en rapport prêt pour le client

Un export CSV n'est pas un rapport. Voici une méthode reproductible pour transformer des données brutes en un rapport d'analyse clair, une synthèse, un tableau de bord et un lien de partage consultable par vos parties prenantes.

Ruby
Comment créer des rapports mensuels pour une plage de dates personnalisée
Excel IA

Comment créer des rapports mensuels pour une plage de dates personnalisée

De nombreux rapports ne suivent pas les mois civils. Si votre cycle va du 24 au 23, la période doit être intégrée à la logique de reporting, et non ajoutée manuellement après coup.

Ruby
Synchroniser deux vues Excel avec des ordres de tri différents
Excel IA

Synchroniser deux vues Excel avec des ordres de tri différents

Lorsque deux onglets nécessitent les mêmes enregistrements dans des ordres différents, la solution la plus sûre est généralement une table source unique, des formules pour les vues générées et des vérifications pour les enregistrements manquants.

Ruby
Comment nettoyer des données mixtes dans une colonne Excel avant d'en faire la somme
Excel IA

Comment nettoyer des données mixtes dans une colonne Excel avant d'en faire la somme

Une colonne d'apparence numérique peut rester inutilisable. Avant d'en faire la somme, nettoyez les données incohérentes et gardez une trace de révision.

Ruby
Gouvernance de l'IA dans Excel : comment laisser les agents analyser les classeurs sans perdre le contrôle
Excel IA

Gouvernance de l'IA dans Excel : comment laisser les agents analyser les classeurs sans perdre le contrôle

Le prochain risque de l'IA sur Excel n'est pas de savoir si les agents peuvent analyser un classeur, mais si l'entreprise peut contrôler, réviser et auditer leurs actions.

Ruby
Comment créer un rapport de rémunération RH à partir de plusieurs systèmes
Excel IA

Comment créer un rapport de rémunération RH à partir de plusieurs systèmes

Lorsque les données de rémunération sont fragmentées entre trois systèmes, répondre aux questions trimestrielles de la direction exige plus qu'une fusion de tableurs. Il faut un workflow de reporting exécutif reproductible.

Ruby