Cómo fusionar y contar registros en múltiples archivos CSV

Conclusiones principales:

  • Contar registros en múltiples archivos CSV no es solo una tarea de conteo; requiere una lista maestra, una regla de coincidencia clara y una forma de conservar el origen de cada registro.
  • Un flujo de trabajo confiable combina cada exportación en una sola tabla rastreable antes de resumir, para que cada conteo pueda vincularse a los archivos fuente y revisarse en busca de duplicados o registros faltantes.
  • RowSpeak puede procesar flujos de trabajo de múltiples archivos CSV, incluyendo más de 30 archivos cargados, para luego fusionar, contar, marcar registros faltantes y generar un informe de resumen a partir de instrucciones en lenguaje natural.

Cuando cada sistema, consulta, campaña o período de informe se exporta como su propio archivo CSV, la parte difícil no es el conteo.

Lo difícil es combinar los archivos sin perder el significado de los datos.

Este artículo se basa en una pregunta real de Super User sobre cómo fusionar y contar entradas en diferentes archivos CSV. El usuario tenía un CSV maestro con direcciones de correo electrónico, además de 50 o más archivos CSV de consultas. Cada archivo de consulta contenía las direcciones de correo que respondieron a esa consulta. El resultado deseado era una lista maestra donde cada dirección de correo tuviera un conteo que mostrara en cuántos archivos de consulta aparecía.

Este es un problema de hojas de cálculo muy práctico. Aparece cada vez que un equipo exporta un CSV por cada encuesta, campaña, consulta, producto, proveedor, cola de tickets o período de informe.

Algunos usuarios aparecen en cada exportación. Otros aparecen solo en unas pocas. Algunos archivos de consulta pueden tener encabezados diferentes. Algunas respuestas pueden estar duplicadas. Es posible que algunos usuarios esperados nunca aparezcan. La pregunta suena simple, pero el flujo de trabajo es complejo.

El resultado útil no es solo un número. Es un informe de resumen que muestra qué registros coincidieron, con qué frecuencia aparecieron, en qué archivos faltaron y qué filas necesitan revisión.

El mismo problema aparece en las listas de confirmación de asistencia (RSVP) desordenadas: un archivo puede usar Yes, otro usa Y y otro usa X. Para los informes de respuesta de usuarios, esas variaciones se convierten en reglas de estado de respuesta que deben estandarizarse antes de confiar en el conteo.

Datos de respuesta desordenados con valores inconsistentes antes del conteo

Comience con la estructura exacta de la fuente

Para un problema al estilo de Super User, existen dos tipos de archivos:

Tipo de archivo Columnas de ejemplo Propósito
Lista maestra de usuarios email La lista completa de usuarios que deben aparecer en el resultado final
Archivos de respuesta de consultas email, reply Un archivo por consulta, que contiene a los usuarios que respondieron

El resultado más seguro no es solo email y reply_count. Un mejor resultado suele incluir:

  • Correo electrónico (email)
  • Número de archivos de consulta donde este correo respondió
  • Lista de archivos fuente donde apareció el correo
  • Lista de archivos de consulta esperados donde faltó el correo
  • Indicador de respuesta duplicada
  • Nota de revisión

Esta estructura responde a la pregunta real del usuario mientras mantiene el resultado auditable.

Defina la regla de conteo antes de fusionar

Antes de fusionar cualquier cosa, defina qué significa el conteo.

¿Desea contar:

  • ¿Total de respuestas por usuario en todos los archivos?
  • ¿Número de archivos en los que aparece cada usuario?
  • ¿Respuestas por grupo de consulta?
  • ¿Usuarios únicos por exportación?
  • ¿Respuestas dentro de un rango de fechas?

Esos son informes diferentes.

Si la regla de conteo no está clara, puede terminar con una tabla que parece correcta pero responde a la pregunta equivocada.

Por ejemplo, si el mismo correo aparece dos veces en query_07.csv, ¿debería contar como una consulta respondida o como dos filas de respuesta? Para la pregunta original, la regla de negocio probable es un conteo por usuario por archivo de consulta. Eso significa que los duplicados dentro de un mismo archivo deben marcarse, no contarse ciegamente dos veces.

Escriba la regla en lenguaje sencillo antes de crear el libro de trabajo.

Inventaríe primero las exportaciones CSV

Trate cada archivo como una fuente que puede no coincidir perfectamente con las demás.

Para cada CSV, anote:

  • Nombre de la fuente o consulta
  • Rango de fechas
  • Recuento de filas
  • Campo identificador de usuario
  • Campo de respuesta
  • Filtros específicos del archivo
  • Columnas faltantes
  • Registros duplicados
  • Inconsistencias en los nombres

Este paso a menudo revela el problema real. Algunos archivos pueden usar el nombre de usuario mientras que otros usan el user_id. Algunos pueden tener una fila por respuesta, mientras que otros tienen una fila por usuario con un campo de conteo.

Si los campos no están alineados, la lógica de conteo fallará.

Normalice la identidad del usuario antes de contar

Los nombres de usuario no son identificadores estables.

Si es posible, cuente por un ID único en lugar del nombre visible. Si solo hay nombres disponibles, cree una tabla de mapeo que normalice:

  • Mayúsculas y minúsculas
  • Espacios
  • Puntuación
  • Alias
  • Ortografías alternativas
  • Prefijos o sufijos faltantes

Esto es especialmente importante cuando un usuario aparece en muchos archivos CSV. Un nombre inconsistente puede dividir a una sola persona en dos conteos diferentes.

Si no existe un ID de usuario estable, anótelo en el informe. El conteo aún puede ser útil, pero es menos certero.

Este es un buen lugar para un flujo de trabajo de informes con IA ligero si el resultado final necesita ser revisado y compartido en lugar de mantenerse como una hoja de cálculo sin procesar.

Construya una tabla combinada antes de resumir

No salte directamente a los totales.

Primero combine los archivos en una sola tabla de trabajo con columnas como:

  • Archivo fuente
  • ID de usuario o nombre de usuario normalizado
  • Conteo de respuestas
  • Texto o estado de la respuesta
  • Fecha
  • Etiqueta de consulta o grupo
  • Indicador de revisión

Una vez combinados los datos, puede calcular:

  • Total de respuestas por usuario
  • Conteo de archivos por usuario
  • Promedio de respuestas por archivo
  • Participación en archivos faltantes
  • Usuarios con valores atípicos
  • Registros duplicados

Esta estructura hace que el informe sea más fácil de auditar. También le permite rastrear cada fila de resumen hasta un CSV de origen.

Para un informe de conteo de respuestas, una tabla de trabajo combinada podría verse así:

Archivo fuente Email Respuesta original Incluir en conteo Nota de revisión
query_01.csv [email protected] Coincidencia limpia
query_12.csv [email protected] respondió Sinónimo mapeado
query_18.csv [email protected] en blanco no Respuesta vacía
query_22.csv [email protected] revisión Email duplicado en mismo archivo

Entonces, el resumen maestro puede verse así:

Email Consultas respondidas Lista de archivos con respuesta Conteo de archivos faltantes Nota de revisión
[email protected] 18 query_01, query_03, query_12... 32 Limpio
[email protected] 0 en blanco 50 No se encontraron respuestas
[email protected] 7 query_02, query_04, query_22... 43 Duplicado en query_22

Verificación de calidad de datos CSV antes del informe mensual

Revise los usuarios faltantes por separado

Los usuarios faltantes no deben desaparecer dentro del conteo.

Si un usuario aparece en un archivo pero no en otro, eso puede ser normal. O puede significar que la exportación está incompleta.

Cree una lista de revisión separada para:

  • Usuarios que faltan en algunos archivos
  • Archivos sin registros para usuarios esperados
  • Usuarios con identificadores inconsistentes
  • Exportaciones con recuentos de filas inusuales
  • Archivos que no se cargaron correctamente

Esto ayuda a la persona que revisa el informe a entender si un conteo bajo es una señal real o simplemente un problema de datos.

Si el flujo de trabajo se repite cada mes o semana, vincúlelo a un flujo de trabajo de informes CSV mensuales más amplio para que los pasos de manejo de archivos e informes sean consistentes.

Cómo pedirle a RowSpeak que resuelva esto

RowSpeak es ideal cuando los archivos CSV están lo suficientemente desordenados como para que la lógica de conteo cambie constantemente, o cuando el equipo no quiere crear pasos de Power Query a mano.

Puede cargar el CSV maestro y las exportaciones de CSV de consulta juntos. RowSpeak admite flujos de trabajo de múltiples archivos, incluyendo más de 30 archivos en un solo chat, por lo que es perfecto para lotes de consultas, lotes de campañas y carpetas de informes exportados.

Un prompt sólido debe describir los archivos, la regla de conteo y las pestañas de salida:

He subido un archivo maestro de usuarios y muchos archivos CSV de respuestas a consultas.

El archivo maestro contiene la lista completa de usuarios esperados en la columna de email.
Cada CSV de consulta contiene usuarios que respondieron a esa consulta, también identificados por email.

Por favor, crea un libro de Excel descargable con estas hojas:
1. Master Reply Count: una fila por email de la lista maestra, con el número de archivos de consulta donde aparece ese email.
2. Combined Replies: combina todos los archivos CSV de consulta en una sola tabla y añade una columna de Archivo Fuente.
3. Missing Users Review: para cada email, muestra qué archivos de consulta no tuvieron respuesta de ese email.
4. File QA: muestra el recuento de filas, emails duplicados, valores de email faltantes y encabezados inusuales para cada archivo fuente.

Cuenta cada email como máximo una vez por archivo de consulta. Si un email aparece dos veces en el mismo archivo de consulta, márcalo como duplicado en lugar de contarlo dos veces.

También puede solicitar un resultado más simple:

Crea una tabla maestra con email y reply_count. Cuenta cuántos archivos CSV de consulta cargados contienen cada email. Usa la lista maestra de usuarios como la lista de salida completa, incluyendo usuarios con cero respuestas.

RowSpeak puede ayudar a:

  • Identificar el campo de conteo correcto
  • Normalizar nombres o IDs
  • Combinar los archivos en una tabla revisable
  • Marcar usuarios faltantes y brechas sospechosas
  • Resumir patrones de participación
  • Generar una vista de informe para revisión

Esto es más útil que pedirle a un chatbot genérico que "cuente respuestas", porque el problema no es solo aritmético. Se trata de estructura de archivos, coincidencia de identidad y explicación.

Si el resultado final debe compartirse con un equipo, RowSpeak puede ayudar a convertir los datos combinados en un flujo de trabajo de Excel a tablero más legible en lugar de dejar el resultado como un agregado sin procesar.

Un prompt útil de RowSpeak debe nombrar las reglas de respuesta y el resultado de la revisión, no solo pedir un total:

Indicando a RowSpeak que cuente respuestas inconsistentes con reglas explícitas

El mismo patrón funciona más allá de las respuestas de los usuarios

El patrón importante es: lista maestra, muchas exportaciones, fusionar por clave, contar apariciones y luego revisar registros faltantes o duplicados.

Ese patrón se repite en diversos equipos de negocios.

Para finanzas:

  • Contar qué centros de costos enviaron archivos de presupuesto mensuales.
  • Contar cuántas exportaciones de estados de cuenta bancarios contienen un ID de transacción determinado.
  • Cotejar facturas de proveedores en múltiples exportaciones de cuentas por pagar y marcar proveedores que faltan en una ejecución de pago.

Para comercio electrónico:

  • Contar cuántas exportaciones de marketplace incluyen cada SKU.
  • Identificar productos que faltan en un canal pero están presentes en otro.
  • Contar devoluciones, reseñas o casos de reembolso en múltiples CSV de la plataforma.

Para marketing:

  • Contar cuántas exportaciones de campaña contienen cada correo electrónico de cliente potencial (lead).
  • Fusionar archivos de seminarios web, boletines y respuestas a formularios en una sola puntuación de compromiso (engagement score).
  • Marcar leads que aparecen en archivos de campañas pagadas pero nunca aparecen en archivos de respuesta de seguimiento.

Para cadena de suministro:

  • Contar cuántos proveedores respondieron a las solicitudes de confirmación semanales.
  • Cotejar IDs de envío en exportaciones de almacén, transportista y proveedor.
  • Marcar SKUs que aparecen en archivos de demanda pero no en archivos de inventario disponible.

La misma estructura de prompt funciona en cada caso. Nombre la lista maestra, nombre los archivos fuente, defina qué cuenta como una aparición válida y pida a RowSpeak que mantenga un rastro del archivo de origen.

Un flujo de trabajo de conteo práctico

Use esta secuencia:

  1. Decida la regla de conteo
    Total de respuestas, participación en archivos o conteo de usuarios únicos.

  2. Inventaríe cada CSV
    Anote encabezados, campos, recuentos de filas y rangos de tiempo.

  3. Normalice la identidad del usuario
    Prefiera IDs. Si es necesario, estandarice los nombres.

  4. Combine todos los archivos en una sola tabla
    Mantenga visible el archivo de origen.

  5. Construya la tabla de resumen
    Cuente respuestas, archivos o participación según sea necesario.

  6. Cree una lista de revisión de usuarios faltantes
    Separe las brechas de datos de la verdadera baja actividad.

  7. Añada una breve explicación
    Diga al lector qué significa el conteo y qué queda pendiente de revisión.

Errores comunes a evitar

No cuente nombres visibles sin verificar alias.

No asuma que cada CSV utiliza la misma estructura de filas.

No mezcle a los usuarios faltantes en la misma tabla que los conteos válidos.

No olvide explicar si el informe cuenta respuestas, usuarios, archivos o apariciones únicas.

La conclusión

Fusionar y contar registros en muchos archivos CSV es, en realidad, un problema de generación de informes.

El resultado útil es un resumen combinado y revisable que muestra quién aparece dónde, con qué frecuencia y qué registros necesitan atención.

Excel puede manejar la lógica. Power Query puede hacerlo repetible. RowSpeak es la solución cuando el equipo quiere pasar de muchas exportaciones a un informe compartible sin perder el rastro de los usuarios faltantes o de una estructura de archivos desordenada.

Comience ahora: Convierta sus exportaciones CSV en un informe revisable

Si sus respuestas están dispersas en muchos archivos CSV, cargue las exportaciones a RowSpeak y describa la regla de conteo en lenguaje sencillo. Pídale que combine los archivos, normalice la identidad del usuario, cuente las respuestas y enumere los registros faltantes o sospechosos por separado.

Pruebe RowSpeak hoy mismo y reemplace el conteo manual de CSV con un informe que su equipo realmente pueda revisar.

¡IA potencia los datos, decisiones garantizadas!

Sin necesidad de código o funciones, simplemente conversa y deja que RowSpeak procese datos y genere gráficos automáticamente. Experimenta gratis ahora y descubre cómo la IA está revolucionando tu flujo de trabajo en Excel →

Experimenta gratis ahora

Artículos Recomendados

Cómo limpiar datos mixtos en una columna de Excel antes de sumar
IA de Excel

Cómo limpiar datos mixtos en una columna de Excel antes de sumar

Una columna que parece numérica puede ser inutilizable. Antes de sumarla, limpia los valores irregulares y mantén un registro de revisión.

Ruby
Cómo crear un informe de brechas de capacitación en Excel
Excel IA

Cómo crear un informe de brechas de capacitación en Excel

Dos hojas de cálculo no son un informe de cumplimiento. Presentamos un flujo de trabajo práctico para cotejar los registros de capacitación con los requisitos del puesto e identificar las brechas reales.

Ruby
Cómo mantener sincronizadas dos vistas de Excel con distintos criterios de ordenación
Excel IA

Cómo mantener sincronizadas dos vistas de Excel con distintos criterios de ordenación

Cuando dos pestañas requieren los mismos registros en órdenes distintos, lo más seguro suele ser usar una tabla de origen, fórmulas para vistas generadas y controles de registros faltantes.

Ruby
Cómo limpiar datos antes de crear un dashboard en Excel
Excel IA

Cómo limpiar datos antes de crear un dashboard en Excel

Cuando un jefe pide dashboards a partir de 13 conjuntos de datos brutos, la primera tarea no es graficar, sino construir el flujo de trabajo que les dé sentido.

Ruby
Deja de luchar con fórmulas: Extrae texto en Excel de forma inteligente con IA
Excel IA

Deja de luchar con fórmulas: Extrae texto en Excel de forma inteligente con IA

¿Cansado de luchar con fórmulas anidadas de IZQUIERDA, BUSCAR y EXTRAE solo para extraer un fragmento de texto en Excel? Descubre cómo una herramienta de IA para Excel como RowSpeak puede automatizar todo este proceso, ahorrándote tiempo y eliminando errores en las fórmulas.

Ruby
Cómo monitorear el gasto del presupuesto público en Excel AI sin fórmulas complejas
Consejos de Excel

Cómo monitorear el gasto del presupuesto público en Excel AI sin fórmulas complejas

Monitorea el gasto del presupuesto público usando Excel—visualiza variaciones, rastrea utilización e informa por trimestre, todo sin fórmulas complejas o tablas dinámicas.

Sally
Análisis Mensual de Pedidos Simplificado: Generador de Informes con IA de RowSpeak
Excel Tips

Análisis Mensual de Pedidos Simplificado: Generador de Informes con IA de RowSpeak

Automatiza tu análisis mensual de pedidos en Excel con IA. RowSpeak te permite generar informes limpios, gráficos visuales y resúmenes usando solo una frase—sin necesidad de habilidades en Excel.

Sally
Ahorra Horas con Estos 4 Consejos de ChatGPT + Excel (y Cómo RowSpeak lo Hace en Una Frase)
Excel Tips

Ahorra Horas con Estos 4 Consejos de ChatGPT + Excel (y Cómo RowSpeak lo Hace en Una Frase)

Descubre cómo usar ChatGPT para escribir fórmulas de Excel—y cómo RowSpeak va más allá automatizando todo el proceso con lenguaje natural. Di adiós a las plantillas y hola a las hojas de cálculo inteligentes.

Sally