如何合併及統計多個 CSV 檔案的紀錄

重點摘要:

  • 在多個 CSV 檔案中計算記錄不只是單純的計數任務;它需要一份主清單、明確的匹配規則,以及保留每條記錄來源檔案的方法。
  • 可靠的工作流程是在彙總之前將所有匯出的資料合併成一個可追溯的表格,以便每個計數都能追溯到原始檔案,並檢查是否有重複或遺漏的記錄。
  • RowSpeak 可以處理多檔案 CSV 工作流程(包括上傳 30 多個檔案),然後根據自然語言指令進行合併、計數、標記遺漏記錄並生成摘要報告。

當每個系統、查詢、行銷活動或報告週期都匯出為獨立的 CSV 時,最困難的部分並非計算數量。

難點在於如何在合併檔案的同時,不丟失數據背後的意義。

本文基於一個真實的 Super User 上關於合併與計算不同 CSV 檔案條目次數的問題。該使用者擁有一份包含電子郵件地址的主 CSV,以及 50 個或更多的查詢 CSV 檔案。每個查詢檔案都包含回覆該查詢的電子郵件地址。預期的輸出是一份主清單,其中每個電子郵件地址都有一個計數,顯示他們回覆了多少個查詢檔案。

這是一個非常實際的試算表問題。每當團隊針對每個問卷、活動、查詢、產品、供應商、工單隊列或報告週期匯出一個 CSV 時,就會出現這種情況。

有些使用者出現在每次匯出中,有些則只出現幾次。有些查詢檔案可能有不同的標題,有些回覆可能重複,而有些預期的使用者可能從未出現。問題聽起來簡單,但工作流程卻很混亂。

有用的輸出不只是一個數字,而是一份摘要報告,顯示哪些記錄匹配、出現頻率、在哪些檔案中遺漏,以及哪些行需要審核。

同樣的問題也出現在混亂的 RSVP 名單中:一個檔案可能使用 Yes,另一個使用 Y,還有一個使用 X。對於使用者回覆報告,這些變體必須在計數被採信之前,先標準化為統一的回覆狀態規則。

計數前具有不一致回覆值的混亂回應數據

從確切的來源結構開始

對於類 Super User 的問題,通常有兩種檔案:

檔案類型 範例欄位 用途
使用者主清單 email 應出現在最終輸出中的完整使用者清單
查詢回覆檔案 email, reply 每個查詢一個檔案,包含已回覆的使用者

最保險的輸出不僅僅是 emailreply_count。更好的輸出通常包括:

  • 電子郵件 (email)
  • 該電子郵件回覆的查詢檔案數量
  • 該電子郵件出現過的來源檔案清單
  • 該電子郵件遺漏的預期查詢檔案清單
  • 重複回覆標記
  • 審核備註

這種結構在回答使用者核心問題的同時,也保持了結果的可稽核性。

在合併前定義計數規則

在合併任何內容之前,請先定義計數的意義。

您想計算的是:

  • 每個使用者在所有檔案中的總回覆次數?
  • 每個使用者出現的檔案數量?
  • 每個查詢組的回覆次數?
  • 每次匯出的唯一使用者數?
  • 特定日期範圍內的回覆次數?

這些是完全不同的報告。

如果計數規則不明確,您最終可能會得到一個看起來正確但回答了錯誤問題的表格。

例如,如果同一個電子郵件在 query_07.csv 中出現了兩次,這應該算作一次回覆查詢還是兩行回覆?對於原始問題,可能的業務規則是每個使用者在每個查詢檔案中計數一次。這意味著單個檔案內的重複項應該被標記,而不是盲目地計算兩次。

在建立活頁簿之前,先用簡潔的語言寫下規則。

先盤點 CSV 匯出檔案

將每個檔案視為一個可能與其他檔案不完全匹配的來源。

對於每個 CSV,請記錄:

  • 來源或查詢名稱
  • 日期範圍
  • 列數
  • 使用者識別欄位
  • 回覆欄位
  • 檔案特定篩選器
  • 缺失的欄位
  • 重複記錄
  • 命名不一致

這一步通常會揭示真正的問題。有些檔案可能使用使用者名稱 (username),而其他檔案則使用使用者 ID (user_id)。有些檔案可能每行代表一個回覆,而其他檔案則每行代表一個使用者並帶有計數欄位。

如果欄位未對齊,計數邏輯就會出錯。

在計數前標準化使用者身分

使用者名稱並非穩定的識別碼。

如果可能,請透過唯一 ID 而非顯示名稱進行計數。如果只有名稱可用,請建立一個對照表來標準化:

  • 大小寫
  • 空格
  • 標點符號
  • 別名
  • 替代拼寫
  • 缺失的前綴或後綴

當一個使用者出現在許多 CSV 檔案中時,這點尤為重要。一個不一致的名稱可能會將同一個人拆分為兩個不同的計數。

如果不存在穩定的使用者 ID,請在報告中註明。計數可能仍然有用,但準確性較低。

如果最終輸出需要經過審核和共享,而不是僅作為原始試算表保留,那麼這裡非常適合使用輕量級的 AI 報告工作流程

在彙總前建立合併表

不要直接跳到總計。

首先將檔案合併成一個單一的工作表,包含以下欄位:

  • 來源檔案
  • 使用者 ID 或標準化後的使用者名稱
  • 回覆計數
  • 回覆文字或狀態
  • 日期
  • 查詢或群組標籤
  • 審核標記

一旦資料合併完成,您就可以計算:

  • 每個使用者的總回覆數
  • 每個使用者的檔案計數
  • 每個檔案的平均回覆數
  • 缺失的檔案參與情況
  • 異常使用者
  • 重複記錄

這種結構使報告更易於稽核,也讓您可以將每個摘要行追溯到原始 CSV 檔案。

對於回覆計數報告,合併的工作表可能如下所示:

來源檔案 電子郵件 原始回覆 是否計入 審核備註
query_01.csv [email protected] yes yes 完全匹配
query_12.csv [email protected] replied yes 同義詞映射
query_18.csv [email protected] blank no 空白回覆
query_22.csv [email protected] yes review 同一檔案中重複的電子郵件

接著,主摘要表可以如下所示:

電子郵件 已回覆查詢檔案數 已回覆檔案清單 缺失檔案數 審核備註
[email protected] 18 query_01, query_03, query_12... 32 正常
[email protected] 0 blank 50 未找到回覆
[email protected] 7 query_02, query_04, query_22... 43 query_22 中有重複項

每月報告前的 CSV 數據質量檢查

單獨審核遺漏的使用者

遺漏的使用者不應消失在計數中。

如果一個使用者出現在一個檔案中但未出現在另一個檔案中,這可能是正常的,但也可能意味著匯出不完整。

為以下情況建立單獨的審核清單:

  • 在某些檔案中遺漏的使用者
  • 預期使用者完全沒有記錄的檔案
  • 識別碼不一致的使用者
  • 列數異常的匯出檔案
  • 無法正常載入的檔案

這有助於報告審核者了解低計數是真實信號還是僅僅是數據問題。

如果工作流程每月或每週重複一次,請將其連結到更廣泛的 每月 CSV 報告工作流程,以確保檔案處理和報告步驟保持一致。

如何要求 RowSpeak 解決此問題

當 CSV 檔案過於混亂導致計數邏輯不斷變化,或者團隊不想手動建立 Power Query 步驟時,RowSpeak 非常適用。

您可以同時上傳主 CSV 和查詢匯出的 CSV。RowSpeak 支援多檔案工作流程,包括在一次對話中處理 30 多個檔案,因此非常適合處理批次查詢、批次活動和匯出的報告資料夾。

一個強大的提示詞應描述檔案、計數規則和輸出分頁:

我上傳了一個使用者主檔案和多個查詢回覆 CSV 檔案。

主檔案在 email 欄位中包含預期使用者的完整清單。
每個查詢 CSV 包含回覆該查詢的使用者,同樣透過 email 識別。

請建立一個可下載的 Excel 活頁簿,包含以下工作表:
1. Master Reply Count:主清單中每個 email 佔一行,顯示該 email 出現的查詢檔案數量。
2. Combined Replies:將所有查詢 CSV 檔案合併成一個表,並增加一個「來源檔案」欄位。
3. Missing Users Review:針對每個 email,顯示哪些查詢檔案中沒有該 email 的回覆。
4. File QA:顯示每個來源檔案的列數、重複 email、缺失的 email 值以及異常的標題。

每個 email 在每個查詢檔案中最多計算一次。如果一個 email 在同一個查詢檔案中出現兩次,請將其標記為重複,而不是計算兩次。

您也可以要求更簡單的輸出:

建立一個包含 email 和 reply_count 的主表。計算每個 email 出現在多少個上傳的查詢 CSV 檔案中。使用使用者主清單作為完整的輸出清單,包括回覆次數為零的使用者。

RowSpeak 可以協助:

  • 識別正確的計數欄位
  • 標準化名稱或 ID
  • 將檔案合併為一個可審核的表格
  • 標記遺漏的使用者和可疑的缺漏
  • 總結參與模式
  • 生成供審核的報告視圖

這比要求通用的聊天機器人「計算回覆」更有用,因為問題不僅僅是算術,還涉及檔案結構、身分匹配和解釋說明。

如果最終結果需要與團隊共享,RowSpeak 可以協助將合併後的數據轉化為更具可讀性的 Excel 轉儀表板工作流程,而不是僅保留原始的彙總結果。

一個有用的 RowSpeak 提示詞應指名回覆規則和審核輸出,而不僅僅是要求總數:

提示 RowSpeak 使用明確規則計算不一致的回應

同樣的模式適用於使用者回覆之外

重要的模式是:主清單、多個匯出檔、按鍵值合併、計算出現次數,然後審核遺漏或重複的記錄。

這種模式出現在各個業務團隊中。

對於財務:

  • 計算哪些成本中心提交了每月預算檔案。
  • 計算有多少個銀行對帳單匯出檔包含特定的交易 ID。
  • 在多個應付帳款匯出檔中匹配供應商發票,並標記付款運行中遺漏的供應商。

對於電子商務:

  • 計算每個 SKU 包含在多少個平台匯出檔中。
  • 識別在一個通路中缺失但在另一個通路中存在的產品。
  • 在多個平台的 CSV 中計算退貨、評價或退款案例。

對於行銷:

  • 計算每個潛在客戶電子郵件包含在多少個活動匯出檔中。
  • 將網路研討會、電子報和表單回應檔案合併為一個參與度評分。
  • 標記出現在付費活動檔案中但從未出現在後續回應檔案中的潛在客戶。

對於供應鏈:

  • 計算有多少供應商回覆了每週確認請求。
  • 在倉庫、承運商和供應商匯出檔中匹配貨運 ID。
  • 標記出現在需求檔案中但未出現在可用庫存檔案中的 SKU。

在每種情況下,相同的提示詞結構都適用。命名主清單、命名來源檔案、定義什麼算作有效出現,並要求 RowSpeak 保留來源檔案追蹤。

實際的計數工作流程

請遵循以下步驟:

  1. 決定計數規則
    總回覆數、檔案參與度或唯一使用者計數。

  2. 盤點每個 CSV
    記錄標題、欄位、列數和時間範圍。

  3. 標準化使用者身分
    優先使用 ID。如果需要,標準化名稱。

  4. 將所有檔案合併為一個表
    保持來源檔案欄位可見。

  5. 建立摘要表
    根據需要計算回覆、檔案或參與度。

  6. 建立遺漏使用者審核清單
    將數據缺漏與真實的低活躍度區分開來。

  7. 加入簡短說明
    告訴讀者計數的意義以及哪些內容仍需審核。

應避免的常見錯誤

不要在未檢查別名的情況下直接計算顯示名稱。

不要假設每個 CSV 都使用相同的列結構。

不要將遺漏的使用者與有效計數合併在同一個表中。

不要忘記解釋報告計算的是回覆、使用者、檔案還是唯一出現次數。

結語

合併與計算多個 CSV 檔案中的記錄本質上是一個報告問題。

有用的輸出是一個合併的、可審核的摘要,顯示誰出現在哪裡、出現頻率以及哪些記錄需要注意。

Excel 可以處理邏輯,Power Query 可以使其可重複。而當團隊希望從多個匯出檔轉向可共享的報告,且不丟失遺漏使用者或混亂檔案結構的追蹤時,RowSpeak 就是最佳選擇。

開始行動:將 CSV 回覆匯出檔轉化為可審核的報告

如果您的回覆分散在許多 CSV 檔案中,請將匯出檔上傳到 RowSpeak,並用簡潔的語言描述計數規則。要求它合併檔案、標準化使用者身分、計算回覆,並單獨列出遺漏或可疑的記錄。

立即試用 RowSpeak,將手動 CSV 計數替換為團隊真正可以審核的報告。

AI賦能數據,決策勝券在握!

無需寫代碼與函數,簡單對話讓RowSpeak自動處理數據、生成圖表。立即免費體驗,感受AI如何顛覆你的Excel工作流 →

立即免費體驗

推薦文章

如何在製作 Excel 儀表板前清理資料
Excel AI

如何在製作 Excel 儀表板前清理資料

當老闆要求從 13 個原始數據集製作儀表板時,首要任務並非繪圖,而是建立能賦予圖表意義的數據工作流。

Ruby
如何將每月 CSV 匯出檔轉換為客戶報告
Excel AI

如何將每月 CSV 匯出檔轉換為客戶報告

CSV 匯出檔不等於報告。本文提供一套可重複的流程,將原始數據列轉化為清晰的分析報告、執行摘要、儀表板視圖,以及利害關係人能實際審閱的分享連結。

Ruby
如何在加總前清理 Excel 欄位中的混合數據
Excel 人工智慧

如何在加總前清理 Excel 欄位中的混合數據

看似數值的欄位可能仍無法直接使用。在進行加總前,請先清理雜亂數據並保留審核軌跡。

Ruby
如何建立自訂日期範圍的月報
Excel 人工智慧

如何建立自訂日期範圍的月報

許多報表並非以日曆月為準。若結算週期為 24 日至次月 23 日,該日期區間必須納入報表邏輯,而非事後手動調整。

Ruby
如何使用 Excel 製作員工訓練落差報告
Excel 人工智慧

如何使用 Excel 製作員工訓練落差報告

兩份試算表並不等於合規報告。本文分享一套實用的工作流程,助您比對員工訓練紀錄與職位要求,精準找出真正的合規缺口。

Ruby
如何同步兩個排序方式不同的 Excel 檢視表
Excel 人工智慧

如何同步兩個排序方式不同的 Excel 檢視表

當兩個分頁需要以不同順序顯示相同記錄時,最穩妥的做法通常是:使用單一來源資料表、透過公式生成視圖,並檢查是否有遺漏記錄。

Ruby
如何從多個系統建立人資薪酬報告
Excel AI

如何從多個系統建立人資薪酬報告

當薪酬數據分散在三個系統時,處理每季度的管理層需求不能只靠合併試算表,而需要一套可重複的高階主管報告工作流程。

Ruby
Power BI PBIX 檔案過大?開發前的注意事項
Excel AI

Power BI PBIX 檔案過大?開發前的注意事項

開發前就有龐大的 PBIX 檔案,通常代表報表邏輯尚未收斂。在建立模型之前,請先確認業務端的實際需求。

Ruby