RowSpeak Private Deployment:效能基準

本文檔提供跨不同硬體配置和使用場景的RowSpeak Private Deployment參考效能數據。用於設定預期、規劃基礎設施和驗證您的部署。


摘要

|| 指標 | 值 | |---|---| || 推理延遲(首個token) | < 100ms | || 平均完整響應時間 | 3–8秒 | || 正常運行時間SLA | 99.9% | || 並發用戶(標準配置) | 50+ | || 數據洩露 | 0(通過架構) |


測試環境參考

除非另有說明,以下所有基準都在以下標準配置上運行。

|| 組件 | 規格 | |---|---| || CPU | 16核Intel Xeon | || RAM | 64 GB DDR4 | || GPU | NVIDIA A10(24 GB VRAM) | || 存儲 | 1 TB NVMe SSD | || 操作系統 | Ubuntu 22.04 LTS | || 模型 | DeepSeek-V2(本地) | || 網絡 | 1 Gbps內部 |


按任務類型的響應時間

按任務類型的平均響應時間(秒) 0s 2s 4s 6s 8s 1.2s 簡單 查詢 3.5s 電子表格 分析 4.8s 圖表 生成 6.2s 報告 摘要 7.8s 多工作表 工作簿 標準任務 輸出生成 複雜工作簿

並發基準

顯示RowSpeak在並發用戶增加時的表現。

P95響應時間 vs. 並發用戶 0s 5s 10s 15s 20s 10 20 50 100 200 並發用戶 3.2s 4.1s 6.8s 11.2s 18.5s 200+用戶:推薦 企業集群配置

按硬體配置的性能

配置 並發用戶 平均響應 P95響應 推薦用於
最小(8核、32GB、16GB VRAM) 10–20 4.5s 9s 小型團隊、試點
標準(16核、64GB、24GB VRAM) 50 3.5s 7s 部門、50–100用戶
企業(32核、128GB、80GB VRAM) 100–200 2.8s 6s 大型組織、高並發
企業集群(多節點) 500+ 2.5s 5s 全企業範圍推廣

模型性能比較

不同模型有不同的速度/質量權衡。以下是它們在標準電子表格分析任務上的比較。

模型 類型 平均響應 質量 最適合
DeepSeek-V2 開源 3.5s 一般分析、中文
Qwen2.5-72B 開源 4.1s 多語言,結構化數據
GPT-4o 閉源(API) 2.8s 非常高 複雜推理、英語
Claude 3.5 Sonnet 閉源(API) 3.2s 非常高 長文檔、細緻輸出
Gemini 1.5 Pro 閉源(API) 3.0s 多媒體,大上下文

閉源模型響應時間取決於提供商的API延遲以及您到其端點的網絡連接。


穩定性和正常運行時間

RowSpeak Private Deployment專為持續運營而設計。

  • 目標正常運行時間: 99.9%(每年少於9小時停機時間)
  • 優雅降級: 如果模型層暫時不可用,應用程序層繼續提供緩存結果
  • 重啟恢復: 計劃重啟後60秒內完全服務恢復
  • 內存穩定性: 在30天連續運行測試中未觀察到內存洩漏

文件處理性能

|| 文件類型 | 文件大小 | 處理時間 | |---|---|---| || 單工作表CSV | < 1 MB | < 1s | || 多工作表Excel | 5 MB | 2–4s | || 大型Excel工作簿 | 50 MB | 8–15s | || 帶表格的PDF | 10 MB | 5–10s | || 批處理(10個文件) | 50 MB總計 | 20–40s |


規劃您的部署

使用上面的硬件sizing表作為起點。需要基於您的團隊規模、文件類型和使用模式更精確的建議,請申請包含sizing工作表的部署包

要使用您自己的文件類型進行現場性能演示,請預約演示