RowSpeak Private Deployment:效能基準
本文檔提供跨不同硬體配置和使用場景的RowSpeak Private Deployment參考效能數據。用於設定預期、規劃基礎設施和驗證您的部署。
摘要
|| 指標 | 值 | |---|---| || 推理延遲(首個token) | < 100ms | || 平均完整響應時間 | 3–8秒 | || 正常運行時間SLA | 99.9% | || 並發用戶(標準配置) | 50+ | || 數據洩露 | 0(通過架構) |
測試環境參考
除非另有說明,以下所有基準都在以下標準配置上運行。
|| 組件 | 規格 | |---|---| || CPU | 16核Intel Xeon | || RAM | 64 GB DDR4 | || GPU | NVIDIA A10(24 GB VRAM) | || 存儲 | 1 TB NVMe SSD | || 操作系統 | Ubuntu 22.04 LTS | || 模型 | DeepSeek-V2(本地) | || 網絡 | 1 Gbps內部 |
按任務類型的響應時間
並發基準
顯示RowSpeak在並發用戶增加時的表現。
按硬體配置的性能
| 配置 | 並發用戶 | 平均響應 | P95響應 | 推薦用於 | |
|---|---|---|---|---|---|
| 最小(8核、32GB、16GB VRAM) | 10–20 | 4.5s | 9s | 小型團隊、試點 | |
| 標準(16核、64GB、24GB VRAM) | 50 | 3.5s | 7s | 部門、50–100用戶 | |
| 企業(32核、128GB、80GB VRAM) | 100–200 | 2.8s | 6s | 大型組織、高並發 | |
| 企業集群(多節點) | 500+ | 2.5s | 5s | 全企業範圍推廣 |
模型性能比較
不同模型有不同的速度/質量權衡。以下是它們在標準電子表格分析任務上的比較。
| 模型 | 類型 | 平均響應 | 質量 | 最適合 | |
|---|---|---|---|---|---|
| DeepSeek-V2 | 開源 | 3.5s | 高 | 一般分析、中文 | |
| Qwen2.5-72B | 開源 | 4.1s | 高 | 多語言,結構化數據 | |
| GPT-4o | 閉源(API) | 2.8s | 非常高 | 複雜推理、英語 | |
| Claude 3.5 Sonnet | 閉源(API) | 3.2s | 非常高 | 長文檔、細緻輸出 | |
| Gemini 1.5 Pro | 閉源(API) | 3.0s | 高 | 多媒體,大上下文 |
閉源模型響應時間取決於提供商的API延遲以及您到其端點的網絡連接。
穩定性和正常運行時間
RowSpeak Private Deployment專為持續運營而設計。
- 目標正常運行時間: 99.9%(每年少於9小時停機時間)
- 優雅降級: 如果模型層暫時不可用,應用程序層繼續提供緩存結果
- 重啟恢復: 計劃重啟後60秒內完全服務恢復
- 內存穩定性: 在30天連續運行測試中未觀察到內存洩漏
文件處理性能
|| 文件類型 | 文件大小 | 處理時間 | |---|---|---| || 單工作表CSV | < 1 MB | < 1s | || 多工作表Excel | 5 MB | 2–4s | || 大型Excel工作簿 | 50 MB | 8–15s | || 帶表格的PDF | 10 MB | 5–10s | || 批處理(10個文件) | 50 MB總計 | 20–40s |
規劃您的部署
使用上面的硬件sizing表作為起點。需要基於您的團隊規模、文件類型和使用模式更精確的建議,請申請包含sizing工作表的部署包。
要使用您自己的文件類型進行現場性能演示,請預約演示。