RowSpeak Private Deployment: Leistungs-Benchmarks
Dieses Dokument enthält Referenz-Leistungsdaten für RowSpeak Private Deployment über verschiedene Hardware-Konfigurationen und Nutzungsszenarien. Verwenden Sie es, um Erwartungen zu setzen, Infrastruktur zu planen und Ihre Bereitstellung zu validieren.
Zusammenfassung
| Metrik | Wert | |
|---|---|---|
| Inferenz-Latenz (Ersttoken) | < 100ms | |
| Durchschnittliche Gesamt-Antwortzeit | 3–8 Sekunden | |
| Uptime-SLA | 99,9% | |
| Gleichzeitige Benutzer (Standard-Konfiguration) | 50+ | |
| Datenlecks | 0 (durch Architektur) |
Testumgebungs-Referenz
Alle nachfolgenden Benchmarks wurden auf der folgenden Standardkonfiguration ausgeführt, sofern nicht anders angegeben.
|| Komponente | Spezifikation | |---|---| || CPU | 16-Kern Intel Xeon | || RAM | 64 GB DDR4 | || GPU | NVIDIA A10 (24 GB VRAM) | || Speicher | 1 TB NVMe SSD | || OS | Ubuntu 22.04 LTS | || Modell | DeepSeek-V2 (lokal) | || Netzwerk | 1 Gbps intern |
Antwortzeit nach Aufgabenart
Concurrency-Benchmarks
Wie sich RowSpeak verhält, wenn gleichzeitige Benutzer zunehmen.
Leistung nach Hardware-Konfiguration
| Konfiguration | Gleichzeitige Benutzer | Ø Antwort | P95 Antwort | Empfohlen für | |
|---|---|---|---|---|---|
| Minimum (8-Kern, 32GB, 16GB VRAM) | 10–20 | 4.5s | 9s | Kleine Teams, Pilot | |
| Standard (16-Kern, 64GB, 24GB VRAM) | 50 | 3.5s | 7s | Abteilungen, 50–100 Benutzer | |
| Enterprise (32-Kern, 128GB, 80GB VRAM) | 100–200 | 2.8s | 6s | Große Orgas, hohe Concurrency | |
| Enterprise-Cluster (Multi-Node) | 500+ | 2.5s | 5s | Unternehmensweiter Rollout |
Modellleistungsvergleich
Verschiedene Modelle haben unterschiedliche Geschwindigkeits-/Qualitäts-Tradeoffs. Hier ist der Vergleich bei Standard-Tabellenanalyseaufgaben.
| Modell | Typ | Ø Antwort | Qualität | Am besten für | |
|---|---|---|---|---|---|
| DeepSeek-V2 | Open-Source | 3.5s | Hoch | Allgemeine Analyse, Chinesisch | |
| Qwen2.5-72B | Open-Source | 4.1s | Hoch | Mehrsprachig, strukturierte Daten | |
| GPT-4o | Closed-Source (API) | 2.8s | Sehr hoch | Komplexes Reasoning, Englisch | |
| Claude 3.5 Sonnet | Closed-Source (API) | 3.2s | Sehr hoch | Lange Dokumente, nuancierte Ausgabe | |
| Gemini 1.5 Pro | Closed-Source (API) | 3.0s | Hoch | Multimeda, großer Kontext |
Die Antwortzeiten von Closed-Source-Modellen hängen von der Provider-API-Latenz und Ihrer Netzwerkverbindung zu ihren Endpunkten ab.
Stabilität und Uptime
RowSpeak Private Deployment ist für kontinuierlichen Betrieb ausgelegt.
- Ziel-Uptime: 99,9% (weniger als 9 Stunden Ausfallzeit pro Jahr)
- Graceful Degradation: Wenn die Modellschicht temporär nicht verfügbar ist, wird die Anwendungsschicht weiterhin zwischengespeicherte Ergebnisse liefern
- Restart Recovery: Vollständige Wiederherstellung in unter 60 Sekunden nach einem geplanten Neustart
- Speicherstabilität: Keine Memory-Leaks in 30-Tage-Dauertests beobachtet
Dateiverarbeitungsleistung
| Dateityp | Dateigröße | Verarbeitungszeit | |
|---|---|---|---|
| Einzelblatt-CSV | < 1 MB | < 1s | |
| Multi-Blatt-Excel | 5 MB | 2–4s | |
| Große Excel-Arbeitsmappe | 50 MB | 8–15s | |
| PDF mit Tabellen | 10 MB | 5–10s | |
| Batch (10 Dateien) | 50 MB gesamt | 20–40s |
Ihre Bereitstellung planen
Verwenden Sie die obige Hardware-Sizing-Tabelle als Ausgangspunkt. Für eine genauere Empfehlung basierend auf Ihrer Teamgröße, Dateitypen und Nutzungsmustern fordern Sie das Bereitstellungspaket an, das einen Sizing-Worksheet enthält.
Für eine Live-Leistungsdemo mit Ihren eigenen Dateitypen buchen Sie eine Demo.