RowSpeak Private Deployment: Benchmarks de Rendimiento
Este documento proporciona datos de rendimiento de referencia para RowSpeak Private Deployment en diferentes configuraciones de hardware y escenarios de uso. Úselo para establecer expectativas, planificar infraestructura y validar su implementación.
Resumen
| Métrica | Valor | |
|---|---|---|
| Latencia de inferencia (primer token) | < 100ms | |
| Tiempo de respuesta completo promedio | 3–8 segundos | |
| SLA de uptime | 99.9% | |
| Usuarios concurrentes (configuración estándar) | 50+ | |
| Fugas de datos | 0 (por arquitectura) |
Referencia de Entorno de Prueba
Todos los benchmarks a continuación se ejecutaron en la siguiente configuración estándar a menos que se indique lo contrario.
|| Componente | Especificación | |---|---| || CPU | 16 núcleos Intel Xeon | || RAM | 64 GB DDR4 | || GPU | NVIDIA A10 (24 GB VRAM) | || Almacenamiento | 1 TB NVMe SSD | || SO | Ubuntu 22.04 LTS | || Modelo | DeepSeek-V2 (local) | || Red | 1 Gbps interno |
Tiempo de Respuesta por Tipo de Tarea
Benchmarks de Concurrencia
Cómo funciona RowSpeak a medida que aumentan los usuarios simultáneos.
Rendimiento por Configuración de Hardware
| Configuración | Usuarios Concurrentes | Tiempo Promedio | Tiempo P95 | Recomendado Para | |
|---|---|---|---|---|---|
| Mínimo (8 núcleos, 32GB, 16GB VRAM) | 10–20 | 4.5s | 9s | Equipos pequeños, piloto | |
| Estándar (16 núcleos, 64GB, 24GB VRAM) | 50 | 3.5s | 7s | Departamentos, 50–100 usuarios | |
| Enterprise (32 núcleos, 128GB, 80GB VRAM) | 100–200 | 2.8s | 6s | Organs grandes, alta concurrencia | |
| Cluster Enterprise (multi-nodo) | 500+ | 2.5s | 5s | Despliegue en toda la empresa |
Comparación de Rendimiento de Modelos
Diferentes modelos tienen diferentes compromisos de velocidad/calidad. Aquí está cómo se comparan en tareas estándar de análisis de hojas de cálculo.
| Modelo | Tipo | Tiempo Promedio | Calidad | Mejor Para | |
|---|---|---|---|---|---|
| DeepSeek-V2 | Código abierto | 3.5s | Alta | Análisis general, chino | |
| Qwen2.5-72B | Código abierto | 4.1s | Alta | Multilingüe, datos estructurados | |
| GPT-4o | Código cerrado (API) | 2.8s | Muy alta | Razonamiento complejo, inglés | |
| Claude 3.5 Sonnet | Código cerrado (API) | 3.2s | Muy alta | Documentos largos, salida matizada | |
| Gemini 1.5 Pro | Código cerrado (API) | 3.0s | Alta | Multimedia, gran contexto |
Los tiempos de respuesta de modelos de código cerrado dependen de la latencia de la API del proveedor y su conexión de red a sus endpoints.
Estabilidad y Uptime
RowSpeak Private Deployment está diseñado para operación continua.
- Uptime objetivo: 99.9% (menos de 9 horas de tiempo de inactividad por año)
- Degradación elegante: si la capa de modelos está temporalmente no disponible, la capa de aplicación continuará sirviendo resultados en caché
- Recuperación de reinicio: recuperación completa del servicio en menos de 60 segundos después de un reinicio planificado
- Estabilidad de memoria: no se observaron fugas de memoria en pruebas de operación continua de 30 días
Rendimiento de Procesamiento de Archivos
| Tipo de Archivo | Tamaño | Tiempo de Procesamiento | |
|---|---|---|---|
| CSV de hoja única | < 1 MB | < 1s | |
| Excel de múltiples hojas | 5 MB | 2–4s | |
| Libro grande de Excel | 50 MB | 8–15s | |
| PDF con tablas | 10 MB | 5–10s | |
| Lote (10 archivos) | 50 MB total | 20–40s |
Planificando Su Implementación
Use la tabla de dimensionamiento de hardware anterior como punto de partida. Para una recomendación más precisa basada en el tamaño de su equipo, tipos de archivos y patrones de uso, solicite el Paquete de Implementación que incluye una hoja de trabajo de dimensionamiento.
Para una demostración de rendimiento en vivo usando sus propios tipos de archivos, reserve una demo.