RowSpeak Private Deployment: Benchmarks de Rendimiento

Este documento proporciona datos de rendimiento de referencia para RowSpeak Private Deployment en diferentes configuraciones de hardware y escenarios de uso. Úselo para establecer expectativas, planificar infraestructura y validar su implementación.


Resumen

Métrica Valor
Latencia de inferencia (primer token) < 100ms
Tiempo de respuesta completo promedio 3–8 segundos
SLA de uptime 99.9%
Usuarios concurrentes (configuración estándar) 50+
Fugas de datos 0 (por arquitectura)

Referencia de Entorno de Prueba

Todos los benchmarks a continuación se ejecutaron en la siguiente configuración estándar a menos que se indique lo contrario.

|| Componente | Especificación | |---|---| || CPU | 16 núcleos Intel Xeon | || RAM | 64 GB DDR4 | || GPU | NVIDIA A10 (24 GB VRAM) | || Almacenamiento | 1 TB NVMe SSD | || SO | Ubuntu 22.04 LTS | || Modelo | DeepSeek-V2 (local) | || Red | 1 Gbps interno |


Tiempo de Respuesta por Tipo de Tarea

Tiempo de Respuesta Promedio por Tipo de Tarea (segundos) 0s 2s 4s 6s 8s 1.2s Consulta Simple 3.5s Análisis de Hoja de Cálculo 4.8s Generación de Gráficos 6.2s Resumen de Informe 7.8s Libro de Múltiples Hojas Tareas Estándar Generación de Salida Libros Complejos

Benchmarks de Concurrencia

Cómo funciona RowSpeak a medida que aumentan los usuarios simultáneos.

Tiempo de Respuesta P95 vs. Usuarios Concurrentes 0s 5s 10s 15s 20s 10 20 50 100 200 Usuarios Concurrentes 3.2s 4.1s 6.8s 11.2s 18.5s 200+ usuarios: se recomienda configuración de cluster Enterprise

Rendimiento por Configuración de Hardware

Configuración Usuarios Concurrentes Tiempo Promedio Tiempo P95 Recomendado Para
Mínimo (8 núcleos, 32GB, 16GB VRAM) 10–20 4.5s 9s Equipos pequeños, piloto
Estándar (16 núcleos, 64GB, 24GB VRAM) 50 3.5s 7s Departamentos, 50–100 usuarios
Enterprise (32 núcleos, 128GB, 80GB VRAM) 100–200 2.8s 6s Organs grandes, alta concurrencia
Cluster Enterprise (multi-nodo) 500+ 2.5s 5s Despliegue en toda la empresa

Comparación de Rendimiento de Modelos

Diferentes modelos tienen diferentes compromisos de velocidad/calidad. Aquí está cómo se comparan en tareas estándar de análisis de hojas de cálculo.

Modelo Tipo Tiempo Promedio Calidad Mejor Para
DeepSeek-V2 Código abierto 3.5s Alta Análisis general, chino
Qwen2.5-72B Código abierto 4.1s Alta Multilingüe, datos estructurados
GPT-4o Código cerrado (API) 2.8s Muy alta Razonamiento complejo, inglés
Claude 3.5 Sonnet Código cerrado (API) 3.2s Muy alta Documentos largos, salida matizada
Gemini 1.5 Pro Código cerrado (API) 3.0s Alta Multimedia, gran contexto

Los tiempos de respuesta de modelos de código cerrado dependen de la latencia de la API del proveedor y su conexión de red a sus endpoints.


Estabilidad y Uptime

RowSpeak Private Deployment está diseñado para operación continua.

  • Uptime objetivo: 99.9% (menos de 9 horas de tiempo de inactividad por año)
  • Degradación elegante: si la capa de modelos está temporalmente no disponible, la capa de aplicación continuará sirviendo resultados en caché
  • Recuperación de reinicio: recuperación completa del servicio en menos de 60 segundos después de un reinicio planificado
  • Estabilidad de memoria: no se observaron fugas de memoria en pruebas de operación continua de 30 días

Rendimiento de Procesamiento de Archivos

Tipo de Archivo Tamaño Tiempo de Procesamiento
CSV de hoja única < 1 MB < 1s
Excel de múltiples hojas 5 MB 2–4s
Libro grande de Excel 50 MB 8–15s
PDF con tablas 10 MB 5–10s
Lote (10 archivos) 50 MB total 20–40s

Planificando Su Implementación

Use la tabla de dimensionamiento de hardware anterior como punto de partida. Para una recomendación más precisa basada en el tamaño de su equipo, tipos de archivos y patrones de uso, solicite el Paquete de Implementación que incluye una hoja de trabajo de dimensionamiento.

Para una demostración de rendimiento en vivo usando sus propios tipos de archivos, reserve una demo.