RowSpeak Private Deployment: Benchmarks de Performance

Este documento fornece dados de referência de performance para RowSpeak Private Deployment em diferentes configurações de hardware e cenários de uso. Use-os para definir expectativas, planejar infraestrutura e validar seu deployment.


Resumo

|| Métrica | Valor | |---|---| || Latência de inferência (primeiro token) | < 100ms | || Tempo de resposta médio completo | 3–8 segundos | || SLA de uptime | 99.9% | || Usuários simultâneos (config padrão) | 50+ | || Vazamentos de dados | 0 (por arquitetura) |


Referência de Ambiente de Teste

Todos os benchmarks abaixo foram executados na seguinte configuração padrão, a menos que indicado otherwise.

|| Componente | Especificação | |---|---| || CPU | 16-core Intel Xeon | || RAM | 64 GB DDR4 | || GPU | NVIDIA A10 (24 GB VRAM) | || Armazenamento | 1 TB NVMe SSD | || OS | Ubuntu 22.04 LTS | || Modelo | DeepSeek-V2 (local) | || Rede | 1 Gbps interno |


Tempo de Resposta por Tipo de Tarefa

Tempo de Resposta Médio por Tipo de Tarefa (segundos) 0s 2s 4s 6s 8s 1.2s Consulta Simples 3.5s Análise de Planilha 4.8s Geração de Gráfico 6.2s Resumo de Relatório 7.8s Pasta de Múltiplas Abas Tarefas Padrão Geração de Saída Pastas Complexas

Benchmarks de Concorrência

Como o RowSpeak performa à medida que usuários simultâneos aumentam.

Tempo de Resposta P95 vs. Usuários Simultâneos 0s 5s 10s 15s 20s 10 20 50 100 200 Usuários Simultâneos 3.2s 4.1s 6.8s 11.2s 18.5s 200+ usuários: recomendado configuração de cluster Enterprise

Performance por Configuração de Hardware

Configuração Usuários Simultâneos Tempo Médio Tempo P95 Recomendado Para
Mínimo (8-core, 32GB, 16GB VRAM) 10–20 4.5s 9s Equipes pequenas, piloto
Padrão (16-core, 64GB, 24GB VRAM) 50 3.5s 7s Departamentos, 50–100 usuários
Enterprise (32-core, 128GB, 80GB VRAM) 100–200 2.8s 6s Orgs grandes, alta concorrência
Cluster Enterprise (multi-nó) 500+ 2.5s 5s Rollout em toda a empresa

Comparação de Performance de Modelos

Diferentes modelos têm diferentes trade-offs de velocidade/qualidade. Aqui está como eles se comparam em tarefas padrão de análise de planilha.

Modelo Tipo Tempo Médio Qualidade Melhor Para
DeepSeek-V2 Código aberto 3.5s Alta Análise geral, chinês
Qwen2.5-72B Código aberto 4.1s Alta Multilíngue, dados estruturados
GPT-4o Código fechado (API) 2.8s Muito alta Raciocínio complexo, inglês
Claude 3.5 Sonnet Código fechado (API) 3.2s Muito alta Documentos longos, saída matizada
Gemini 1.5 Pro Código fechado (API) 3.0s Alta Multimídia, grande contexto

Tempos de resposta de modelos de código fechado dependem da latência da API do provedor e sua conexão de rede com seus endpoints.


Estabilidade e Uptime

RowSpeak Private Deployment é projetado para operação contínua.

  • Uptime alvo: 99.9% (menos de 9 horas de downtime por ano)
  • Degradaçãograceful: se a camada de modelo estiver temporariamente indisponível, a camada de aplicação continua servindo resultados em cache
  • Recuperação de reinício: recuperação completa do serviço em menos de 60 segundos após um reinício planejado
  • Estabilidade de memória: nenhum vazamento de memória observado em testes de operação contínua de 30 dias

Performance de Processamento de Arquivos

|| Tipo de Arquivo | Tamanho | Tempo de Processamento | |---|---|---| || CSV aba única | < 1 MB | < 1s | || Excel multi-abas | 5 MB | 2–4s | || Pasta Excel grande | 50 MB | 8–15s | || PDF com tabelas | 10 MB | 5–10s | || Lote (10 arquivos) | 50 MB total | 20–40s |


Planejando Seu Deployment

Use a tabela de dimensionamento de hardware acima como ponto de partida. Para uma recomendação mais precisa baseada no tamanho da sua equipe, tipos de arquivo e padrões de uso, solicite o Pacote de Deployment que inclui uma planilha de dimensionamento.

Para uma demonstração de performance ao vivo usando seus próprios tipos de arquivo, agende uma demo.