RowSpeak Private Deployment: 성능 벤치마크

이 문서는 다양한 하드웨어 구성과 사용 시나리오에 대한 RowSpeak Private Deployment의 참조 성능 데이터를 제공합니다. 기대치를 설정하고, 인프라를 계획하고, 배포를 검증하는 데 사용하세요.


요약

메트릭
추론 지연시간 (첫 번째 토큰) < 100ms
평균 전체 응답 시간 3–8초
가동률 SLA 99.9%
동시 사용자 (표준 구성) 50+
데이터 유출 0 (아키텍처에 의해)

테스트 환경 참조

아래의 모든 벤치마크는 별도로 명시되지 않는 한 다음 표준 구성에서 실행되었습니다.

|| 컴포넌트 | 사양 | |---|---| || CPU | 16코어 Intel Xeon | || RAM | 64 GB DDR4 | || GPU | NVIDIA A10 (24 GB VRAM) | || 스토리지 | 1 TB NVMe SSD | || OS | Ubuntu 22.04 LTS | || 모델 | DeepSeek-V2 (로컬) | || 네트워크 | 1 Gbps 내부 |


작업 유형별 응답 시간

작업 유형별 평균 응답 시간 (초) 0s 2s 4s 6s 8s 1.2s 단순 쿼리 3.5s 스프레드시트 분석 4.8s 차트 생성 6.2s 보고서 요약 7.8s 멀티시트 워크북 표준 작업 출력 생성 복잡한 워크북

동시성 벤치마크

동시 사용자가 증가함에 따라 RowSpeak가 어떻게 수행되는지 보여줍니다.

P95 응답 시간 vs. 동시 사용자 0s 5s 10s 15s 20s 10 20 50 100 200 동시 사용자 3.2s 4.1s 6.8s 11.2s 18.5s 200+ 사용자: 권장 Enterprise 클러스터 구성

하드웨어 구성별 성능

구성 동시 사용자 평균 응답 P95 응답 권장 용도
최소 (8코어, 32GB, 16GB VRAM) 10–20 4.5s 9s 소규모 팀, 파일럿
표준 (16코어, 64GB, 24GB VRAM) 50 3.5s 7s 부서, 50–100 사용자
Enterprise (32코어, 128GB, 80GB VRAM) 100–200 2.8s 6s 대규모 조직, 높은 동시성
Enterprise 클러스터 (멀티노드) 500+ 2.5s 5s 기업 전체 배포

모델 성능 비교

다른 모델은 서로 다른 속도/품질 트레이드오프를 가집니다. 표준 스프레드시트 분석 작업에서의 비교는 다음과 같습니다.

모델 유형 평균 응답 품질 최적 용도
DeepSeek-V2 오픈소스 3.5s 높음 일반 분석, 중국어
Qwen2.5-72B 오픈소스 4.1s 높음 다국어, 구조화된 데이터
GPT-4o 폐쇄소스 (API) 2.8s 매우 높음 복잡한推理, 영어
Claude 3.5 Sonnet 폐쇄소스 (API) 3.2s 매우 높음 긴 문서, 미묘한 출력
Gemini 1.5 Pro 폐쇄소스 (API) 3.0s 높음 멀티미디어, 큰 컨텍스트

폐쇄소스 모델 응답 시간은 제공자 API 지연시간과 해당 엔드포인트에 대한 네트워크 연결에 따라 달라집니다.


안정성 및 가동률

RowSpeak Private Deployment는 연속 운영을 위해 설계되었습니다.

  • 목표 가동률: 99.9% (연간 9시간 미만의 가동 중지 시간)
  • 우아한 저하: 모델 레이어가 일시적으로利用不可한 경우 애플리케이션 레이어가 계속 캐시된 결과 제공
  • 재시작 복구: 계획된 재시작 후 60초 이내에 완전한 서비스 복구
  • 메모리 안정성: 30일 연속 운영 테스트에서 메모리 누수 관찰되지 않음

파일 처리 성능

파일 유형 파일 크기 처리 시간
단일시트 CSV < 1 MB < 1s
멀티시트 Excel 5 MB 2–4s
큰 Excel 워크북 50 MB 8–15s
표가 있는 PDF 10 MB 5–10s
배치 (10개 파일) 50 MB 총합 20–40s

배포 계획

위의 하드웨어 사이징 표를 출발점으로 사용하세요. 팀 규모, 파일 유형, 사용 패턴에 기반한 더 정확한 권장 사항을 원하시면 사이징 워크시트가 포함된 배포 패키지를 요청하세요.

자체 파일 유형을 사용한 라이브 성능 데모는 데모 예약하세요.