RowSpeak Private Deployment: 성능 벤치마크
이 문서는 다양한 하드웨어 구성과 사용 시나리오에 대한 RowSpeak Private Deployment의 참조 성능 데이터를 제공합니다. 기대치를 설정하고, 인프라를 계획하고, 배포를 검증하는 데 사용하세요.
요약
| 메트릭 | 값 | |
|---|---|---|
| 추론 지연시간 (첫 번째 토큰) | < 100ms | |
| 평균 전체 응답 시간 | 3–8초 | |
| 가동률 SLA | 99.9% | |
| 동시 사용자 (표준 구성) | 50+ | |
| 데이터 유출 | 0 (아키텍처에 의해) |
테스트 환경 참조
아래의 모든 벤치마크는 별도로 명시되지 않는 한 다음 표준 구성에서 실행되었습니다.
|| 컴포넌트 | 사양 | |---|---| || CPU | 16코어 Intel Xeon | || RAM | 64 GB DDR4 | || GPU | NVIDIA A10 (24 GB VRAM) | || 스토리지 | 1 TB NVMe SSD | || OS | Ubuntu 22.04 LTS | || 모델 | DeepSeek-V2 (로컬) | || 네트워크 | 1 Gbps 내부 |
작업 유형별 응답 시간
동시성 벤치마크
동시 사용자가 증가함에 따라 RowSpeak가 어떻게 수행되는지 보여줍니다.
하드웨어 구성별 성능
| 구성 | 동시 사용자 | 평균 응답 | P95 응답 | 권장 용도 | |
|---|---|---|---|---|---|
| 최소 (8코어, 32GB, 16GB VRAM) | 10–20 | 4.5s | 9s | 소규모 팀, 파일럿 | |
| 표준 (16코어, 64GB, 24GB VRAM) | 50 | 3.5s | 7s | 부서, 50–100 사용자 | |
| Enterprise (32코어, 128GB, 80GB VRAM) | 100–200 | 2.8s | 6s | 대규모 조직, 높은 동시성 | |
| Enterprise 클러스터 (멀티노드) | 500+ | 2.5s | 5s | 기업 전체 배포 |
모델 성능 비교
다른 모델은 서로 다른 속도/품질 트레이드오프를 가집니다. 표준 스프레드시트 분석 작업에서의 비교는 다음과 같습니다.
| 모델 | 유형 | 평균 응답 | 품질 | 최적 용도 | |
|---|---|---|---|---|---|
| DeepSeek-V2 | 오픈소스 | 3.5s | 높음 | 일반 분석, 중국어 | |
| Qwen2.5-72B | 오픈소스 | 4.1s | 높음 | 다국어, 구조화된 데이터 | |
| GPT-4o | 폐쇄소스 (API) | 2.8s | 매우 높음 | 복잡한推理, 영어 | |
| Claude 3.5 Sonnet | 폐쇄소스 (API) | 3.2s | 매우 높음 | 긴 문서, 미묘한 출력 | |
| Gemini 1.5 Pro | 폐쇄소스 (API) | 3.0s | 높음 | 멀티미디어, 큰 컨텍스트 |
폐쇄소스 모델 응답 시간은 제공자 API 지연시간과 해당 엔드포인트에 대한 네트워크 연결에 따라 달라집니다.
안정성 및 가동률
RowSpeak Private Deployment는 연속 운영을 위해 설계되었습니다.
- 목표 가동률: 99.9% (연간 9시간 미만의 가동 중지 시간)
- 우아한 저하: 모델 레이어가 일시적으로利用不可한 경우 애플리케이션 레이어가 계속 캐시된 결과 제공
- 재시작 복구: 계획된 재시작 후 60초 이내에 완전한 서비스 복구
- 메모리 안정성: 30일 연속 운영 테스트에서 메모리 누수 관찰되지 않음
파일 처리 성능
| 파일 유형 | 파일 크기 | 처리 시간 | |
|---|---|---|---|
| 단일시트 CSV | < 1 MB | < 1s | |
| 멀티시트 Excel | 5 MB | 2–4s | |
| 큰 Excel 워크북 | 50 MB | 8–15s | |
| 표가 있는 PDF | 10 MB | 5–10s | |
| 배치 (10개 파일) | 50 MB 총합 | 20–40s |
배포 계획
위의 하드웨어 사이징 표를 출발점으로 사용하세요. 팀 규모, 파일 유형, 사용 패턴에 기반한 더 정확한 권장 사항을 원하시면 사이징 워크시트가 포함된 배포 패키지를 요청하세요.
자체 파일 유형을 사용한 라이브 성능 데모는 데모 예약하세요.