많은 기업 팀들이 원하는 것은 동일합니다. 바로 사내 데이터를 위한 ChatGPT와 같은 분석가입니다.
사람들은 일상적인 언어로 질문하기를 원합니다. 스프레드시트, 데이터베이스, 대시보드, 내부 보고서에서 답을 얻고 싶어 합니다. 민감한 데이터에 대한 통제권을 잃지 않으면서 AI의 속도를 누리길 원합니다.
직접 구축해 보기 전까지는 간단해 보일 수 있습니다.
프라이빗 AI 데이터 분석 시스템은 단순히 파일에 연결된 챗봇이 아닙니다. 통제된 접근 권한, 신뢰할 수 있는 연산, 감사 로그, 모델 서빙, 그리고 실제 팀의 업무 방식에 맞는 사용자 경험이 필요합니다.
기업이 말하는 프라이빗 AI 데이터 분석의 의미
기업이 프라이빗 AI 분석을 요구할 때는 보통 다음과 같은 여러 가지 의미를 동시에 내포합니다:
- 데이터가 승인되지 않은 공개 AI 도구로 전송되지 않아야 함
- 사용자는 자신에게 허용된 데이터만 볼 수 있어야 함
- 민감한 파일은 승인된 저장소에 보관되어야 함
- 계산 과정을 추적할 수 있어야 함
- 프롬프트와 결과물에 대한 감사가 가능해야 함
- 모델이 승인된 환경에서 실행되어야 함
- 관리자가 데이터 보존 및 로깅을 제어해야 함
이것이 일반적인 AI 데모가 기업 구매자들을 실망시키는 이유입니다. 데모는 질문에 답을 할 뿐입니다. 하지만 실제 시스템은 신원, 권한, 데이터 계보(lineage) 및 규정 준수 요구 사항을 준수하면서 질문에 답해야 합니다.
챗봇만으로는 부족한 이유
챗봇은 텍스트를 요약하고, 보고서를 설명하며, 답변 초안을 작성할 수 있습니다.
하지만 분석은 다릅니다. 많은 비즈니스 질문은 '연산'을 필요로 합니다.
다음 질문을 생각해 보십시오:
3분기 매출 총이익이 감소한 이유는 무엇이며, 어느 지역의 기여도가 가장 높았습니까?
유용한 답변을 내놓으려면 여러 단계가 필요합니다:
- 정확한 매출 및 비용 필드 식별
- 이익률 공식 적용
- 3분기 데이터 필터링
- 이전 기간과 비교
- 지역별 그룹화
- 변화에 대한 기여도 계산
- 증거와 함께 결과 설명
검색 기반(Retrieval-only) 시스템은 이익률을 언급하는 문서를 찾을 수는 있지만, 답을 안정적으로 계산해내지는 못합니다.
기업용 분석에서 RAG(검색 증강 생성)는 도움이 되지만, 그것만으로는 충분하지 않습니다.
프라이빗 AI 분석가의 4가지 계층
실용적인 시스템은 네 가지 계층으로 구성됩니다.
1. 인터페이스 계층 (Interface layer)
사용자가 질문을 던지고 답변을 검토하는 곳입니다.
다음과 같은 형태가 될 수 있습니다:
- 스프레드시트 인터페이스
- 채팅 사이드바
- 대시보드 어시스턴트
- 내부 웹 앱
- 기존 도구용 API
비즈니스 팀에게는 스프레드시트 인터페이스가 가장 자연스러운 경우가 많습니다. 이미 그곳에서 임시 분석(ad hoc analysis)이 이루어지고 있기 때문입니다.
2. 추론 계층 (Reasoning layer)
LLM 또는 에이전트 계층입니다.
사용자의 질문을 해석하고, 명확한 질문을 던지며, 도구를 선택하고, SQL이나 공식을 작성하며 결과를 설명합니다.
이 계층을 계산의 최종적인 진실의 원천(source of truth)으로 신뢰해서는 안 됩니다.
3. 실행 계층 (Execution layer)
실제 데이터 작업이 수행되는 곳입니다.
실행 계층은 다음을 사용할 수 있습니다:
- SQL 웨어하우스
- DuckDB
- pandas 또는 Polars
- 스프레드시트 공식 엔진
- BI 시맨틱 계층
- 내부 API
이 계층은 수치를 계산하고, 테이블을 결합하며, 행을 필터링하고 구조화된 증거를 반환합니다.
4. 거버넌스 계층 (Governance layer)
누가 무엇에 접근할 수 있는지, 무엇이 기록되는지, 데이터가 얼마나 보관되는지, 결과물이 어떻게 검토되는지를 제어합니다.
다음을 포함합니다:
- SSO 및 RBAC (역할 기반 접근 제어)
- 행(row) 및 열(column) 수준의 정책
- 감사 로그
- 프롬프트 및 답변 보존 제어
- 데이터 계보 (Data lineage)
- 민감 데이터 비식별화 (Redaction)
- 모델 및 도구 권한
이 계층이 없다면 프라이빗 AI 분석가는 기업에서 사용할 준비가 되지 않은 것입니다.
RAG vs 직접 분석
RAG는 질문이 '텍스트'에 관한 것일 때 유용합니다.
예시:
- 이 정책은 무엇을 말하고 있는가?
- 순매출은 어떻게 정의되는가?
- 이탈률 방법론을 설명하는 보고서는 무엇인가?
질문이 '데이터'에 관한 것일 때는 직접적인 연산이 필요합니다.
예시:
- 어느 지역이 하락을 주도했는가?
- 이익률 기준 상위 5개 고객은 누구인가?
- 이번 달에 특이했던 비용 항목은 무엇인가?
- 이 두 내보내기 파일 사이에 무엇이 변경되었는가?
가장 좋은 기업용 아키텍처는 이 두 가지를 결합하는 것입니다.
RAG를 사용하여 정의, 비즈니스 맥락 및 문서를 검색하십시오. SQL, 스프레드시트 공식 또는 Python을 사용하여 결과를 계산하십시오. 그런 다음 모델을 사용하여 그 답을 일상적인 언어로 설명하십시오.
나중에 추가할 수 없는 거버넌스 요구 사항
거버넌스는 초기 단계부터 설계되어야 합니다.
프라이빗 AI 데이터 분석 시스템은 다음 질문에 답할 수 있어야 합니다:
- 누가 질문했는가?
- 시스템이 어떤 데이터에 접근했는가?
- 어떤 모델이 답변했는가?
- 어떤 도구가 실행되었는가?
- 어떤 쿼리나 공식이 생성되었는가?
- 어떤 결과가 반환되었는가?
- 민감한 데이터가 마스킹되었는가?
- 다른 사용자가 답변을 재현하거나 검토할 수 있는가?
이러한 질문은 규제 대상 팀에게 중요하지만, 일반적인 비즈니스 운영에도 중요합니다. AI의 답변이 예측이나 경영진 보고서에 영향을 미친다면, 누군가는 그 답변이 어디서 왔는지 알아야 합니다.
관측 가능성 및 평가
기업용 AI 분석에는 단순한 가동 시간 모니터링 이상의 것이 필요합니다.
운영 지표에는 다음이 포함됩니다:
- 지연 시간 (Latency)
- 토큰 사용량
- 모델 오류
- 도구 호출 실패
- 쿼리 실행 시간
- GPU 활용률
- 질문당 비용
품질 지표에는 다음이 포함됩니다:
- 답변의 정확성
- 인용의 정확도
- SQL 유효성
- 공식 유효성
- 환각(Hallucination) 발생 사례
- 사용자 수정률
- 명확화 요청률
우수한 팀들은 실제 질문과 예상 답변으로 구성된 테스트 세트를 구축합니다. 모델, 프롬프트, 도구 또는 검색 설정을 변경하기 전에 이를 실행합니다.

스프레드시트 특유의 요구 사항
스프레드시트는 유연하면서도 정돈되지 않은 특성 때문에 특별한 케이스로 다뤄야 합니다.
운영 시스템은 다음을 처리할 수 있어야 합니다:
- 다중 시트
- 숨겨진 시트
- 공식
- 병합된 셀
- 이름이 지정된 범위
- 메모/댓글
- 일관되지 않은 헤더
- 내보낸 CSV
- 피벗 형태의 요약
- 로컬 날짜 및 통화 형식
이것이 스프레드시트 AI가 일반적인 문서 Q&A와 다른 이유입니다. 시스템은 텍스트를 요약하는 것뿐만 아니라 구조를 이해하고 계산을 수행해야 합니다.
자체 구축 vs 솔루션 구매
프라이빗 AI 데이터 분석가를 직접 구축하면 최대한의 통제권을 가질 수 있지만, 많은 엔지니어링 리소스가 필요합니다. 많은 팀이 무엇을 구축할지 결정하기 전에 AI 리포팅부터 대시보드 전달까지 필요한 제품의 범위를 먼저 파악합니다:
- 모델 서빙
- 워크북 파싱
- 프롬프트 오케스트레이션
- 데이터 커넥터
- 샌드박스 실행 환경
- 접근 제어
- 감사 로깅
- 평가 시스템
- 사용자 인터페이스
전문화된 워크플로우 계층을 구매하거나 배포하면 그 경로를 단축할 수 있습니다.
핵심은 전체 전략을 하나의 모델에 고정하지 않는 것입니다. 모델은 빠르게 변합니다. 변하지 않는 부분은 기업 데이터를 둘러싼 통제된 워크플로우입니다.
RowSpeak의 역할
RowSpeak는 스프레드시트 네이티브 AI 분석을 위해 설계되었습니다. 특히 사용자를 원시 모델 엔드포인트로 직접 보내지 않고 AI 데이터 분석 기능이 필요한 팀에 적합합니다.
프라이빗 아키텍처에서 RowSpeak는 승인된 모델 엔드포인트와 데이터 시스템 상단에 위치할 수 있습니다. 모델은 추론을 제공하고, RowSpeak는 스프레드시트 업로드, 질문하기, 차트 생성, 요약 작성, 그리고 분석을 기본 데이터와 연결된 상태로 유지하는 워크플로우를 제공합니다.
이 점이 RowSpeak를 단순한 모델 서버와 다르게 만듭니다. RowSpeak는 AI 비즈니스 인텔리전스 데이터 전략에서 설명한 워크플로우와 유사하게, 프라이빗 AI 기능을 비즈니스 팀이 즉시 사용할 수 있는 분석 경험으로 전환해 주는 계층입니다.
마치며
프라이빗 AI 분석가는 하나의 모델과 하나의 프롬프트로 이루어지는 것이 아닙니다. 그것은 관리되는 '시스템'입니다.
성공적인 패턴은 다음과 같습니다:
LLM 추론 + 결정론적 연산 + 권한 인식 데이터 접근 + 감사 가능성 + 사용자가 이미 이해하고 있는 워크플로우.
많은 기업 팀에게 그 워크플로우는 여전히 스프레드시트에서 시작됩니다.
출처 및 추가 자료
- KServe: https://kserve.github.io/website/
- NVIDIA NIM: https://www.nvidia.com/en-us/ai-data-science/products/nim-microservices/
- dbt Semantic Layer: https://docs.getdbt.com/docs/use-dbt-semantic-layer/dbt-sl
- Snowflake Cortex Analyst: https://docs.snowflake.com/en/user-guide/snowflake-cortex/cortex-analyst
- vLLM OpenAI 호환 서버: https://docs.vllm.ai/en/latest/serving/openai_compatible_server/







