CATI AI Service MVP PRD

TEST URL

https://admin.curiai.io/ko/cati

1. System Architecture

CATI 서비스는 3가지 핵심 AI 기술을 통합하여 전화 설문조사 운영을 자동화하고,

기존 상담원을 지능형 대화 시스템으로 대체합니다.

Component	Function
TTS	Text-to-Speech 변환을 통한 음성 출력
STT	VAD 통합 Speech-to-Text 변환
LLM	응답 검증 및 의도 분류

2. Core Features

2.1 Performance Optimization

TTS 캐싱 시스템

•

전체 질문 목록의 텍스트를 사전에 MP4로 변환

•

실시간 TTS 생성 없이 캐시된 파일 재생

•

응답 시간 대폭 단축 및 안정적인 음성 품질 보장

VAD (Voice Activity Detection)

•

사용자 발화 자동 감지로 응답 편의성 향상

•

실시간 음성 구간 탐지를 통한 STT 최적화

•

발화 종료 판단 기준

◦

무응답: 10초 대기

◦

응답 후: 1초 침묵 시 발화 완료 처리

2.2 Question Types

시스템이 지원하는 질문 유형은 다음과 같습니다.

질문 유형	설명
short_text	주관식 단답형 응답
single_choice	단일 선택형 객관식 응답

2.3 Voice Customization

응답자 특성에 맞춘 음성 커스터마이징 옵션을 제공합니다.

기본 설정

•

속도 조절 (speed)

•

성별 선택 (남성/여성)

음성 타입

•

대화형: 자연스러운 일상 대화 톤

•

나레이션: 명확하고 전문적인 전달 톤

•

교육용: 친근하고 이해하기 쉬운 설명 톤

3. Conversation Flow Control

3.1 Retry Logic

시스템은 다양한 시나리오에서 질문을 자동으로 재생합니다.

재생 트리거 조건

명시적 요청 감지

•

"다시 들려줘"

•

"잘 못들었어"

•

유사한 뉘앙스의 표현 (LLM 기반 의도 파악)

무응답 처리

•

10초간 응답 없을 시 자동 재생

•

3회 연속 무응답 시 설문 자동 종료

3.2 Session Termination

자동 종료 조건

•

3회 연속 무응답

•

명시적 종료 요청

•

시스템 오류 또는 타임아웃

4. Response Validation

4.1 LLM-Based Answer Parsing

LLM은 응답자의 다양한 표현 방식을 이해하고 정확한 선택지로 매핑합니다.

예시 1: 직접적 선택

보기: 매우만족 - 기대 이상의 경험

✓ "매우만족"
✓ "기대 이상의 경험"
✓ "1번"
TypeScript
복사

예시 2: 의미적 매칭

보기: 응답 속도 및 안정성

✓ "난 응답속도가 좋았어"
✓ "개인적으로 안정성이 마음에 들었어"
TypeScript
복사

예시 3: 범위 응답

보기: 9-10점 : 적극 추천하겠음

✓ "난 9점 정도 주고 싶어"
✓ "적극 추천할게"
✓ "9.5점 주고 싶어"
TypeScript
복사

4.2 Invalid Response Handling

유효하지 않은 응답 처리

보기: 1~5번 중 선택
응답: "7번"

→ "유효하지 않은 선택입니다. 다시 선택해주세요."
TypeScript
복사

4.3 Short Text Validation

주관식 응답 정책

•

주관적 추론 및 내용 검증은 수행하지 않음 (처리 시간 고려)

•

기본적인 형식 검증만 적용 (예: 최소 10글자 이상)

5. Security & Privacy

5.1 Content Filtering

필수 구현 항목

•

욕설 필터링: 부적절한 언어 자동 감지 및 차단

•

개인정보 보호: PII Masking 도입 필수

◦

전화번호, 주민등록번호, 카드번호 등 민감정보 자동 마스킹

◦

수집된 응답 데이터의 개인정보 비식별화

•

STT에 노이즈 제거 기능 필요

6. Advanced Features (Roadmap)

6.1 Logic Flow (필수 구현 예정)

조건부 질문 분기

•

응답에 따른 동적 질문지 변경

•

로직 기반 설문 흐름 제어

예시

Q1: 제품을 사용해보셨나요?
├─ "예" → Q2: 만족도를 평가해주세요
└─ "아니오" → Q3: 관심 있으신 이유는 무엇인가요?
TypeScript
복사

7. Technical Specifications

7.1 Latency Requirements

Operation	Target Latency
TTS 재생	< 100ms (캐시)
STT 처리	< 500ms
LLM 응답 검증	< 2000ms
전체 턴 시간	< 2초

7.2 Reliability Metrics

•

음성 인식 정확도: > 95%

•

의도 분류 정확도: > 90%

•

시스템 가동률: > 99.5%

8. Implementation Checklist

Phase 1: MVP ✓

TTS 캐싱 시스템

VAD 기반 STT

기본 LLM 응답 검증

2가지 질문 타입 지원

재시도 로직

음성 커스터마이징

Phase 2: Enhancement

욕설 필터링

PII Masking

Logic Flow 엔진

고급 분석 대시보드

Phase 3: Scale

다국어 지원

실시간 모니터링

엔터프라이즈 통합

9. Best Practices

9.1 Question Design

효과적인 질문 작성 가이드

•

명확하고 간결한 문장 사용

•

전문 용어 최소화

•

선택지는 5개 이하로 제한

•

중립적 표현 사용 (유도 질문 지양)

9.2 Voice Configuration

상황별 권장 설정

설문 유형	음성 타입	속도	성별
고객 만족도	대화형	보통	선택
제품 설명	교육용	느림	선택
간단 설문	나레이션	빠름	선택