Search

CATI AI Service MVP PRD

TEST URL

https://admin.curiai.io/ko/cati

1. System Architecture

CATI 서비스는 3가지 핵심 AI 기술을 통합하여 전화 설문조사 운영을 자동화하고,
기존 상담원을 지능형 대화 시스템으로 대체합니다.
Component
Function
TTS
Text-to-Speech 변환을 통한 음성 출력
STT
VAD 통합 Speech-to-Text 변환
LLM
응답 검증 및 의도 분류

2. Core Features

2.1 Performance Optimization

TTS 캐싱 시스템
전체 질문 목록의 텍스트를 사전에 MP4로 변환
실시간 TTS 생성 없이 캐시된 파일 재생
응답 시간 대폭 단축 및 안정적인 음성 품질 보장
VAD (Voice Activity Detection)
사용자 발화 자동 감지로 응답 편의성 향상
실시간 음성 구간 탐지를 통한 STT 최적화
발화 종료 판단 기준
무응답: 10초 대기
응답 후: 1초 침묵 시 발화 완료 처리

2.2 Question Types

시스템이 지원하는 질문 유형은 다음과 같습니다.
질문 유형
설명
short_text
주관식 단답형 응답
single_choice
단일 선택형 객관식 응답

2.3 Voice Customization

응답자 특성에 맞춘 음성 커스터마이징 옵션을 제공합니다.
기본 설정
속도 조절 (speed)
성별 선택 (남성/여성)
음성 타입
대화형: 자연스러운 일상 대화 톤
나레이션: 명확하고 전문적인 전달 톤
교육용: 친근하고 이해하기 쉬운 설명 톤

3. Conversation Flow Control

3.1 Retry Logic

시스템은 다양한 시나리오에서 질문을 자동으로 재생합니다.
재생 트리거 조건
1.
명시적 요청 감지
"다시 들려줘"
"잘 못들었어"
유사한 뉘앙스의 표현 (LLM 기반 의도 파악)
2.
무응답 처리
10초간 응답 없을 시 자동 재생
3회 연속 무응답 시 설문 자동 종료

3.2 Session Termination

자동 종료 조건
3회 연속 무응답
명시적 종료 요청
시스템 오류 또는 타임아웃

4. Response Validation

4.1 LLM-Based Answer Parsing

LLM은 응답자의 다양한 표현 방식을 이해하고 정확한 선택지로 매핑합니다.
예시 1: 직접적 선택
보기: 매우만족 - 기대 이상의 경험 ✓ "매우만족""기대 이상의 경험""1번"
TypeScript
복사
예시 2: 의미적 매칭
보기: 응답 속도 및 안정성 ✓ "난 응답속도가 좋았어""개인적으로 안정성이 마음에 들었어"
TypeScript
복사
예시 3: 범위 응답
보기: 9-10: 적극 추천하겠음 ✓ "난 9점 정도 주고 싶어""적극 추천할게""9.5점 주고 싶어"
TypeScript
복사

4.2 Invalid Response Handling

유효하지 않은 응답 처리
보기: 1~5번 중 선택 응답: "7번""유효하지 않은 선택입니다. 다시 선택해주세요."
TypeScript
복사

4.3 Short Text Validation

주관식 응답 정책
주관적 추론 및 내용 검증은 수행하지 않음 (처리 시간 고려)
기본적인 형식 검증만 적용 (예: 최소 10글자 이상)

5. Security & Privacy

5.1 Content Filtering

필수 구현 항목
욕설 필터링: 부적절한 언어 자동 감지 및 차단
개인정보 보호: PII Masking 도입 필수
전화번호, 주민등록번호, 카드번호 등 민감정보 자동 마스킹
수집된 응답 데이터의 개인정보 비식별화
STT에 노이즈 제거 기능 필요

6. Advanced Features (Roadmap)

6.1 Logic Flow (필수 구현 예정)

조건부 질문 분기
응답에 따른 동적 질문지 변경
로직 기반 설문 흐름 제어
예시
Q1: 제품을 사용해보셨나요? ├─ "예"Q2: 만족도를 평가해주세요 └─ "아니오"Q3: 관심 있으신 이유는 무엇인가요?
TypeScript
복사

7. Technical Specifications

7.1 Latency Requirements

Operation
Target Latency
TTS 재생
< 100ms (캐시)
STT 처리
< 500ms
LLM 응답 검증
< 2000ms
전체 턴 시간
< 2초

7.2 Reliability Metrics

음성 인식 정확도: > 95%
의도 분류 정확도: > 90%
시스템 가동률: > 99.5%

8. Implementation Checklist

Phase 1: MVP ✓

TTS 캐싱 시스템
VAD 기반 STT
기본 LLM 응답 검증
2가지 질문 타입 지원
재시도 로직
음성 커스터마이징

Phase 2: Enhancement

욕설 필터링
PII Masking
Logic Flow 엔진
고급 분석 대시보드

Phase 3: Scale

다국어 지원
실시간 모니터링
엔터프라이즈 통합

9. Best Practices

9.1 Question Design

효과적인 질문 작성 가이드
명확하고 간결한 문장 사용
전문 용어 최소화
선택지는 5개 이하로 제한
중립적 표현 사용 (유도 질문 지양)

9.2 Voice Configuration

상황별 권장 설정
설문 유형
음성 타입
속도
성별
고객 만족도
대화형
보통
선택
제품 설명
교육용
느림
선택
간단 설문
나레이션
빠름
선택