TEST URL
1. System Architecture
CATI 서비스는 3가지 핵심 AI 기술을 통합하여 전화 설문조사 운영을 자동화하고,
기존 상담원을 지능형 대화 시스템으로 대체합니다.
Component | Function |
TTS | Text-to-Speech 변환을 통한 음성 출력 |
STT | VAD 통합 Speech-to-Text 변환 |
LLM | 응답 검증 및 의도 분류 |
2. Core Features
2.1 Performance Optimization
TTS 캐싱 시스템
•
전체 질문 목록의 텍스트를 사전에 MP4로 변환
•
실시간 TTS 생성 없이 캐시된 파일 재생
•
응답 시간 대폭 단축 및 안정적인 음성 품질 보장
VAD (Voice Activity Detection)
•
사용자 발화 자동 감지로 응답 편의성 향상
•
실시간 음성 구간 탐지를 통한 STT 최적화
•
발화 종료 판단 기준
◦
무응답: 10초 대기
◦
응답 후: 1초 침묵 시 발화 완료 처리
2.2 Question Types
시스템이 지원하는 질문 유형은 다음과 같습니다.
질문 유형 | 설명 |
short_text | 주관식 단답형 응답 |
single_choice | 단일 선택형 객관식 응답 |
2.3 Voice Customization
응답자 특성에 맞춘 음성 커스터마이징 옵션을 제공합니다.
기본 설정
•
속도 조절 (speed)
•
성별 선택 (남성/여성)
음성 타입
•
대화형: 자연스러운 일상 대화 톤
•
나레이션: 명확하고 전문적인 전달 톤
•
교육용: 친근하고 이해하기 쉬운 설명 톤
3. Conversation Flow Control
3.1 Retry Logic
시스템은 다양한 시나리오에서 질문을 자동으로 재생합니다.
재생 트리거 조건
1.
명시적 요청 감지
•
"다시 들려줘"
•
"잘 못들었어"
•
유사한 뉘앙스의 표현 (LLM 기반 의도 파악)
2.
무응답 처리
•
10초간 응답 없을 시 자동 재생
•
3회 연속 무응답 시 설문 자동 종료
3.2 Session Termination
자동 종료 조건
•
3회 연속 무응답
•
명시적 종료 요청
•
시스템 오류 또는 타임아웃
4. Response Validation
4.1 LLM-Based Answer Parsing
LLM은 응답자의 다양한 표현 방식을 이해하고 정확한 선택지로 매핑합니다.
예시 1: 직접적 선택
보기: 매우만족 - 기대 이상의 경험
✓ "매우만족"
✓ "기대 이상의 경험"
✓ "1번"
TypeScript
복사
예시 2: 의미적 매칭
보기: 응답 속도 및 안정성
✓ "난 응답속도가 좋았어"
✓ "개인적으로 안정성이 마음에 들었어"
TypeScript
복사
예시 3: 범위 응답
보기: 9-10점 : 적극 추천하겠음
✓ "난 9점 정도 주고 싶어"
✓ "적극 추천할게"
✓ "9.5점 주고 싶어"
TypeScript
복사
4.2 Invalid Response Handling
유효하지 않은 응답 처리
보기: 1~5번 중 선택
응답: "7번"
→ "유효하지 않은 선택입니다. 다시 선택해주세요."
TypeScript
복사
4.3 Short Text Validation
주관식 응답 정책
•
주관적 추론 및 내용 검증은 수행하지 않음 (처리 시간 고려)
•
기본적인 형식 검증만 적용 (예: 최소 10글자 이상)
5. Security & Privacy
5.1 Content Filtering
필수 구현 항목
•
욕설 필터링: 부적절한 언어 자동 감지 및 차단
•
개인정보 보호: PII Masking 도입 필수
◦
전화번호, 주민등록번호, 카드번호 등 민감정보 자동 마스킹
◦
수집된 응답 데이터의 개인정보 비식별화
•
STT에 노이즈 제거 기능 필요
6. Advanced Features (Roadmap)
6.1 Logic Flow (필수 구현 예정)
조건부 질문 분기
•
응답에 따른 동적 질문지 변경
•
로직 기반 설문 흐름 제어
예시
Q1: 제품을 사용해보셨나요?
├─ "예" → Q2: 만족도를 평가해주세요
└─ "아니오" → Q3: 관심 있으신 이유는 무엇인가요?
TypeScript
복사
7. Technical Specifications
7.1 Latency Requirements
Operation | Target Latency |
TTS 재생 | < 100ms (캐시) |
STT 처리 | < 500ms |
LLM 응답 검증 | < 2000ms |
전체 턴 시간 | < 2초 |
7.2 Reliability Metrics
•
음성 인식 정확도: > 95%
•
의도 분류 정확도: > 90%
•
시스템 가동률: > 99.5%
8. Implementation Checklist
Phase 1: MVP ✓
TTS 캐싱 시스템
VAD 기반 STT
기본 LLM 응답 검증
2가지 질문 타입 지원
재시도 로직
음성 커스터마이징
Phase 2: Enhancement 
욕설 필터링
PII Masking
Logic Flow 엔진
고급 분석 대시보드
Phase 3: Scale 
다국어 지원
실시간 모니터링
엔터프라이즈 통합
9. Best Practices
9.1 Question Design
효과적인 질문 작성 가이드
•
명확하고 간결한 문장 사용
•
전문 용어 최소화
•
선택지는 5개 이하로 제한
•
중립적 표현 사용 (유도 질문 지양)
9.2 Voice Configuration
상황별 권장 설정
설문 유형 | 음성 타입 | 속도 | 성별 |
고객 만족도 | 대화형 | 보통 | 선택 |
제품 설명 | 교육용 | 느림 | 선택 |
간단 설문 | 나레이션 | 빠름 | 선택 |
.png&blockId=2c5a1e11-7a89-80c3-b490-e23355913b47)
.jpg&blockId=2c5a1e11-7a89-80c3-b490-e23355913b47&width=3600)
.png&blockId=2c5a1e11-7a89-80c3-b490-e23355913b47&width=256)
.jpg&blockId=2c5a1e11-7a89-8060-9d42-edb99cdd436b)







