시험 전날 딱 이것만 보세요
ADsP 교재가 두꺼워서 "도대체 뭐부터 봐야 하지" 막막한 분들이 많아요. 3과목 전체에서 매회 반복 출제되는 핵심 개념만 뽑아서 정리했습니다. 시험 직전 2–3시간 훑기용으로 좋아요.
1과목: 데이터 이해 (10문항)
DIKW 피라미드
데이터 → 정보 → 지식 → 지혜 순서. 사례 매칭 문제로 매회 출제돼요.
| 단계 | 정의 | 예시 |
|---|---|---|
| 데이터 | 가공 전 사실 | "서울 1월 평균 기온 -2.4℃" |
| 정보 | 의미 부여 | "서울이 부산보다 춥다" |
| 지식 | 행동 방향 | "서울 출장 시 외투 필수" |
| 지혜 | 일반화·판단 | "북부 지역 출장은 실내 일정 위주로" |
데이터베이스 특성 4가지
통합·저장·공유·운영. 각각 한 줄 정의 외우세요.
- 통합: 중복 최소화
- 저장: 컴퓨터 매체에 저장
- 공유: 여러 사용자 동시 이용
- 운영: 조직의 필수 데이터
빅데이터 3V / 5V
- 3V: Volume(규모) · Velocity(속도) · Variety(다양성)
- 5V: + Veracity(정확성) + Value(가치)
"Validity(타당성)는 포함되지 않는다" 같은 오답 보기가 단골이에요.
OLTP vs OLAP
| OLTP | OLAP | |
|---|---|---|
| 목적 | 거래 처리 | 분석·의사결정 |
| 예시 | 은행 입출금 | 매출 대시보드 |
| 쿼리 특성 | 짧고 빈번 | 길고 복잡 |
데이터 사이언티스트 역량
- Hard Skill: 통계·머신러닝·프로그래밍·DB
- Soft Skill: 커뮤니케이션·스토리텔링·호기심·도메인 이해
2과목: 데이터 분석 기획 (10문항)
분석 방법론 3가지
| 방법론 | 개발 주체 | 단계 |
|---|---|---|
| KDD | 학술적 | 선택→전처리→변환→마이닝→해석/평가 |
| CRISP-DM | 산업계 | 비즈니스 이해→데이터 이해→데이터 준비→모델링→평가→배포 |
| SEMMA | SAS | Sample→Explore→Modify→Model→Assess |
CRISP-DM의 "배포(Deployment)" 단계는 시험 단골. KDD/SEMMA에는 배포가 없다는 걸 기억하세요.
분석과제 발굴 방법
- 하향식(Top-Down): 비즈니스 문제 정의 → 분석 과제 도출
- 절차: 문제 탐색 → 문제 정의 → 해결방안 탐색 → 타당성 검토
- 상향식(Bottom-Up): 데이터에서 패턴 발견 → 기회 탐색
- 프로토타이핑 활용
분석 성숙도 모델
도입 → 활용 → 확산 → 최적화 4단계. "확산 단계는 부서를 넘어 전사적으로 확대" 같은 문장이 단골.
분석 거버넌스 4대 구성 요소
조직 · 프로세스 · 시스템 · 데이터. 넷 중 하나를 빼거나 엉뚱한 걸 추가한 보기가 오답.
위험 대응 전략 4가지
회피 · 전가 · 완화 · 수용. "보험 가입 = 전가" 같은 사례 매칭 자주 출제.
MDM·메타데이터·데이터 품질
- MDM: 핵심 기준 정보(고객·제품·공급자) 일관성 관리
- 메타데이터: 데이터에 대한 데이터 (비즈니스·기술·운영 3종)
- 품질 기준: 정확성·완전성·일관성·적시성·유일성
3과목: 데이터 분석 (30문항)
R 프로그래밍 기초
x <- c(1, 2, 3, 4, 5) # 벡터 생성
mean(x) # 3
sum(x, na.rm = TRUE) # NA 제거하고 합산
c()= 벡터 /list()= 리스트 /matrix()= 행렬 /data.frame()= 데이터프레임na.rm = TRUE는 NA를 제외하고 계산
통계 분석 기초
- 기술통계: 평균·중앙값·표준편차 (요약)
- 추론통계: 가설검정·신뢰구간·회귀분석 (추정)
- 제1종 오류(α): 귀무가설 참인데 기각 (보수적으로 통제)
- 제2종 오류(β): 귀무가설 거짓인데 채택
회귀분석
| 종류 | 특징 |
|---|---|
| 단순 선형 | 독립변수 1개, 연속형 종속변수 |
| 다중 선형 | 독립변수 2개 이상 |
| 로지스틱 | 종속변수가 범주형(0/1) |
| 릿지 (Ridge) | L2 규제, 계수 크기 축소 |
| 라쏘 (Lasso) | L1 규제, 계수를 0으로 → 변수 선택 효과 |
분류분석
| 알고리즘 | 핵심 |
|---|---|
| 의사결정나무 | 불순도 지표: 지니·엔트로피·카이제곱 |
| KNN | 가까운 K개 참조. K 크면 단순(과소적합) |
| SVM | 초평면으로 분리 |
| 나이브베이즈 | 조건부 확률 기반 |
의사결정나무 불순도 지표에 MSE는 포함 안 됨(회귀 손실함수). 오답 보기 단골.
앙상블
| 방법 | 특성 |
|---|---|
| 배깅 (Bagging) | 병렬 학습, 분산 감소 (랜덤포레스트) |
| 부스팅 (Boosting) | 순차 학습, 편향 감소 (AdaBoost, XGBoost) |
군집분석
- K-means: 비지도학습, 사전에 K 지정, 중심점 할당 반복
- 계층적 군집 연결법:
- 단일(Single) = 가장 가까운 점
- 완전(Complete) = 가장 먼 점
- 평균(Average) = 평균 거리
- 중심(Centroid) = 중심점 거리
거리 측도
| 이름 | 수식 (2D) |
|---|---|
| 유클리디안 | √((x₁-x₂)² + (y₁-y₂)²) |
| 맨해튼 | |x₁-x₂| + |y₁-y₂| |
| 체비셰프 | max(|x₁-x₂|, |y₁-y₂|) |
연관분석 (매회 계산 문제 출제)
거래 100건, A 40건, B 50건, A∩B 20건인 경우:
- 지지도 Support(A,B) = P(A∩B) = 20/100 = 0.2
- 신뢰도 Confidence(A→B) = P(B|A) = 20/40 = 0.5
- 향상도 Lift(A→B) = Conf / P(B) = 0.5/0.5 = 1.0
향상도 해석: 1이면 독립, 1 초과면 양의 연관, 1 미만이면 음의 연관.
시계열 분석
- 정상성: 평균·분산·자기공분산이 시간에 따라 불변
- ARIMA(p, d, q): p=AR차수, d=차분 횟수, q=MA차수
- 지수 평활법의 α가 1에 가까울수록 최근 값 영향 ↑
PCA / MDS
- PCA: 분산 최대 보존하면서 차원 축소. 고유값·고유벡터 기반
- MDS: 객체 간 거리(유사성) 보존하면서 차원 축소
- 주성분 선택 기준: 고유값 1 이상 / 누적 분산 80% 이상 / 스크리 도표 꺾임
모형 평가
혼동행렬 기반 지표:
| 지표 | 공식 |
|---|---|
| 정확도 (Accuracy) | (TP+TN) / 전체 |
| 정밀도 (Precision) | TP / (TP+FP) |
| 재현율 (Recall) | TP / (TP+FN) |
- ROC 곡선: x축=위양성률(FPR), y축=참양성률(TPR). 좌상단에 가까울수록 좋음
- AUC: 0.5=랜덤, 1.0=완벽
시험 직전 최종 점검
시험 들어가기 30분 전, 이것만 다시 보세요:- DIKW 순서 + 사례 매칭
- CRISP-DM 6단계
- 릿지(L2) vs 라쏘(L1)
- 연관분석 지지도·신뢰도·향상도 공식
- 혼동행렬 정확도·정밀도·재현율 공식
- 배깅(분산↓) vs 부스팅(편향↓)
- 계층적 군집 4가지 연결법
이 7개만 머리에 들어있으면 3과목 절반은 커버됩니다.
정리
ADsP는 개념이 넓은 대신 깊이는 얕은 시험이에요. 완벽히 이해하려 하지 말고, 정의·공식·분류체계를 표로 외우는 게 제일 빠릅니다. 핵심 개념 7개만 확실히 잡고 모의고사로 감각 맞추면 충분해요.