ADsP 핵심 개념 정리, 3과목 50문항 한 번에

시험 전날 딱 이것만 보세요

ADsP 교재가 두꺼워서 "도대체 뭐부터 봐야 하지" 막막한 분들이 많아요. 3과목 전체에서 매회 반복 출제되는 핵심 개념만 뽑아서 정리했습니다. 시험 직전 2–3시간 훑기용으로 좋아요.

1과목: 데이터 이해 (10문항)

DIKW 피라미드

데이터 → 정보 → 지식 → 지혜 순서. 사례 매칭 문제로 매회 출제돼요.

단계	정의	예시
데이터	가공 전 사실	"서울 1월 평균 기온 -2.4℃"
정보	의미 부여	"서울이 부산보다 춥다"
지식	행동 방향	"서울 출장 시 외투 필수"
지혜	일반화·판단	"북부 지역 출장은 실내 일정 위주로"

데이터베이스 특성 4가지

통합·저장·공유·운영. 각각 한 줄 정의 외우세요.

통합: 중복 최소화
저장: 컴퓨터 매체에 저장
공유: 여러 사용자 동시 이용
운영: 조직의 필수 데이터

빅데이터 3V / 5V

3V: Volume(규모) · Velocity(속도) · Variety(다양성)
5V: + Veracity(정확성) + Value(가치)

"Validity(타당성)는 포함되지 않는다" 같은 오답 보기가 단골이에요.

OLTP vs OLAP

	OLTP	OLAP
목적	거래 처리	분석·의사결정
예시	은행 입출금	매출 대시보드
쿼리 특성	짧고 빈번	길고 복잡

데이터 사이언티스트 역량

Hard Skill: 통계·머신러닝·프로그래밍·DB
Soft Skill: 커뮤니케이션·스토리텔링·호기심·도메인 이해

"통계 분석"을 Soft Skill로 넣는 오답 보기가 자주 나와요.

2과목: 데이터 분석 기획 (10문항)

분석 방법론 3가지

방법론	개발 주체	단계
KDD	학술적	선택→전처리→변환→마이닝→해석/평가
CRISP-DM	산업계	비즈니스 이해→데이터 이해→데이터 준비→모델링→평가→배포
SEMMA	SAS	Sample→Explore→Modify→Model→Assess

CRISP-DM의 "배포(Deployment)" 단계는 시험 단골. KDD/SEMMA에는 배포가 없다는 걸 기억하세요.

분석과제 발굴 방법

하향식(Top-Down): 비즈니스 문제 정의 → 분석 과제 도출
- 절차: 문제 탐색 → 문제 정의 → 해결방안 탐색 → 타당성 검토
상향식(Bottom-Up): 데이터에서 패턴 발견 → 기회 탐색
- 프로토타이핑 활용

분석 성숙도 모델

도입 → 활용 → 확산 → 최적화 4단계. "확산 단계는 부서를 넘어 전사적으로 확대" 같은 문장이 단골.

분석 거버넌스 4대 구성 요소

조직 · 프로세스 · 시스템 · 데이터. 넷 중 하나를 빼거나 엉뚱한 걸 추가한 보기가 오답.

위험 대응 전략 4가지

회피 · 전가 · 완화 · 수용. "보험 가입 = 전가" 같은 사례 매칭 자주 출제.

MDM·메타데이터·데이터 품질

MDM: 핵심 기준 정보(고객·제품·공급자) 일관성 관리
메타데이터: 데이터에 대한 데이터 (비즈니스·기술·운영 3종)
품질 기준: 정확성·완전성·일관성·적시성·유일성

3과목: 데이터 분석 (30문항)

R 프로그래밍 기초

x <- c(1, 2, 3, 4, 5)    # 벡터 생성
mean(x)                  # 3
sum(x, na.rm = TRUE)     # NA 제거하고 합산

c() = 벡터 / list() = 리스트 / matrix() = 행렬 / data.frame() = 데이터프레임
na.rm = TRUE는 NA를 제외하고 계산

통계 분석 기초

기술통계: 평균·중앙값·표준편차 (요약)
추론통계: 가설검정·신뢰구간·회귀분석 (추정)
제1종 오류(α): 귀무가설 참인데 기각 (보수적으로 통제)
제2종 오류(β): 귀무가설 거짓인데 채택

회귀분석

종류	특징
단순 선형	독립변수 1개, 연속형 종속변수
다중 선형	독립변수 2개 이상
로지스틱	종속변수가 범주형(0/1)
릿지 (Ridge)	L2 규제, 계수 크기 축소
라쏘 (Lasso)	L1 규제, 계수를 0으로 → 변수 선택 효과

릿지=L2, 라쏘=L1. 반대로 쓴 보기가 매회 나옵니다.

분류분석

알고리즘	핵심
의사결정나무	불순도 지표: 지니·엔트로피·카이제곱
KNN	가까운 K개 참조. K 크면 단순(과소적합)
SVM	초평면으로 분리
나이브베이즈	조건부 확률 기반

의사결정나무 불순도 지표에 MSE는 포함 안 됨(회귀 손실함수). 오답 보기 단골.

앙상블

방법	특성
배깅 (Bagging)	병렬 학습, 분산 감소 (랜덤포레스트)
부스팅 (Boosting)	순차 학습, 편향 감소 (AdaBoost, XGBoost)

군집분석

K-means: 비지도학습, 사전에 K 지정, 중심점 할당 반복
계층적 군집 연결법:
- 단일(Single) = 가장 가까운 점
- 완전(Complete) = 가장 먼 점
- 평균(Average) = 평균 거리
- 중심(Centroid) = 중심점 거리

거리 측도

이름	수식 (2D)
유클리디안	√((x₁-x₂)² + (y₁-y₂)²)
맨해튼	\|x₁-x₂\| + \|y₁-y₂\|
체비셰프	max(\|x₁-x₂\|, \|y₁-y₂\|)

연관분석 (매회 계산 문제 출제)

거래 100건, A 40건, B 50건, A∩B 20건인 경우:

지지도 Support(A,B) = P(A∩B) = 20/100 = 0.2
신뢰도 Confidence(A→B) = P(B|A) = 20/40 = 0.5
향상도 Lift(A→B) = Conf / P(B) = 0.5/0.5 = 1.0

향상도 해석: 1이면 독립, 1 초과면 양의 연관, 1 미만이면 음의 연관.

시계열 분석

정상성: 평균·분산·자기공분산이 시간에 따라 불변
ARIMA(p, d, q): p=AR차수, d=차분 횟수, q=MA차수
지수 평활법의 α가 1에 가까울수록 최근 값 영향 ↑

PCA / MDS

PCA: 분산 최대 보존하면서 차원 축소. 고유값·고유벡터 기반
MDS: 객체 간 거리(유사성) 보존하면서 차원 축소
주성분 선택 기준: 고유값 1 이상 / 누적 분산 80% 이상 / 스크리 도표 꺾임

모형 평가

혼동행렬 기반 지표:

지표	공식
정확도 (Accuracy)	(TP+TN) / 전체
정밀도 (Precision)	TP / (TP+FP)
재현율 (Recall)	TP / (TP+FN)

ROC 곡선: x축=위양성률(FPR), y축=참양성률(TPR). 좌상단에 가까울수록 좋음
AUC: 0.5=랜덤, 1.0=완벽

시험 직전 최종 점검

시험 들어가기 30분 전, 이것만 다시 보세요:

DIKW 순서 + 사례 매칭
CRISP-DM 6단계
릿지(L2) vs 라쏘(L1)
연관분석 지지도·신뢰도·향상도 공식
혼동행렬 정확도·정밀도·재현율 공식
배깅(분산↓) vs 부스팅(편향↓)
계층적 군집 4가지 연결법

이 7개만 머리에 들어있으면 3과목 절반은 커버됩니다.

정리

ADsP는 개념이 넓은 대신 깊이는 얕은 시험이에요. 완벽히 이해하려 하지 말고, 정의·공식·분류체계를 표로 외우는 게 제일 빠릅니다. 핵심 개념 7개만 확실히 잡고 모의고사로 감각 맞추면 충분해요.

ADsP 모의고사 풀러 가기 →