ADsP2026년 4월 15일· 10 min read

ADsP 핵심 개념 정리, 3과목 50문항 한 번에

ADsP 시험에서 매회 출제되는 핵심 개념만 3과목별로 정리했습니다. 시험 직전 복습용으로 활용하세요.

안녕하세요. 문어입니다 🐙


시험 전날 딱 이것만 보세요

ADsP 교재가 두꺼워서 "도대체 뭐부터 봐야 하지" 막막한 분들이 많아요. 3과목 전체에서 매회 반복 출제되는 핵심 개념만 뽑아서 정리했습니다. 시험 직전 2–3시간 훑기용으로 좋아요.


1과목: 데이터 이해 (10문항)

DIKW 피라미드

데이터 → 정보 → 지식 → 지혜 순서. 사례 매칭 문제로 매회 출제돼요.

단계정의예시
데이터가공 전 사실"서울 1월 평균 기온 -2.4℃"
정보의미 부여"서울이 부산보다 춥다"
지식행동 방향"서울 출장 시 외투 필수"
지혜일반화·판단"북부 지역 출장은 실내 일정 위주로"

데이터베이스 특성 4가지

통합·저장·공유·운영. 각각 한 줄 정의 외우세요.

  • 통합: 중복 최소화
  • 저장: 컴퓨터 매체에 저장
  • 공유: 여러 사용자 동시 이용
  • 운영: 조직의 필수 데이터

빅데이터 3V / 5V

  • 3V: Volume(규모) · Velocity(속도) · Variety(다양성)
  • 5V: + Veracity(정확성) + Value(가치)

"Validity(타당성)는 포함되지 않는다" 같은 오답 보기가 단골이에요.

OLTP vs OLAP

OLTPOLAP
목적거래 처리분석·의사결정
예시은행 입출금매출 대시보드
쿼리 특성짧고 빈번길고 복잡

데이터 사이언티스트 역량

  • Hard Skill: 통계·머신러닝·프로그래밍·DB
  • Soft Skill: 커뮤니케이션·스토리텔링·호기심·도메인 이해
"통계 분석"을 Soft Skill로 넣는 오답 보기가 자주 나와요.

2과목: 데이터 분석 기획 (10문항)

분석 방법론 3가지

방법론개발 주체단계
KDD학술적선택→전처리→변환→마이닝→해석/평가
CRISP-DM산업계비즈니스 이해→데이터 이해→데이터 준비→모델링→평가→배포
SEMMASASSample→Explore→Modify→Model→Assess
CRISP-DM의 "배포(Deployment)" 단계는 시험 단골. KDD/SEMMA에는 배포가 없다는 걸 기억하세요.

분석과제 발굴 방법

  • 하향식(Top-Down): 비즈니스 문제 정의 → 분석 과제 도출
    • 절차: 문제 탐색 → 문제 정의 → 해결방안 탐색 → 타당성 검토
  • 상향식(Bottom-Up): 데이터에서 패턴 발견 → 기회 탐색
    • 프로토타이핑 활용

분석 성숙도 모델

도입 → 활용 → 확산 → 최적화 4단계. "확산 단계는 부서를 넘어 전사적으로 확대" 같은 문장이 단골.

분석 거버넌스 4대 구성 요소

조직 · 프로세스 · 시스템 · 데이터. 넷 중 하나를 빼거나 엉뚱한 걸 추가한 보기가 오답.

위험 대응 전략 4가지

회피 · 전가 · 완화 · 수용. "보험 가입 = 전가" 같은 사례 매칭 자주 출제.

MDM·메타데이터·데이터 품질

  • MDM: 핵심 기준 정보(고객·제품·공급자) 일관성 관리
  • 메타데이터: 데이터에 대한 데이터 (비즈니스·기술·운영 3종)
  • 품질 기준: 정확성·완전성·일관성·적시성·유일성

3과목: 데이터 분석 (30문항)

R 프로그래밍 기초

x <- c(1, 2, 3, 4, 5)    # 벡터 생성
mean(x)                  # 3
sum(x, na.rm = TRUE)     # NA 제거하고 합산
  • c() = 벡터 / list() = 리스트 / matrix() = 행렬 / data.frame() = 데이터프레임
  • na.rm = TRUE는 NA를 제외하고 계산

통계 분석 기초

  • 기술통계: 평균·중앙값·표준편차 (요약)
  • 추론통계: 가설검정·신뢰구간·회귀분석 (추정)
  • 제1종 오류(α): 귀무가설 참인데 기각 (보수적으로 통제)
  • 제2종 오류(β): 귀무가설 거짓인데 채택

회귀분석

종류특징
단순 선형독립변수 1개, 연속형 종속변수
다중 선형독립변수 2개 이상
로지스틱종속변수가 범주형(0/1)
릿지 (Ridge)L2 규제, 계수 크기 축소
라쏘 (Lasso)L1 규제, 계수를 0으로 → 변수 선택 효과
릿지=L2, 라쏘=L1. 반대로 쓴 보기가 매회 나옵니다.

분류분석

알고리즘핵심
의사결정나무불순도 지표: 지니·엔트로피·카이제곱
KNN가까운 K개 참조. K 크면 단순(과소적합)
SVM초평면으로 분리
나이브베이즈조건부 확률 기반

의사결정나무 불순도 지표에 MSE는 포함 안 됨(회귀 손실함수). 오답 보기 단골.

앙상블

방법특성
배깅 (Bagging)병렬 학습, 분산 감소 (랜덤포레스트)
부스팅 (Boosting)순차 학습, 편향 감소 (AdaBoost, XGBoost)

군집분석

  • K-means: 비지도학습, 사전에 K 지정, 중심점 할당 반복
  • 계층적 군집 연결법:
    • 단일(Single) = 가장 가까운 점
    • 완전(Complete) = 가장 먼 점
    • 평균(Average) = 평균 거리
    • 중심(Centroid) = 중심점 거리

거리 측도

이름수식 (2D)
유클리디안√((x₁-x₂)² + (y₁-y₂)²)
맨해튼|x₁-x₂| + |y₁-y₂|
체비셰프max(|x₁-x₂|, |y₁-y₂|)

연관분석 (매회 계산 문제 출제)

거래 100건, A 40건, B 50건, A∩B 20건인 경우:

  • 지지도 Support(A,B) = P(A∩B) = 20/100 = 0.2
  • 신뢰도 Confidence(A→B) = P(B|A) = 20/40 = 0.5
  • 향상도 Lift(A→B) = Conf / P(B) = 0.5/0.5 = 1.0

향상도 해석: 1이면 독립, 1 초과면 양의 연관, 1 미만이면 음의 연관.

시계열 분석

  • 정상성: 평균·분산·자기공분산이 시간에 따라 불변
  • ARIMA(p, d, q): p=AR차수, d=차분 횟수, q=MA차수
  • 지수 평활법의 α가 1에 가까울수록 최근 값 영향 ↑

PCA / MDS

  • PCA: 분산 최대 보존하면서 차원 축소. 고유값·고유벡터 기반
  • MDS: 객체 간 거리(유사성) 보존하면서 차원 축소
  • 주성분 선택 기준: 고유값 1 이상 / 누적 분산 80% 이상 / 스크리 도표 꺾임

모형 평가

혼동행렬 기반 지표:

지표공식
정확도 (Accuracy)(TP+TN) / 전체
정밀도 (Precision)TP / (TP+FP)
재현율 (Recall)TP / (TP+FN)
  • ROC 곡선: x축=위양성률(FPR), y축=참양성률(TPR). 좌상단에 가까울수록 좋음
  • AUC: 0.5=랜덤, 1.0=완벽

시험 직전 최종 점검

시험 들어가기 30분 전, 이것만 다시 보세요:
  1. DIKW 순서 + 사례 매칭
  2. CRISP-DM 6단계
  3. 릿지(L2) vs 라쏘(L1)
  4. 연관분석 지지도·신뢰도·향상도 공식
  5. 혼동행렬 정확도·정밀도·재현율 공식
  6. 배깅(분산↓) vs 부스팅(편향↓)
  7. 계층적 군집 4가지 연결법

이 7개만 머리에 들어있으면 3과목 절반은 커버됩니다.


정리

ADsP는 개념이 넓은 대신 깊이는 얕은 시험이에요. 완벽히 이해하려 하지 말고, 정의·공식·분류체계를 표로 외우는 게 제일 빠릅니다. 핵심 개념 7개만 확실히 잡고 모의고사로 감각 맞추면 충분해요.

ADsP 모의고사 풀러 가기 →

직접 문제를 풀어보세요

매번 새로운 모의고사와 무한 풀이 모드로 실전 감각을 키울 수 있습니다.