빅데이터 정의
- 기존 데이터베이스 관리 도구는 처리할 수 없을 만큼 방대하고 빠르게 생산되는 다양한 형식의 데이터
- 단순히 많은 양이 아니라, 기존 데이터 처리 방식으로는 분석이 어렵거나 불가능한 복합적인 데이터를 의미
빅데이터 5가지 핵심 속성
| 요소 | 설명 | 예시 |
|---|---|---|
| Volume(규모) | 데이터의 양이 방대함 | 하루 5억 건 이상 생성되는 트위터 게시글 |
| Velocity(속도) | 실시간 또는 매우 빠른 속도로 생성됨 | 금융 거래 로그, loT 센서 데이터 |
| Variety(다양성) | 텍스트, 이미지, 영상 등 다양한 형식 | SNS 텍스트, CCTV 영상, 음성데이터 |
| Veracity(정확성) | 데이터의 신뢰성과 품질 문제 | 허위 뉴스, 오류 포함된 사용자 입력 |
| Value(가치) | 데이터로부터 도출되는 인사이트와 활용 가치 | 고객 이탈 예측, 맞춤형 추천 |
AI 모델링 전 과정에 영향을 줌
정형 데이터와 비정형 데이터
정형 데이터란?
행(Row)과 열(Column)로 구성된 테이블 형태의 구조화된 데이터
전처리가 비교적 용이하고 분석 고구의 자동화 적용이 쉬움
컬럼 타입 -> 범주형, 수치형, 순서형
- 엑셀 파일
- 관계형 데이터베이스
- CSV 파일
비정형 데이터란?
구조가 없거나 분석 전 구조화가 필요한 데이터
- 자연어
- 이미지
- 음성
정형 데이터 분석 프로세스 흐름
1. 데이터 수집
CSV, Excel, DB 등으로부터 데이터 확보
활용 도구: Python, Pandas, SQL
2. 데이터 저장
로컬 또는 클라우드 기반의 저장소
활용 도구: Google Drive, SQLite, AWS S3
3. 데이터 처리(전처리)
결측치 처리, 이상치 제거, 형 변환 등
활용 도구: Pandas, Numpy
4. 데이터 분석
통계 요약, 시각화, 모델 입력용 변환
활용 도구: Matplotlib, Seaborn, Sklearn
5. 시각화 및 보고
의사결정 지원을 위한 인사이트 도출
활용 도구: Plotly, PowerBI, Tableau
데이터 분석에서 인공지능 모델링 연결
전처리가 제대로 되어야 모델 입력값이 의미를 가짐
지도학습의 핵심
- 특성 선택
- 레이블 구성
전처리 -> 피처 엔지니어링 -> 학습용 데이터 구성 -> 모델 학습 -> 모델 평가
메인 비즈니스 밸류 체인

결국 회사의 메인 비즈니스 액션 속도를
효율화/고속화하는 것
인공지능, 머신러닝, 딥러닝 차이
인공지능, 머신러닝, 딥러닝
Artificial Intelligence
인간의 인지능력을 모방해 학슴·추론·판단을 수행하는 기술의 총칭
(예: 체스게임, 챗봇, 추천 시스템)Machine Learning
명시적인 규칙 없이 데이터에서 패턴을 학습하는 AI의 한 분야
(예: 스팸메일 분류기, 신용도 평가 모델)Deep Learning
인공신경망을 기반으로 대량의 데이터를 통해 복잡한 패턴을 자동 학습하는 ML의 하위 기술
(예: 이미지 인식, 음성 합성, 자연어 번역 등)지도학습 & 비지도학습
지도학습
- 입력 + 정답(Label)이 있는 문제
- 예: 선형회귀(가격 예측), 로지스틱 회귀(스팸/정상 메일 분류), 분류트리(이탈 예측)
비지도학습
- 정답이 없는 데이터 구조 파악
- 예: k-means(고객 세그먼트), PCA(시각화, 노이즈 제거)
AI 모델링 단계별 개요
1. 문제 정의
- 분류, 회귀, 군집화 등 문제 유형 구분
- 예측할 대상은 무엇인가
2. 데이터 수집 및 전처리
- 모델이 학습할 수 있도록 데이터를 정리하는
핵심 과정 - 결측치/이상치 처리, 정규화, 범주형 처리 등
3. 모델 선택 및 학습
- 선형회귀, 결정트리, 신경망 등 목적에 맞는 모델 선택
- 학습 데이터로 패턴 학습 & 테스트 데이터로 평가
4. 평가 및 개선
- 평가지표 : 정확도, 정밀도, F1-scrore
- 모델 성능이 낮을 경우 데이터 재구성 또는 파라미터 조정
5. 활용 및 배포
- 실제 서비스에 적용하거나 의사결정 지원 시스템으로 활용
- 성능 모니터링 및 재학습 필요