빅데이터 이해하기

2025-09-21


빅데이터 정의

  • 기존 데이터베이스 관리 도구는 처리할 수 없을 만큼 방대하고 빠르게 생산되는 다양한 형식의 데이터
  • 단순히 많은 양이 아니라, 기존 데이터 처리 방식으로는 분석이 어렵거나 불가능한 복합적인 데이터를 의미

빅데이터 5가지 핵심 속성

요소설명예시
Volume(규모)데이터의 양이 방대함하루 5억 건 이상 생성되는 트위터 게시글
Velocity(속도)실시간 또는 매우 빠른 속도로 생성됨금융 거래 로그, loT 센서 데이터
Variety(다양성)텍스트, 이미지, 영상 등 다양한 형식SNS 텍스트, CCTV 영상, 음성데이터
Veracity(정확성)데이터의 신뢰성과 품질 문제허위 뉴스, 오류 포함된 사용자 입력
Value(가치)데이터로부터 도출되는 인사이트와 활용 가치고객 이탈 예측, 맞춤형 추천

AI 모델링 전 과정에 영향을 줌


정형 데이터와 비정형 데이터

정형 데이터란?

행(Row)과 열(Column)로 구성된 테이블 형태의 구조화된 데이터
전처리가 비교적 용이하고 분석 고구의 자동화 적용이 쉬움
컬럼 타입 -> 범주형, 수치형, 순서형

  • 엑셀 파일
  • 관계형 데이터베이스
  • CSV 파일

비정형 데이터란?

구조가 없거나 분석 전 구조화가 필요한 데이터

  • 자연어
  • 이미지
  • 음성

정형 데이터 분석 프로세스 흐름

1. 데이터 수집

CSV, Excel, DB 등으로부터 데이터 확보
활용 도구: Python, Pandas, SQL

2. 데이터 저장

로컬 또는 클라우드 기반의 저장소
활용 도구: Google Drive, SQLite, AWS S3

3. 데이터 처리(전처리)

결측치 처리, 이상치 제거, 형 변환 등
활용 도구: Pandas, Numpy

4. 데이터 분석

통계 요약, 시각화, 모델 입력용 변환
활용 도구: Matplotlib, Seaborn, Sklearn

5. 시각화 및 보고

의사결정 지원을 위한 인사이트 도출
활용 도구: Plotly, PowerBI, Tableau


데이터 분석에서 인공지능 모델링 연결

전처리가 제대로 되어야 모델 입력값이 의미를 가짐

지도학습의 핵심

  • 특성 선택
  • 레이블 구성

전처리 -> 피처 엔지니어링 -> 학습용 데이터 구성 -> 모델 학습 -> 모델 평가

메인 비즈니스 밸류 체인

Image

결국 회사의 메인 비즈니스 액션 속도를 효율화/고속화 하는 것


인공지능, 머신러닝, 딥러닝 차이

인공지능, 머신러닝, 딥러닝
Artificial Intelligence

인간의 인지능력을 모방해 학슴·추론·판단을 수행하는 기술의 총칭

(예: 체스게임, 챗봇, 추천 시스템)
Machine Learning

명시적인 규칙 없이 데이터에서 패턴을 학습하는 AI의 한 분야

(예: 스팸메일 분류기, 신용도 평가 모델)
Deep Learning

인공신경망을 기반으로 대량의 데이터를 통해 복잡한 패턴을 자동 학습하는 ML의 하위 기술

(예: 이미지 인식, 음성 합성, 자연어 번역 등)

지도학습 & 비지도학습

지도학습

  • 입력 + 정답(Label)이 있는 문제
  • 예: 선형회귀(가격 예측), 로지스틱 회귀(스팸/정상 메일 분류), 분류트리(이탈 예측)

비지도학습

  • 정답이 없는 데이터 구조 파악
  • 예: k-means(고객 세그먼트), PCA(시각화, 노이즈 제거)

AI 모델링 단계별 개요

1. 문제 정의

  • 분류, 회귀, 군집화 등 문제 유형 구분
  • 예측할 대상은 무엇인가

2. 데이터 수집 및 전처리

  • 모델이 학습할 수 있도록 데이터를 정리하는 핵심 과정
  • 결측치/이상치 처리, 정규화, 범주형 처리 등

3. 모델 선택 및 학습

  • 선형회귀, 결정트리, 신경망 등 목적에 맞는 모델 선택
  • 학습 데이터로 패턴 학습 & 테스트 데이터로 평가

4. 평가 및 개선

  • 평가지표 : 정확도, 정밀도, F1-scrore
  • 모델 성능이 낮을 경우 데이터 재구성 또는 파라미터 조정

5. 활용 및 배포

  • 실제 서비스에 적용하거나 의사결정 지원 시스템으로 활용
  • 성능 모니터링 및 재학습 필요

댓글

GitHub 계정으로 댓글을 남겨보세요!