반응형

** 데이터 마이닝은 R로만 실습하는 과목이다.

파이썬으로는 경험이 있지만 R로는 처음이라 개념을 배우며 코드가 어떤식으로 작성되는지 볼 수 있는 과목이 될 것으로 생각.. 

 


 

 

 

데이터마이닝: 대용량 데이터로부터 중요한 특징을 뽑아내기 위해서 
데이터 내에 존재하는 관계, 패턴, 규칙 등을 탐색하고 모형화함으로써 
유용한 지식을 추출하는 일련의 과정 

- 거대한 데이터 집적뿐만 아니라 실시간 분석으로 가치 창출 

 


데이터 마이닝: 모수적 모형, 알고리즘 접근 방법
=> 작게 보면 알고리즘 접근 방법만을 볼 수 있지만
크게 보면 데이터의 특징을 추출할 수 있는 모든 방법 

 

  • 모수적 모형 접근방법: 과거 통계학에서 모형을 만든다, 데이터 분석한다 할때 쓰인 것 / 모수(알려지지 않은 수)를 추정하는 방법 / 통계에서 모형을 설정하고 수치적으로 모수를 찾는 방법 / 회귀 모형, 통계적 방법
  • 알고리즘 접근 방법 : 데이터가 복잡할때 유용, 빅데이터, 데이터는 간단한데 모델이 복잡하면 과대적합이 있을 수 있음, 기계학습(ML, 머신러닝)

 

 



데이터 마이닝은 경험적 방법이 중시되는 특징
-> 데이터가 주어졌을 때 데이터를 보고 현상을 파악하고 의미를 뽑아내자
많은 데이터를 보면서 규칙과 패턴을 파악하고 일반화 한다.


 

데이터 마이닝 관련 분야 : KDD, ML, 패턴인식, 통계학

 


14분
KDD(Knowledge Discovery in Database): OLAP

KDD는 데이터베이스에 축적된 데이터로부터 지식을 추출하는 전 과정
기계학습(ML, Machine Learning) 

 

ML에서의 Machine은 컴퓨터를 의미한다.
입력되는 데이터를 바탕으로 기계(컴퓨터)가 학습해서 패턴을 공부한다



지도학습(supervised learning), 비지도학습(unsupervised learning, 자율학습)
=> 지도학습과 비지도학습은 레이블의 유무로 나뉜다.



지도학습- 분류, 회귀
분류의 레이블: 범주형 변수
회귀의 레이블: 연속형 변수(수치)
---
지도학습 예: 회귀분석, 회귀나무 분석, 신경망 분석
비지도학습 예: 군집분석

 


데이터마이닝 활용 분야
- CRM: 데이터를 활용한 마케팅 활동
- 신용평가
- 제조업 생산단계 품질 관리
- 스미싱 문자 전송 적발
- 신용카드 거래사기(부정행위) 적발
- 이미지 분석 - 검색
- 생명정보학 (Bioimformatics) 

데이터가 축적될 수 있다면 그 데이터를 분석할 수 있는 도구: 데이터마이닝 

 


가변수 생성
패키지에 따라 factor함수를 이용해 생성한 범주형 변수가 적절하게 사용되지 못하는 경우엔
가변수를 생성하는 dummy 패키지를 사용하면 된다

factor함수를 이용하지 않을경우 각각을 그냥 문자열 혹은 숫자타입으로 볼 가능성이 있다.

factor함수를 써야 각각의 범주로 이해한다
ex) 1,2,3(1반 학생, 2반 학생, ..) 이런식으로 수치로는 의미가 없는 값을 범주형 변수로 바꿀때 



 

 

 

실습 내용

다음 강의에서 사용하기 위해 전처리를 함
R로 박스플롯을 그려서 확인하고 데이터 이상치를 제거하는 실습을 함
이상치를 제거 후 write.csv 를 이용해 csv파일로 저장함

 

코드를 자세히 설명해주시진 않아서 (이전 과목들에서 다뤄서 그런듯) 나중에 따로 코드를 보며 해석해보는 시간을 가질 것!



 

학습개요

빅데이터 시대에 이르러 데이터의 가치와 활용에 대한 관심이 고조되고 있다. 데이터마이닝은 데이터의 가치를 발견하는 과정으로서 데이터베이스, 데이터 웨어하우스 또는 다른 정보 저장소에 저장된 방대한 양의 데이터로부터 흥미로운 패턴을 발견하는 작업이다. 본 강에서는 데이터마이닝의 기본 개념에 대하여 정리하고, 데이터마이닝 종류 및 수행단계에 대해 살펴본다. 또한 본 교재의 실습예제로 사용되는 데이터의 특징에 대해 설명한다.

 

 

학습목표

  1. 데이터마이닝의 개념을 이해할 수 있다.
  2. 데이터마이닝의 종류 및 수행단계를 설명할 수 있다.
  3. 데이터마이닝에 사용되는 데이터의 특징을 설명할 수 있다.

 

주요용어

  1. 데이터마이닝 : 대용량의 데이터로부터 이들 데이터 내에 존재하는 관계, 패턴, 규칙 등을 탐색하고 모형화함으로써 유용한 지식을 추출하는 일련의 과정
  2. 모수적모형접근법 : 데이터를 바탕으로 모수를 추정하여 모형을 적합하는 방법
  3. 알고리즘접근법 : 알고리즘에 의해 정해진 방식으로 계산 결과에 따라 분석되는 방법
  4. 자율학습 : ‘교사’의 역할에 해당하는 실제 출력값이 존재하지 않고 데이터에 존재하는 여러 가지 형태의 특징을 찾는 데 그 목표를 두는 학습방법
  5. 지도학습 : 입출력 간의 관계를 결정하는 시스템에 대한 유용한 근사 시스템를 구하는 학습방법

 

 

정리하기

  1. 데이터마이닝은 데이터베이스 또는 데이터웨어하우스에 분산 저장된 방대한 양의 데이터로부터 흥미로운 패턴을 발견하고 미래에 대한 예측 모형을 구축하는 작업이다.
  2. 데이터마이닝은 KDD(Knowledge Discovery in Database), 기계학습, 패턴인식뿐만 아니라 통계학 등 여러 학문 분야와 높은 연관성이 있다.
  3. 데이터마이닝의 기법들은 크게 감독학습과 자율학습으로 나뉘며, 감독학습에는 분류분석 및 회귀분석을 포함하고 자율학습은 군집분석 및 연관분석을 포괄한다.
  4. 데이터마이닝 기법 중 데이터의 복잡도 및 분석의 특이성에 따라 비정형데이터분석 방법을 별도로 구분하고 있는데, 텍스트마이닝, 사회연결망분석 등이 이에 속한다. 비정형데이터분석은 데이터마이닝 분석의 복잡도를 더하고 있다.
  5. 데이터마이닝은 비즈니스, 경제학, 생명정보학, 공학 등 여러 분야에서 많이 활용되고 있다.

 

 

 

 

 

반응형
복사했습니다!