View

1장부터 공부하기에는 너무 고리타분하여 3장부터 진행한다.. 
전체적으로 용어가 다양하고 각 분석 방법에 대한 구분을 하는 것이 중요할 것으로 보인다. 

 




#### 학습목표 
- 데이터 처리 프로세스 이해 
- 데이터 분석 기법 중 시각화를 이해 
- 데이터 분석 기법 중 공간분석을 이해 
- 데이터 분석 기법 중 탐색적 자료 분석을 이해 


1) 데이터 처리
- 보통 Data Warehouse(DW)나 Data Mart(DM)에서 데이터를 가져오며 해당 데이터가 없는 경우 직접 Legacy 에서 가져오기도 한다. 
- 운영데이터를 직접 가져오는 것은 부담이 됨으로 Operational Data Source(ODS) 을 통해서 운영데이터를 가져오거나 Staging Area에서도 가져올 수 있다. 
- Staging Area에서 가져온 데이터는 목적에 따라 데이터 전처리를 하여 DM/DW 로 전달한다. 
- 비정형 데이터(informal data)나 소셜데이터는 정형화된 패턴으로 처리해야 한다. 
> 비정형 데이터 : DBMS에 저장되었다가 Text Mining을 거쳐 DM과 통합한다. 
> 관계형 데이터 : DBMS에 저장되어 사회신경망 분석(social area analysis)을 거쳐 분석결과를 DM과 통합하여 활용한다. 

2) 시각화 (Visualization)
- 시각화는 가장 낮은 수준의 분석이지만, 복잡한 분석보다도 더 효율적일 때가 있다. 
- 빅데이터 분석/탐색적 분석(exploratory factor analysis)에는 시각화가 필수적이다. 

3) 공간분석(Spatial Analysis) 
- 공간적 차원과 관련된 속성을 시각화하는 분석 
- 지도위에 관련 속성들을 생성하고 크기, 모양, 선 굵기 등으로 구분하여 인사이트를 얻는다. 

4) 탐색적 자료분석(EDA, Exploratory Data Analysis) 
- 다양한 차원과 값을 조합해가며 특이한 점이나 의미있는 사실을도출하고 분석의 최종 목적을 달성해가는 과정 
- 데이터의 특징과 내재하는 구조적 관계를 알아내기 위한 기법들의 통칭이다. 
- 의미가 있을 것으로 판단되는 변수 집단과 아닌 집단을 단계적으로 (1a:2a:3a: .... Na) 로 구분한다. 

5) 통계분석(Statistical Analysis) 
- 통계란 어떤 현상을 종합적으로 알아보 쉽게 일정한 체계에 따라 숫자와 표, 그림의 형태로 나타낸 것. 
> 기술통계(descriptive statistics) : 모집단으로 부터 표본을 추출한 정보를 정리하거나 요약하기 위해 하나의 숫자/그래프로 표현하는 절차
> 추측통계(inferential statistics) : 표본의 표본통계량으로 부터 모집단의 특성인 모수에 관해 통계적으로 추론하는 절차

6) 데이터 마이닝(Data Mining) 
- 대표적인 고급 데이터 분석법으로 대용량 자료로 부터 정보를 요약하고, 미래에 대한 예측을 목표로 자료에 존재하는 
관계, 패턴, 규칙등을 탐색하고 이를 모형화 하여 이전에 알려지지 않은 유용한 지식을 추출하는 분석 방법 

 > DB에서 지식 탐색 : DW에서 DM을 생성하면서 각 데이터 속성을 사전분석을 통해 지식을 얻음. 
 >기계학습(machine learning) : AI한 분야로 컴퓨터가 학습 할 수 있도록 알고리즘을 개발하는 분야로 인공신경망(artificial neural network), 의사결정나무(Decision tree), 베이지안 분류(Bayesian classification), SVM(support vector merchine) 등이 있다. 
 > 패턴인식(pattern recognition) : 사전지식과 패턴에서 추출된 통계정보를 기반으로 자료/패턴을 분류하는 방법, 장바구니 분석, 연관규칙


7) 시뮬레이션 
- 복잡한 실제상황을 단순화해 컴퓨터상의 모델로 만들어 재현하거나 변경함으로써 현상을 이해하고 미래 변화에 따른 결과를 예측하는데 사용 


8) 최적화 
- 목접함수의 값을 최대화 또는 최소화 하는 것을 목표로 하는 방법 
- 제약조건 하에서 목적값을 개선하는 방식 
- 복잡한 모델링, 많은 컴퓨팅 자원을 요구하는 특징이 있지만 알고리즘 및 분석도구 발전으로 더 쉽게 접근할 수 있다. 

Share Link
reply
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31