본문 바로가기
수업(국비지원)/Python

[Python] 상관 계수 , 빅 데이터 특징

by byeolsub 2023. 4. 25.
  • 상관 계수
#컬럼 : 변수, 피처 용어 사용.
#상관 계수 : -1~1사이의 값. 변수의 상관관계 수치로 표현.
# 1 : 상관도가 완벽하게 일치. c1 1증가하면 c2 1 증가
# -1 : 상관도가 반비례. c1 1증가하면 c2 -1 증가
# 0 : 상관이 없다고 판단

#예시) 국어점수가 높으면 영어점수가높다. = 상관계수가 높다.
            국어점수가 높은데 영어점수가 낮다 = 상관계수가 낮다. 반대

  • 빅 데이터 특징
#3V
1. Volume(규모) : 데이터의 양이 대용량
2. velocity(속도) : 데이터의 처리 속도가 빨라야한다.
3. vraiety(다양성) : 데이터의 형태가 다양함.

### 정형데이터 : 데이터 베이스, csv 
=>테이블로 바로 변환가능한 데이터
   -관계형 데이터베이스에 존재
   -기술통계

### 반정형데이터 : json,xml,html 
=>초기상태는 비정형 같지만 가공시 정형데이터로 변환가능데이터
     (웹 or 스마트기기로부터 직접가져오는 데이터)

### 비정형데이터 : 이미지,음성
=>테이블로 바로 변환불가한 문자열 이미지 음성 데이터등의 
    머신러닝으로 적용하려면 숫자로 인코딩하여 사용 -거리