[혼공학습단10기] 혼자 공부하는 머신러닝+딥러닝 5주차 ch

카테고리 없음

[혼공학습단10기] 혼자 공부하는 머신러닝+딥러닝 5주차 ch_6 비지도 학습

부지런한 지구인 2023. 8. 11. 21:48

06-1 군집 알고리즘

비지도 학습

- unsupervised learning

- 타깃이 없을 때 사용하는 머신러닝 알고리즘

- 사람이 가르쳐 주지 않아도 데이터에 있는 무언가를 학습

군집

- clustering

- 비슷한 샘플끼리 그룹으로 모으는 작업

클러스터

- cluster

- 군집알고리즘에서 만든 그룹

06-2 k-평균

k-means 군집 알고리즘

- 평균값을 자동으로 찾아준다.

- 평균값이 클러스터의 중심에 위치하기 때문에 cluster center 또는 centroid라고 부른다.

k-means 알고리즘 작동방식 (기본 미션)

1. 무작위로 k개의 클러스터 중심을 정한다.

2. 각 샘플에서 가장 가까운 클러스터 중심을 찾아 해당 클러스터의 샘플로 지정한다.

3. 클러스터에 속한 샘플의 평균값으로 클러스터 중심을 변경한다.

4. 클러스터 중심에 변화가 없을 때까지 2번으로 돌아가 반복한다.

최적의 k 찾기

- k-means 알고리즘의 단점 : 클러스터 개수를 미리 지정해야 한다.

-> 적절한 k 값을 찾는 것이 중요하다.

- 완벽한 방법은 없지만 몇 가지 도구가 있고, 각각 장단점이 존재한다.

엘보우 방법

- 클러스터 개수를 늘려가면서 이너셔의 변화를 관찰하여 최적의 클러스터 개수를 찾는 방법

- 클러스터 개수를 증가시키면서 이너셔를 그래프로 그리면 감소하는 속도가 꺾이는 지점이 있고,

이 지점부터는 클러스터 개수를 늘려도 클러스터에 잘 밀집된 정도가 크게 개선되지 않는다.

- 이 지점이 팔꿈치 모양이어서 엘보우 방법이라고 부른다.

- 이니셔(inertia) : 클러스터에 속한 샘플이 얼마나 가깝게 모여있는지는 나타내는 값

-> 클러스터 중심과 클러스터에 속한 샘플 사이의 거리들의 제곱 합

-> 클러스터 개수가 늘어나면 클러스터 개개의크기는 줄어들어 이니셔가 작아진다.

06-3 주성분 분석

차원

- 특성 : 데이터가 가진 속성

- 머신러닝에서는 이런 특성을 차원(demension)이라고도 부른다.

- 다차원 배열에서의 차원은 배열의 축 개수

- 1차원 배열(벡터)의 차원은 원소의 개수

차원축소

- 비지도 학습

- 데이터를 가장 잘 나타내는 일부 특성을 선택하여 데이터 크기를 줄이고 지도 학습 모델의 성능을 향상

- 특성이 많으면 선형 모델의 성능이 높아지지만 훈련 데이터에 쉽게 과대적합된다.

주성분 분석

- PCA (Principal component analysis)

- 데이터에 있는 분산이 큰 방향을 찾는 것

- 분산은 데이터가 널리 퍼져있는 정도

-> 분산이 큰 방향이란 데이터를 잘표현하는 어떤 벡터라고 생각할 수 있다.

- 이 벡터를 주성분(principal component)라고 부른다.

- 일반적으로 주성분은 우너본 특성의 개수만큼 찾을 수 있다.

설명된 분산

- explained variance

- 주성분이 원본 데이터의 분산을 얼마나 잘 나타내는지 기록한 값

다른 알고리즘과 함께 사용하기

- PCA로 훈련 데이터의 차원을 축소하면 저장 공간뿐만 아니라 머신러닝 모델의 훈련 속도도 높일 수 있다.

선택미션

1. 특성이 20개인 대량의 데이터셋이 있습니다. 이 데이터셋에서 찾을 수 잇는 주성분 개수는 몇 개일까요?

1) 10개

2) 20개

3) 50개

4) 100개

답: 2), 주성분은 특성의 갯수만큼 찾을 수 있다.

2. 샘플 개수가 1000개이고 특성 개수는 100개인 데이터셋이 있습니다. 즉, 이 데이터셋의 크기는 (1000, 100)입니다.

이 데이터를 사이킷런의 PCA 클래스를 사용해 10개의 주성분을 찾아 변환했습니다. 변환된 데이터셋의 크기는 얼마일까요?

1) (1000, 10)

2) (10, 1000)

3) (10, 10)

4) (1000, 1000)

답: 1), 특성의 개수가 100개에서 주성분 10개로 변경되었다. 즉 특성이 10개로 변환되었다.

3. 2번 문제에서 설명된 분산이 가장 큰 주성분은 몇 번째인가요?

1) 첫 번째 주성분

2) 다섯 번째 주성분

3) 열 번째 주성분

4) 알 수 없음

답 : 1), 주성분은 분산이 가장 큰 벡터이므로 첫 번째 주성분이 가장 큰 설명된 분산을 가진다.