Notice
Recent Posts
Recent Comments
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
Tags
- GDB
- TensorFlow
- RStudio
- 분산 병렬 처리
- DeepLearning
- graph database
- SQL
- Graph Tech
- SparkML
- Neo4j
- 그래프 에코시스템
- Graph Ecosystem
- Cypher
- GSQL
- 그래프 질의언어
- GraphX
- 그래프 데이터베이스
- 그래프
- r
- 인공지능
- 빅데이터
- graph
- 연합학습
- 딥러닝
- spark
- Python
- BigData
- Federated Learning
- RDD
- TigerGraph
Archives
- Today
- Total
Hee'World
[군집]K-평균 알고리즘 본문
K-평균 알고리즘(K-means algorithm) 은 주어진 데이터를 k개의 클러스터로 묶는 알고리즘으로, 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작한다.
이 알고리즘은 EM 알고리즘을 이용한 클러스터링과 비슷한 구조를 가지고 있다.
K-평균 알고리즘은 두 단계로 이루어져 있다. 첫 번째 단계는 각 센트로이드 위치에 근접한 점들을 찾아서 특정 군집에 할당하는 것이다. 두 번째 단계는 군집의 모든 점들을 좌표평균으로 계산해서 센트로이드 위치를 결정하는 것이다.
이 두 단계 알고리즘이 기대값 최대화(Expectation Maximization)의 전형적인 예라고 할 수 있다.
EM 알고리즘은 두 단계를 수렴에 도달하기 전까지 반복한다. 첫 번째 단계는 기대(E) 단계로 군집의 기대점(expected point)을 찾는다. 두 번째 단계는 최대화(M) 단계에서 확보한 지식으로 군집 중심의 기대값을 높인다.
머하웃에서 K-평균 알고리즘은 KmeansCluster 또는 KmeansDriver 클래스로 실행 할 수 있다.
KmeanCluster 클래스는 인메모리 형식으로 군집 처리를 한다. 반면에 KmeansDirver 클래스는 K-평균 알고리즘을 맵리듀스 작업으로 실행하는 진입점이다. 두 메소드 모두 일반 자바 프로그램처럼 실행 할 수 있으며, 디스크에서 읽거나 쓸 수 있다. 또한 아파치 하둡 클러스터에서도 두 메소드를 실행할 수 있기 떄문에 분산 파일시스템에서 데이터를 읽거나 쓸 수 있다.
'BigData > Mahout' 카테고리의 다른 글
군집 기법 (0) | 2013.11.25 |
---|---|
머하웃 벡터 (0) | 2013.11.23 |
익명 사용자에게 추천하기 (0) | 2013.11.19 |
머하웃 추천기법 (0) | 2013.11.17 |
[Mahout 완벽가이드] grouplens 실습자료.. (0) | 2013.11.06 |
Comments