일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- RStudio
- 그래프 에코시스템
- 그래프 데이터베이스
- Neo4j
- SQL
- 그래프 질의언어
- 빅데이터
- 연합학습
- GraphX
- Graph Ecosystem
- 인공지능
- SparkML
- 분산 병렬 처리
- 그래프
- spark
- Federated Learning
- TigerGraph
- Cypher
- DeepLearning
- GSQL
- graph
- Graph Tech
- Python
- BigData
- RDD
- graph database
- TensorFlow
- 딥러닝
- GDB
- r
- Today
- Total
목록BigData/Mahout (6)
Hee'World
독점 군집(Exclusive clustering) 독점 군집에서는 아이템이 여러개가 아닌 하나의 군집에 독점적으로 속한다고 본다. 해리포터 같은 책은 단순하게 소설책이라는 군집에 할당할 수도 있을 것이다. 그러면 해리포터는 독점적으로 소설의 군집에만 속할 것이다. K-평균이 이런 독점 군집 부류에 속한다고 할 수 있다. 따라서 독점적인 군집이 필요한 군집 문제에서는 보통 K-평균 기법을 사용한다. 중복 군집(Overlapping clustering) 아이템이 여러 개의 군집에 속할 수 있는 비독점 군집이 필요하다면 어떻게 해야 할까? 예를 들어 해리포터를 소설뿐만 아니라 판타지 아래의 청소년 군집에도 할당해야 한다는 의미이다. 퍼지 K_평균 같은 중복 군집 알고리즘을 사용하면 이런 처리를 할 수 있다. ..
K-평균 알고리즘(K-means algorithm) 은 주어진 데이터를 k개의 클러스터로 묶는 알고리즘으로, 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작한다. 이 알고리즘은 EM 알고리즘을 이용한 클러스터링과 비슷한 구조를 가지고 있다. K-평균 알고리즘은 두 단계로 이루어져 있다. 첫 번째 단계는 각 센트로이드 위치에 근접한 점들을 찾아서 특정 군집에 할당하는 것이다. 두 번째 단계는 군집의 모든 점들을 좌표평균으로 계산해서 센트로이드 위치를 결정하는 것이다. 이 두 단계 알고리즘이 기대값 최대화(Expectation Maximization)의 전형적인 예라고 할 수 있다. EM 알고리즘은 두 단계를 수렴에 도달하기 전까지 반복한다. 첫 번째 단계는 기대(E) 단계로 군집의 기대점(exp..
머하웃의 벡터를 처리 위한 클래스(DenseVector, RandomAccessSparseVector, SequentialAccessSparseVector) * DenseVector : double타입의 배열로 생각할 수 있으며 배열의 크기는 데이터 특성의 수다. 이 배열의 모든 값은 0인지 여부에 상관없이 값이 미리 할당되어 있다. 그래서 밀도(dense라고 부른다. * RandomAccessSparseVector : integer와 double로 구성된 해시맵으로 0이 아닌 경우에만 특성값을 할당한다. * SequentialAccessSparseVector : 2개의 병렬 배열로, 하나는 integer로 나머지는 double로 구성한다. 0이 아닌 값을 가질 경우에만 배열에 포함한다. 무작위 접근에 ..
익명 사용자에게 추천하기 PlusAnonymousUserDataModel의 임시사용자 추천하기 추천 프레임워크는 PlusAnonymousUserDataModel 클래스를 사용해서 임시로 익명 사용자의 정보를 DataModel에 더하는 단순한 방법을 제공 한다. 이러한 접근에서는 추천할 때만 익명 사용자를 실제 ID를 가진 사용자처럼 취급한다. 익명 사용자의 정보는 실제로 지속적으로 관리할 근본적인 DataModel에는 추가하지 않는다. PlusAnonymousUserDataModel은 기존의 어떤 DataModel도 포함하고 단순하게 교체도 가능하다.PlusAnonymousUserDataModel은 하나의 임시 사용자를 위한 것인데, 한 번에 한 명의 사용자의 선호를 저장한다. 따라서 이 클래스를 기반으..
1. 피어슨 상관관계 기반의 유사도 피어슨 상관관계는 -1과 1사이의 값으로, 두 개의 연속적인 숫자열의 일대일 비교를 통해 경향성을 측정한다. 다시 말해 한 숫자열의 각 숫자가 다른 숫자열의 대응되는 값보다 얼마나 상대적으로 큰지 측정한다는 뜻이다. 즉, 두 숫자열 간에 대략적인 선형관계를 이루는지 숫자열내의 값들과 다른 숫자열 값의 공통적인 방향성을 측정해서 확인해보는 것이다. 경향성이 크면 상관계수는 1에 가까워 진다. 관계가 적어지거나 거의 없을 경우에는 값이 0에 가까워 진다. 숫자열 내의 숫자가 높고 다른 숫자열 내의 값은 작아지는 서로 대립하는 상관성을 가질 경우에는 값이 -1에 가까워 진다. - 피어슨 상관관계의 문제점 (1) 두 사용자의 선호가 겹쳐지는 아이템의 숫자를 고려하지 않기 때문..
머하웃 완벽가이드로 공부하던 중 그룹렌즈 사이트(www.grouplens.org/node/73)가 접속이 안되어서 열심히 검색을 하여 자료가 있는 곳을 찾아냈다... 1 .http://datahub.io/dataset/movielens/resource/b9792332-c0aa-44ee-b7aa-faa979b1acf0 2 .http://datahub.io/dataset/movielens/resource/e2117a93-4fd4-41c3-b0e8-6a8ff8b1ad09 위에 링크로 들어가서 url을 클릭하면 압축파일 형태로 받아지게 된다. 이 압축 파일을 압축해제 하고 사용하면 된다.... 열공!