일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- graph database
- Graph Ecosystem
- 빅데이터
- GraphX
- SparkML
- RDD
- 그래프 데이터베이스
- TigerGraph
- TensorFlow
- Federated Learning
- r
- Python
- GSQL
- RStudio
- Graph Tech
- SQL
- Cypher
- graph
- DeepLearning
- 인공지능
- spark
- GDB
- 분산 병렬 처리
- 딥러닝
- BigData
- 연합학습
- 그래프 에코시스템
- Neo4j
- 그래프
- 그래프 질의언어
- Today
- Total
목록BigData/MapReduce (5)
Hee'World
package org.apache.hadoop.mapreduce; import java.io.IOException;import org.apache.hadoop.conf.Configuration; public class Mapper{ protected void setup(Mapper.Context context) throws IOException, InterruptedException { }// protected void setup(Mapper.Context context) : 이 메소드는 map 메소드가 호출되기 전에 먼저 딱 한번 호출되는 메소드로 map 메소드에서 필요한 리소스를 여기서 할당하거나 map에서 필요한 선행 작업을 여기서 수행합니다. protected void map(KEYIN key, ..
- Combiner - Mapper의 중간 출력 결과를 받아서 리듀스에게 전달해주는 기능. - Mapper와 Reducer 사이의 셔플할 데이터의 양을 줄이는데에 도움을 준다. - 하지만 컴바이너를 사용 할 수 없는 맵리듀스 패턴이 존재하기도 한다.(맵리듀스 디자인 고려)
맵리듀스 프로그래밍 중 FileInputFormat의 다른 유형들 입니다. TextInputFormat 텍스트 파일을 분석 할때 사용하며, 키는 라인번호, 값은 라인의 내용 입니다. KeyValueFormat 라인번호가 아닌 임의의 키값을 지정해서 키와 값의 목록으로 사용 NLineInputFormat 입력 받을 텍스트 파일의 라인수를 제한할때 DeleGatingInputFormat 여러 개의 서로 다른 입력 포맷을 사용하는 경우에 각 경로에 대한 작업을 위임 CombineFileInputFormat 위에 InputFormat 들은 파일당 스플릿을 생성하지만 CombineFileInputFormat은 여러 개의 파일을 스플릿으로 묶어서 사용. SequenceFileInputFormat 시퀀스 파일을 입력..
레코드리더에 관한 설명입니다. 맵리듀스 레코드리더란? - Input data가 스플릿 되어 들어온 상태에서 Mapper가 Key, Value 형태로 받을 수 있도록 데이터를 Key/Value 형태로 전달해 주는 역활
MapReduce는 구글에서 분산 컴퓨팅을 지원하기 위한 목적으로 제작하여 2004년 발표한 소프트웨어 프레임워크다. 이 프레임워크는 페타바이트 이상의 대용량 데이터를 신뢰할 수 없는 컴퓨터로 구성된 클러스터 환경에서 병렬 처리를 지원하기 위해서 개발되었다. 이 프레임워크는 함수형 프로그래밍에서 일반적으로 사용되는 Map과 Reduce라는 함수 기반으로 주로 구성된다. 현재 MapReduce는 Java와 C++, 그리고 기타 언어에서 적용이 가능하도록 작성되었다. - 위키백과 - •MapReduce Job(맵리듀스는 잡job 이라는 단위로 관리된다.) - 맵 태스크의 일 •데이터를 적재, 구문분석, 변환, 필터링 - 리듀스 태스크의 일 •맵 태스크 출력의 일부분을 처리, •데이터를 분류하고 취합하기 위해..