일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- r
- TigerGraph
- Graph Ecosystem
- TensorFlow
- 인공지능
- 그래프 에코시스템
- 분산 병렬 처리
- Python
- BigData
- 그래프
- RDD
- 그래프 질의언어
- 빅데이터
- DeepLearning
- SQL
- SparkML
- GraphX
- 딥러닝
- GSQL
- 그래프 데이터베이스
- Cypher
- Graph Tech
- 연합학습
- Neo4j
- graph database
- graph
- GDB
- spark
- RStudio
- Federated Learning
- Today
- Total
목록BigData (72)
Hee'World
package org.apache.hadoop.mapreduce; import java.io.IOException;import org.apache.hadoop.conf.Configuration; public class Mapper{ protected void setup(Mapper.Context context) throws IOException, InterruptedException { }// protected void setup(Mapper.Context context) : 이 메소드는 map 메소드가 호출되기 전에 먼저 딱 한번 호출되는 메소드로 map 메소드에서 필요한 리소스를 여기서 할당하거나 map에서 필요한 선행 작업을 여기서 수행합니다. protected void map(KEYIN key, ..
- Combiner - Mapper의 중간 출력 결과를 받아서 리듀스에게 전달해주는 기능. - Mapper와 Reducer 사이의 셔플할 데이터의 양을 줄이는데에 도움을 준다. - 하지만 컴바이너를 사용 할 수 없는 맵리듀스 패턴이 존재하기도 한다.(맵리듀스 디자인 고려)
하둡 가상 분산 모드를 설치 하겠습니다. 하둡 가상 분산 모드는 한대의 피씨 안에 네임노드,세컨더리노드,데이터노드,잡트래커,태스크트래커의 데몬을 모두 올려 사용 하는 모드 입니다. 1. 자바 설치 ( 자바 설치는 저의 하둡완전분산모드 설치란에 보시면 있습니다.) 2. ssh 설정하기 ssh-keygen -t rsa를 입력하고 ssh키를 생성합니다. 3. .ssh 디렉토리에 들어가서 id_rsa.pub 파일을 authorized_keys 파일로 복사하여 생성합니다. 4. /etc/hosts 파일의 호스트를 추가 합니다. 5. /etc/profile에 JAVA_HOME,HADOOP_HOME(설치되거나 설치하려는 디렉토리)을 추가합니다. PATH 설정도 추가합니다. 6. 다운 받은 하둡 파일을 압축 해제 후 ..
-출처 "http://docs.mongodb.org/manual/reference/sql-comparison/" - In addition to the charts that follow, you might want to consider the Frequently Asked Questions section for a selection of common questions about MongoDB. Executables¶ The following table presents the MySQL/Oracle executables and the corresponding MongoDB executables. MySQL/Oracle MongoDB Database Server mysqld/oracle mongod Datab..
BIG DATA 관련 사이트 모음_하둡/연동 Project/Nosql 1.Apache Hadoop Ecosystem # 저장 * HDFS: Hadoop Distributed Filesystem (http://hadoop.apache.org/hdfs/) * Fuse-DFS: Mountable HDFS (http://wiki.apache.org/hadoop/MountableHDFS/) * HBase: NoSQL (http://hbase.apache.org/) * HCatalog: 테이블 관리 (http://incubator.apache.org/hcatalog/) # 어플리케이션 서버 * Thrift: 데이터 직렬화 (http://thrift.apache.org/) * Avro: 데이터 직렬화 (http://..
Running Hive Hive uses hadoop, so: you must have hadoop in your path OR export HADOOP_HOME= In addition, you must create /tmp and /user/hive/warehouse (aka hive.metastore.warehouse.dir) and set them chmod g+w in HDFS before you can create a table in Hive. Commands to perform this setup ? $ $HADOOP_HOME/bin/hadoop fs -mkdir /tmp $ $HADOOP_HOME/bin/hadoop fs -mkdir /user/hive/warehouse $ $HADOOP_H..
Introduction Tajo is a relational and distributed data warehouse system for Hadoop. Tajo is designed for low-latency and scalable ad-hoc queries, online aggregation and ETL on large-data sets by leveraging advanced database techniques. It supports SQL standards. Tajo uses HDFS as a primary storage layer and has its own query engine which allows direct control of distributed execution and data fl..
맵리듀스 프로그래밍 중 FileInputFormat의 다른 유형들 입니다. TextInputFormat 텍스트 파일을 분석 할때 사용하며, 키는 라인번호, 값은 라인의 내용 입니다. KeyValueFormat 라인번호가 아닌 임의의 키값을 지정해서 키와 값의 목록으로 사용 NLineInputFormat 입력 받을 텍스트 파일의 라인수를 제한할때 DeleGatingInputFormat 여러 개의 서로 다른 입력 포맷을 사용하는 경우에 각 경로에 대한 작업을 위임 CombineFileInputFormat 위에 InputFormat 들은 파일당 스플릿을 생성하지만 CombineFileInputFormat은 여러 개의 파일을 스플릿으로 묶어서 사용. SequenceFileInputFormat 시퀀스 파일을 입력..