일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- SparkML
- SQL
- graph database
- Graph Tech
- 빅데이터
- 그래프 에코시스템
- Python
- spark
- TensorFlow
- BigData
- 그래프
- RStudio
- r
- 연합학습
- Cypher
- 분산 병렬 처리
- 그래프 데이터베이스
- 인공지능
- Graph Ecosystem
- GSQL
- RDD
- TigerGraph
- GraphX
- Neo4j
- graph
- 딥러닝
- GDB
- DeepLearning
- Federated Learning
- 그래프 질의언어
- Today
- Total
목록분류 전체보기 (152)
Hee'World
Spark에서 Deeplearning을 사용하기 위한 타 라이브러리가 많이 존재하지만, 이번 포스팅에서는 Databricks에서 개발되고 있는 SparkDL이라는 라이브러리를 이용하여 딥러닝을 수행해봅니다. 현재 Spark 개발을 주도하고 있는 Databricks에서 지원하는 SparkDL은 딥러닝과 관련된 기능을 제공하고 있으며 주로 이미지 데이터에 대한 DL Pipeline과 Transfer Learning, Hyperparameter Tuning의 기능을 제공하고 있다. SparkDL 자체만을 가지고는 다양한 모델의 개발은 좀 한계가 있는 걸로 보이며, 지원하는 모델은 아래와 같다. InceptionV3 Xception ResNet50 VGG16 VGG19 현재 호환되는 버전은 아래와 같다. Spa..
모집단(Population 또는 Universe) - 연구와 조사 또는 분석이 이루어지는 집단, 관심 대상 전체를 이르는 말 표본(Sample) - 일반적으로 모집단 전부를 수집하여 분석 할 수 없으므로 일부분을 추출하여 분석 하는 대상. 최근에는 빅데이터를 이용하여 모집단에 가까운 데이터를 수집하여 분석 할 수 있게 되었음 기술통계(Descriptive Statistics) - 수집한 데이터를 정리, 요약, 해석 등을 통해 데이터의 특성과 속성을 파악하는 방법 추론통계(Inferential statistics) - 표본으로 부터 통계량 등의 값을 계산하여 모집단의 특성과 속성을 파악하는 방법 중심극한정리 - 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까..
Spark에서 H2O를 사용하는 방법 Spark는 Regression, Clustering, Classification 등 ML관련 라이브러리를 제공하지만 Deeplearning 등의 라이브러리는 제공되고 있지 않아 TensorflowOnSpark, BigDL, H2O, SparkDL과 같은 타 패키지와 함께 사용하여야 합니다. 본 포스팅에서는 H2O를 사용하는 방법을 설명합니다. H2O란? 오픈소스 머신러닝 플랫폼으로 다양한 머신러닝 모델과 딥러닝 등을 포함해 AutoML과 같은 최신 알고리즘도 제공하고 있다. 기존의 대형 분석 인프라와 Hadoop, Spark와 같은 분산 클러스터 환경과 S3, Azure 같은 클라우드 환경에서도 동작한다. 그리고 가장 대중적으로 사용되는 통계 프로그램인 R과 연결하..
Visual Studio Code에 Vue.js를 설치합니다. Vue.js? 웹 애플리케이션의 사용자 인터페이스를 만들기 위해 사용하는 오픈 소스 프로그레시브 자바스크립트 프레임워크이다.다른 자바스크립트 라이브러리를 사용하는 웹 애플리케이션 프로젝트에 Vue.js를 도입하기 쉽게 설계되어 있는데, 이는 Vue.js가 점진적으로 채택할 수 있게 설계되어 있기 때문이다. 한편 Vue.js는 고성능의 싱글 페이지 애플리케이션(SPA)을 구축하는데 이용가능하다. https://ko.wikipedia.org/wiki/Vue.js Vue.js - 위키백과, 우리 모두의 백과사전 위키백과, 우리 모두의 백과사전. Vue.js(간단히 Vue, , 뷰/view)는 웹 애플리케이션의 사용자 인터페이스를 만들기 위해 사용하..
SparkML을 이용하여 RandomForest를 수행하는 예제입니다. RandomForest? 랜덤 포레스트(영어: random forest)는 분류, 회귀 분석 등에 사용되는 앙상블 학습 방법의 일종으로, 훈련 과정에서 구성한 다수의 결정 트리로부터 부류(분류) 또는 평균 예측치(회귀 분석)를 출력함으로써 동작한다. 결정 트리 - 위키백과, 우리 모두의 백과사전 위키백과, 우리 모두의 백과사전. ko.wikipedia.org Spark ML In [1]: df = spark.read.csv("data/affairs.csv", inferSchema=True, header=True) In [2]: df.printSchema() root |-- rate_marriage: integer (nullable =..
Spark ML을 이용하여 Decision Tree를 수행하는 예제입니다. Decision Tree(의사결정나무) 결정 트리 학습법은 어떤 항목에 대한 관측값과 목표값을 연결시켜주는 예측 모델로써 결정 트리를 사용한다. 이는 통계학과 데이터 마이닝, 기계 학습에서 사용하는 예측 모델링 방법 중 하나이다. 트리 모델 중 목표 변수가 유한한 수의 값을 가지는 것을 분류 트리라 한다. 이 트리 구조에서 잎(리프 노드)은 클래스 라벨을 나타내고 가지는 클래스 라벨과 관련있는 특징들의 논리곱을 나타낸다. 결정 트리 중 목표 변수가 연속하는 값, 일반적으로 실수를 가지는 것은 회귀 트리라 한다. 의사 결정 분석에서 결정 트리는 시각적이고 명시적인 방법으로 의사 결정 과정과 결정된 의사를 보여주는데 사용된다. 데이터..
통계학(統計學, 영어: statistics)은 산술적 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야이다. 근대 과학으로서의 통계학은 19세기 중반 벨기에의 케틀레가 독일의 "국상학(國狀學, Staatenkunde, 넓은 의미의 국가학)"과 영국의 "정치 산술(Political Arithmetic, 정치 사회에 대한 수량적 연구 방법)"을 자연과학의 "확률 이론"과 결합하여, 수립한 학문에서 발전되었다. 추론 통계 추론 통계는 기술통계로 어떤 모집단에서 구한 표본정보를 가지고 그 모집단의 특성 및 가능성 등을 추론해내는 통계적 방법이다. 보통 수집된 자료는 어떻게 분석해야 할지 미리 정해져 있기도 하지만, 대부분 획득한 자료(모집단)을 가지고 여러 그..
추천 시스템에 대해 정리해봅니다. 먼저 "추천"이라는 단어에 대해서 알아봅니다. 국립국어원에서 검색을 해보면 아래와 같은 뜻을 확인해 볼 수 있다. 추천(推薦) - 추천 「003」 「명사」 어떤 조건에 적합한 대상을 책임지고 소개함. https://www.korean.go.kr/front/search/searchAllList.do 국립국어원 통합검색 www.korean.go.kr 즉, 추천을 한다는 것은 본인이 확신을 가지고 상대방에게 특정 제안을 하는 것과 비슷한 맥락이라 볼 수 있다. 추천 시스템(推薦system)은 정보 필터링 (IF) 기술의 일종으로, 특정 사용자가 관심을 가질만한 정보 (영화, 음악, 책, 뉴스, 이미지, 웹 페이지 등)를 추천하는 것이다. 추천 시스템에는 협업 필터링 기법을 주..