'BigData' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2026/05 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Tags more

Archives

Today

Total

관리 메뉴

목록BigData (72)

Hee'World

2021년 디지털 산업혁신 빅데이터 플랫폼 경진대회 대상

빅데이터 분석 리마인드를 위해 아이리포에서 진행하는 교육을 수강하게 되었다. 교육이 종료되어 가던 중 경진대회에 대한 안내를 받았고, 경진대회명은 [디지털 산업혁신 빅데이터 플랫폼 경진대회] 였으며, 한국지능정보사회진흥원에서 주최하고 한국산업기술시험원과 한국기업데이터에서 주관하는 대회이다. 디지털 산업혁신 빅데이터 플랫폼 경진대회 홈페이지이며, 가입후 로그인해야 확인 가능하다. http://dc.bigdata-dx.kr/convention/list Data Challenge dc.bigdata-dx.kr 11월 1일 경진대회 OT를 참가하고 팀원들과 본격적으로 시작하였으며, 팀명은 안전남으로 팀원들의 성을 따서 만들었고 주로 소통은 오픈 카톡방과 구글 드라이브를 이용하였다. 회의는 자주했는데 일주일에 4..

BigData 2021. 12. 31. 11:39

Spark + Deeplearning (SparkDL)

Spark에서 Deeplearning을 사용하기 위한 타 라이브러리가 많이 존재하지만, 이번 포스팅에서는 Databricks에서 개발되고 있는 SparkDL이라는 라이브러리를 이용하여 딥러닝을 수행해봅니다. 현재 Spark 개발을 주도하고 있는 Databricks에서 지원하는 SparkDL은 딥러닝과 관련된 기능을 제공하고 있으며 주로 이미지 데이터에 대한 DL Pipeline과 Transfer Learning, Hyperparameter Tuning의 기능을 제공하고 있다. SparkDL 자체만을 가지고는 다양한 모델의 개발은 좀 한계가 있는 걸로 보이며, 지원하는 모델은 아래와 같다. InceptionV3 Xception ResNet50 VGG16 VGG19 현재 호환되는 버전은 아래와 같다. Spa..

BigData/Spark 2020. 5. 23. 16:52

Spark + H2O(Pysparkling)

Spark에서 H2O를 사용하는 방법 Spark는 Regression, Clustering, Classification 등 ML관련 라이브러리를 제공하지만 Deeplearning 등의 라이브러리는 제공되고 있지 않아 TensorflowOnSpark, BigDL, H2O, SparkDL과 같은 타 패키지와 함께 사용하여야 합니다. 본 포스팅에서는 H2O를 사용하는 방법을 설명합니다. H2O란? 오픈소스 머신러닝 플랫폼으로 다양한 머신러닝 모델과 딥러닝 등을 포함해 AutoML과 같은 최신 알고리즘도 제공하고 있다. 기존의 대형 분석 인프라와 Hadoop, Spark와 같은 분산 클러스터 환경과 S3, Azure 같은 클라우드 환경에서도 동작한다. 그리고 가장 대중적으로 사용되는 통계 프로그램인 R과 연결하..

BigData/Spark 2020. 5. 9. 17:21

Spark ML 05(Pyspark)

SparkML을 이용하여 RandomForest를 수행하는 예제입니다. RandomForest? 랜덤 포레스트(영어: random forest)는 분류, 회귀 분석 등에 사용되는 앙상블 학습 방법의 일종으로, 훈련 과정에서 구성한 다수의 결정 트리로부터 부류(분류) 또는 평균 예측치(회귀 분석)를 출력함으로써 동작한다. 결정 트리 - 위키백과, 우리 모두의 백과사전 위키백과, 우리 모두의 백과사전. ko.wikipedia.org Spark ML In [1]: df = spark.read.csv("data/affairs.csv", inferSchema=True, header=True) In [2]: df.printSchema() root |-- rate_marriage: integer (nullable =..

BigData/Spark 2020. 5. 4. 14:57

Spark ML 04(Pyspark)

Spark ML을 이용하여 Decision Tree를 수행하는 예제입니다. Decision Tree(의사결정나무) 결정 트리 학습법은 어떤 항목에 대한 관측값과 목표값을 연결시켜주는 예측 모델로써 결정 트리를 사용한다. 이는 통계학과 데이터 마이닝, 기계 학습에서 사용하는 예측 모델링 방법 중 하나이다. 트리 모델 중 목표 변수가 유한한 수의 값을 가지는 것을 분류 트리라 한다. 이 트리 구조에서 잎(리프 노드)은 클래스 라벨을 나타내고 가지는 클래스 라벨과 관련있는 특징들의 논리곱을 나타낸다. 결정 트리 중 목표 변수가 연속하는 값, 일반적으로 실수를 가지는 것은 회귀 트리라 한다. 의사 결정 분석에서 결정 트리는 시각적이고 명시적인 방법으로 의사 결정 과정과 결정된 의사를 보여주는데 사용된다. 데이터..

BigData/Spark 2020. 5. 3. 17:13

Spark ML 03 (Pyspark)

Spark ML의 로지스틱 회귀를 수행하는 예제 로지스틱 회귀(영어: logistic regression)는 영국의 통계학자인 D. R. Cox가 1958년[1] 에 제안한 확률 모델로서 독립 변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는데 사용되는 통계 기법이다. 로지스틱 회귀의 목적은 일반적인 회귀 분석의 목표와 동일하게 종속 변수와 독립 변수간의 관계를 구체적인 함수로 나타내어 향후 예측 모델에 사용하는 것이다. 이는 독립 변수의 선형 결합으로 종속 변수를 설명한다는 관점에서는 선형 회귀 분석과 유사하다. 하지만 로지스틱 회귀는 선형 회귀 분석과는 다르게 종속 변수가 범주형 데이터를 대상으로 하며 입력 데이터가 주어졌을 때 해당 데이터의 결과가 특정 분류로 나뉘기 때문에 일종의 분류 (..

BigData/Spark 2020. 5. 1. 13:21

Spark ML 02 (Pyspark)

Spark ML Regression 기상데이터를 Spark ML을 이용하여 선형회귀를 수행하는 예제 선형회귀란? 통계학에서, 선형 회귀(線型回歸, 영어: linear regression)는 종속 변수 y와 한 개 이상의 독립 변수 (또는 설명 변수) X와의 선형 상관 관계를 모델링하는 회귀분석 기법이다. 한 개의 설명 변수에 기반한 경우에는 단순 선형 회귀, 둘 이상의 설명 변수에 기반한 경우에는 다중 선형 회귀라고 한다. https://ko.wikipedia.org/wiki/%EC%84%A0%ED%98%95_%ED%9A%8C%EA%B7%80 선형 회귀 - 위키백과, 우리 모두의 백과사전 위키백과, 우리 모두의 백과사전. 독립변수 1개와 종속변수 1개를 가진 선형 회귀의 예 통계학에서, 선형 회귀(線型回..

BigData/Spark 2020. 4. 26. 15:59

Spark ML (Pyspark)

Spark ML은 Spark의 머신러닝 라이브러리 Regression/Classification/Clustering/collaborative filtering 등의 알고리즘을 제공하고 있으며, 아직까지는 딥러닝 기능은 제공되고 있지 않음 그 외에 다양한 Featurization과 Pipeline 등도 제공되며 Spark 2.x 버전은 두 개의 라이브러리로 제공되어 사용 할 수 있음 Spark ML에서 제공되는 하위 기능들에 대한 설명 - org.apache.spark.mllib • 스파크 저 수준 RDD API를 위한 인터페이스 제공 • 향후 Spark 3.0 에서는 RDD기반의 API는 제거 될 예정 - org.apache.spark.ml • 공식적으로 권장하고 있음 • DataFrame을 사용할 수 ..

BigData/Spark 2020. 4. 25. 18:48

Prev 1 2 3 4 ··· 9 Next

목록BigData (72)

Hee'World

티스토리툴바