'분류 전체보기' 카테고리의 글 목록 (4 Page)

Notice

Recent Posts

Recent Comments

Link

« 2024/12 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록분류 전체보기 (152)

Hee'World

Spark ML 03 (Pyspark)

Spark ML의 로지스틱 회귀를 수행하는 예제 로지스틱 회귀(영어: logistic regression)는 영국의 통계학자인 D. R. Cox가 1958년[1] 에 제안한 확률 모델로서 독립 변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는데 사용되는 통계 기법이다. 로지스틱 회귀의 목적은 일반적인 회귀 분석의 목표와 동일하게 종속 변수와 독립 변수간의 관계를 구체적인 함수로 나타내어 향후 예측 모델에 사용하는 것이다. 이는 독립 변수의 선형 결합으로 종속 변수를 설명한다는 관점에서는 선형 회귀 분석과 유사하다. 하지만 로지스틱 회귀는 선형 회귀 분석과는 다르게 종속 변수가 범주형 데이터를 대상으로 하며 입력 데이터가 주어졌을 때 해당 데이터의 결과가 특정 분류로 나뉘기 때문에 일종의 분류 (..

BigData/Spark 2020. 5. 1. 13:21

Spark ML 02 (Pyspark)

Spark ML Regression 기상데이터를 Spark ML을 이용하여 선형회귀를 수행하는 예제 선형회귀란? 통계학에서, 선형 회귀(線型回歸, 영어: linear regression)는 종속 변수 y와 한 개 이상의 독립 변수 (또는 설명 변수) X와의 선형 상관 관계를 모델링하는 회귀분석 기법이다. 한 개의 설명 변수에 기반한 경우에는 단순 선형 회귀, 둘 이상의 설명 변수에 기반한 경우에는 다중 선형 회귀라고 한다. https://ko.wikipedia.org/wiki/%EC%84%A0%ED%98%95_%ED%9A%8C%EA%B7%80 선형 회귀 - 위키백과, 우리 모두의 백과사전 위키백과, 우리 모두의 백과사전. 독립변수 1개와 종속변수 1개를 가진 선형 회귀의 예 통계학에서, 선형 회귀(線型回..

BigData/Spark 2020. 4. 26. 15:59

Spark ML (Pyspark)

Spark ML은 Spark의 머신러닝 라이브러리 Regression/Classification/Clustering/collaborative filtering 등의 알고리즘을 제공하고 있으며, 아직까지는 딥러닝 기능은 제공되고 있지 않음 그 외에 다양한 Featurization과 Pipeline 등도 제공되며 Spark 2.x 버전은 두 개의 라이브러리로 제공되어 사용 할 수 있음 Spark ML에서 제공되는 하위 기능들에 대한 설명 - org.apache.spark.mllib • 스파크 저 수준 RDD API를 위한 인터페이스 제공 • 향후 Spark 3.0 에서는 RDD기반의 API는 제거 될 예정 - org.apache.spark.ml • 공식적으로 권장하고 있음 • DataFrame을 사용할 수 ..

BigData/Spark 2020. 4. 25. 18:48

Linux 기본 명령어(1)

날짜 및 시간 출력 - date 리눅스 로그인 사용자 확인 - who 커맨드 라인에서 입력된 문자 출력 - echo 파일 출력 - ls - 파일의 상세 내용 출력 -> ls -al 파일 내용 출력 - cat 파일의 라인 수 / 단어 수 / 문자 수 확인 - wc 파일 복사 - cp 파일 이름 변경 - mv 파일 삭제 - rm 현재 디렉토리 경로 출력 - pwd 디렉토리 이동/변경 - cd 디렉토리 생성 - mkdir 디렉토리 제거 - rmdir

OS/Linux 2020. 4. 24. 00:06

Spark Streaming (PySpark)

- Spark Streaming은 실시간 데이터 스트림을 확장 가능하고 많은 처리량의 내결함성 스트림 처리를 지원하는 Spark의 핵심 API - 카프카, Flume, S3, HDFS, TCP 소켓과 같은 다양한 소스로부터 수집 할 수 있음 - 처리된 데이터를 파일 시스템, 데이터베이스 및 라이브 대시 보드로 - 실제로 Spark의 기계 학습 및 그래프 처리 알고리즘을 데이터 스트림에 적용 할 수 있음 Structured Streaming - 실제 Spark 2.x로 와서는 Structuured Streaming을 권장하고 있으며, 스트림 데이터를 Spark DataFrame의 하나의 행으로 계속 추가해서 처리한다고 보면 된다. - 이벤트 시간이라는 데이터 기록된 시간 필드를 기준으로 처리 - 워터마크라..

BigData/Spark 2020. 4. 21. 00:05

SQL 기초

SQL이란? - Structured Query Language - 관계형 데이터베이스 관리 시스템(RDBMS)의 데이터를 관리하기 위해 설계된 프로그래밍 언어 - 관계형 데이터베이스 관리 시스템에서 자료의 검색과 관리, 데이터베이스 스키마 생성과 수정, 데이터베이스 객체 접근 조정 관리를 위해 고안 - 데이터베이스 관련 프로그램들이 SQL을 표준으로 채택 SQL문법 종류 - 데이터 정의 언어 (DDL : Data Definition Language) • 관계형 데이터베이스의 구조를 정의 - 데이터 조작 언어 (DML : Data Manipulation Language) • 관계형 데이터베이스에 대해 검색 및 업데이트 등의 데이터 조작을 위해 사용 - 데이터 제어 언어 (DCL : Data Control ..

Database/SQL 2020. 4. 15. 18:54

Spark SQL (PySpark)

- Spark 이전, SQL on Hadoop으로 Hive가 사실상 표준 - DataFrame을 createOrReplaceTempView로 등록하여 SQL 사용 가능 - Grobal TempView • Spark Session 전역에서 사용 가능하도록 선언 • createOrReplaceTempView는 현재 SparkSession에서만 사용 가능 Spark SQL¶ Spark DataFrame을 Database Table처럼 사용 In [1]: import pandas as pd Pandas 데이터프레임 생성¶ In [5]: pandf = pd.read_csv("data/Uber-Jan-Feb-FOIL.csv", header=0) In [6]: pandf.head() Out[6]: dispatchin..

BigData/Spark 2020. 4. 15. 18:28

Tensorflow_R_MNIST 예제 (Keras)

Tensorflow를 R에서 테스트 진행하여 가장 기본 예제인 MNIST를 사용합니다. R - 3.5.3 RStudio - 1.1.463 OS - Windows10 Mem - 16G 참고 - https://tensorflow.rstudio.com/tutorials/beginners/ TensorFlow for R This short introduction uses Keras to: Build a neural network that classifies images.Train this neural network.And, finally, evaluate the accuracy of the model.Save and restore the created model. Before running the quickst..

Programming/R 2020. 4. 13. 23:51

Prev 1 2 3 4 5 6 7 ··· 19 Next

목록분류 전체보기 (152)

Hee'World

티스토리툴바