'분류 전체보기' 카테고리의 글 목록 (5 Page)

Notice

Recent Posts

Recent Comments

Link

« 2025/03 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Tags more

Archives

Today

Total

관리 메뉴

목록분류 전체보기 (152)

Hee'World

Spark DataFrame 03 (Pyspark)

Titanic DataFrame 생성¶ In [1]: import pandas as pd In [15]: data1 = {'PassengerId':{0:1, 1:2, 2:3, 3:4, 4:5}, 'Name' : {0:'Owen', 1:'Florence', 2:'Laina', 3:'Lily', 4:"William"}, 'sex' : {0: 'male', 1: 'female', 2:'female', 3:'female', 4:'male'}, 'Survived': {0:0, 1:1, 2:1, 3:1, 4:0} } data2 = ..

BigData/Spark 2020. 4. 11. 16:18

Spark DataFrame 02 (Pyspark)

Spark DataFrame¶ - select¶ In [3]: df = spark.read.json("data/2015-summary.json") In [6]: df.printSchema() root |-- DEST_COUNTRY_NAME: string (nullable = true) |-- ORIGIN_COUNTRY_NAME: string (nullable = true) |-- count: long (nullable = true) In [8]: df.select("DEST_COUNTRY_NAME").show() +--------------------+ | DEST_COUNTRY_NAME| +--------------------+ | United States| | United States| | Unite..

BigData/Spark 2020. 4. 11. 16:17

Spark DataFrame01 (Pyspark)

Spark에서 Row와 Column의 형태로 RDD를 표현하여 처리 할 수 있음 타입 - Python의 Pandas 패키지의 DataFrame과 R의 DataFrame과 동일한 개념 - Spark 2.x에서 Catalyst Optimizer의 도입으로 인해 Spark에서 지원하는 프로그래밍 타입 별 처리 성능이 동일하게 향상되었음 Spark DataFrame¶ spark.read.csv() spark.read.json() spark.read.format("csv") spark.read.format("json") file:// hdfs:// hbase:// s3:// In [1]: stock = spark.read.csv("data/appl_stock.csv", inferSchema=True, header..

BigData/Spark 2020. 4. 11. 16:10

공통 데이터 모델(Common Data Model, CDM)

현, 병원정보시스템 현재 병원정보시스템은 병원마다 각기 다른 시스템으로 구축되어 운영되고 있음 즉, 운영되는 데이터도 각기 다른 형태로 관리와 운영되고 있음 그래서 각각 운영되는 데이터를 공통의 데이터 포맷으로 통일하고자 하는 방안이 대두되었음 공통 데이터 모델이란? 공통데이터모델이란 각 의료기관들이 보유한 다른 구조의 의료 데이터에 적용 가능한 동일한 구조와 규격의 데이터 모델 공통데이터모델은 동일한 분석 코드를 데이터 보유 기관에서 개별 실행하여 통합하는 분산형 공동연구를 가능하게 함 공통데이터모델에는 OMOP-CDM, Sentinel-CDM, PCORnet CDM 등 다양한 CDM이 있음 OMOP-CDM(Observational Medical Outcome Partners-Common Data Mo..

의료정보빅데이터 2020. 4. 7. 00:05

Spark RDD 문법

대화형 콘솔 - Spark는 기본적으로 Scala, Python, SQL, R 등 대화형 콘솔 명령 프롬프트를 제공하고 있다. sc 객체 - SparkContext라는 Spark에서 기존에 사용하였던 객체 sc SparkContext Spark UI Version v2.4.4 Master local[*] AppName PySparkShell sc 객체를 이용한 RDD 생성 rdd = sc.parallelize([1, 2, 3]) rdd.collect() [1, 2, 3] type(rdd) pyspark.rdd.RDD list_set = [('cat', 'dog'),(1, 2, 3)] rdd = sc.parallelize(list_set) rdd.collect() [('cat', 'dog'), (1, 2,..

BigData/Spark 2020. 4. 6. 23:42

Spark RDD

RDD는 스파크에서 가장 중요하고 핵심적인 기본 데이터 타입이라고 볼 수 있다. 스파크에서 처리되는 모든 데이터는 RDD를 기본으로 처리되고 실행된다. RDD는 Resilient Distributed Dataset라고 불리며, 불변(변하지않는)하고 분산되는 데이터집합이라고 볼 수 있다. 스파크에서 각각의 데이터는 클러스터 메모리에 분산되어 Partition 단위로 분산 저장된다. 또한, 리니지(Lineage)라는 RDD 생성 단계를 기록하여 연산 처리 중, 노드의 장애 또는 실패가 발생 시 데이터를 재구성하여 다시 연산 할 수 있도록 한다. RDD 연산에서는 Action연산과 Transformation연산이라는 2가지 연산이 존재한다. 먼저 Transformation 연산은 RDD의 불변성과도 연관이 있..

BigData/Spark 2020. 4. 4. 17:15

Apache Spark란?

아파치 스파크(Apache Spark)는 아래 공식 홈페이지에 소개된 것처럼 대용량 데이터를 처리하기 위한 통합 분산 엔진이다. 기존 하둡(Hadoop)이라는 플랫폼을 대체 했다기 보다는 완벽히 조화를 이루었다고 보는게 맞을거 같다. 아파치 스파크는 2009년 U.C. 버클리의 AMP랩(AMPLab)에서 시작되었으며, 지금은 빅데이터 분야에서 가장 중요한 빅데이터 분산 처리 프레임워크이다. 또한, 아파치 스파크는 다양한 데이터 소스, 개발환경, 작업등을 통합 분석 할 수 있는 엔진으로 개발되고 발전하고 있으며, 최근에는 딥러닝(Deeplearning)과 파이썬(Python)의 Pandas패키지등 인공지능과 데이터분석에도 적극적으로 지원하고 있다. 기존 Disk 기반으로 처리되는 MapReduce의 처리 ..

BigData/Spark 2020. 4. 4. 16:23

기상데이터를 이용한 Shiny App구현

기상데이터를 이용하여 데이터를 확인해 볼 수 있는 기본적인 Shiny앱을 구현합니다. 아래와 같은 탭형식의 기상데이터 탐색을 Shiny로 구현한 화면입니다. 사용환경 : Windows 10, R3.5, RStudio 1.1463 R 주요 패키지 : Shiny, ggplot2, DT, rpart, corrplot 먼저 기상데이터를 수집하기 위해서는 기상청에서 운영하는 "날씨마루"와 "기상자료개방포털"를 활용하여 획득 할 수 있습니다. https://bd.kma.go.kr/kma2019/svc/main.do 기상청 날씨마루 - 기상 빅데이터 분석 플랫폼 및 기상융합서비스 bd.kma.go.kr https://data.kma.go.kr/cmmn/main.do 기상자료개방포털 data.kma.go.kr 필자는 ..

Programming/R 2020. 3. 23. 23:33

Prev 1 2 3 4 5 6 7 8 ··· 19 Next

목록분류 전체보기 (152)

Hee'World

티스토리툴바