Notice
Recent Posts
Recent Comments
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- SQL
- Neo4j
- TensorFlow
- 그래프 에코시스템
- 분산 병렬 처리
- Cypher
- SparkML
- graph database
- 그래프 질의언어
- GSQL
- 딥러닝
- 연합학습
- 인공지능
- r
- 그래프 데이터베이스
- spark
- GraphX
- 그래프
- BigData
- RDD
- RStudio
- Graph Tech
- Python
- graph
- Graph Ecosystem
- Federated Learning
- GDB
- TigerGraph
- DeepLearning
- 빅데이터
Archives
- Today
- Total
Hee'World
Pandas API on Apache Spark 본문
- Pandas는 Python에서 데이터 처리를 위한 사실상 표준에 가까운 패키지
- Databricks에서 주도하고 있는 Koalas 프로젝트는 Apache Spark위에 Pandas API를 구현한 기능
- Pandas 문법을 사용하면서 Spark의 성능을 그대로 활용 가능
- 현재, 베타버전
Koalas github page - https://github.com/databricks/koalas
Koalas Spark + AI Summit 2019 - https://databricks.com/session_eu19/koalas-pandas-on-apache-spark
- Koalas 패키지 설치 방법
- 기본 conda를 이용한 설치를 권장하고 있음
> conda install koalas -c conda-forge
- Koalas 사용법
# 패키지 Import
import databricks.koalas as ks
import pandas as pd
pdf = pd.DataFrame({'x':range(3), 'y':['a','b','b'], 'z':['a','b','b']})
# Create a Koalas DataFrame from pandas DataFrame
df = ks.from_pandas(pdf)
# Rename the columns
df.columns = ['x', 'y', 'z1']
# Do some operations in place:
df['x2'] = df.x * df.x
>>> import databricks.koalas as ks
>>>
>>> kdf = ks.range(10)
>>> pdf = kdf.to_pandas()
>>> pdf.values
array([[0],
[1],
[2],
[3],
[4],
[5],
[6],
[7],
[8],
[9]])
>>> ks.from_pandas(pdf)
id
0 0
1 1
2 2
3 3
4 4
5 5
6 6
7 7
8 8
9 9
>>> import databricks.koalas as ks
>>>
>>> kdf = ks.range(10)
>>> sdf = kdf.to_spark().filter("id > 5")
>>> sdf.show()
+---+
| id|
+---+
| 6|
| 7|
| 8|
| 9|
+---+
- Koalas 10분 튜토리얼 Notebook
Koalas Github에 있는 자료를 활용하였습니다.
'BigData > Spark' 카테고리의 다른 글
Spark RDD 문법 (0) | 2020.04.06 |
---|---|
Spark RDD (0) | 2020.04.04 |
Apache Spark란? (0) | 2020.04.04 |
Apache Spark 3.0 (0) | 2020.03.06 |
SparkR + RStudio설정 (0) | 2016.12.07 |
Comments