Hee'World

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록전체 글 (152)

Hee'World

Apache Spark 3.0

Apache Spark 3.0.0 preview2 버전이 2019년 12월 23일에 릴리즈 되었다. 향후 버전의 기능을 미리 알아 볼 수 있으며, 곧 정식으로 Spark 3.0이 나올 것으로 기대된다. 몇가지 달라지거나 추가되는 기능에 대해서 알아봅시다. 언어 - Spark 3.0은 Python3를 공식 지원하고, Python 2.x 버전은 더이상 지원되지 않는다. Scala버전은 2.12로 향상되었으며, 또한 JDK 11을 지원하게 된다. SQL 최적화 - DDP(Dynamic Partition Pruning)을 도입하였으며, 논리 계획과 물리 계획에 모두 적용된다. 속도 향상 GPU 지원 - 기존의 Spark MLlib, Spark ML은 딥러닝에 대한 기능이나 알고리즘을 지원하지 않았다. Tenso..

BigData/Spark 2020. 3. 6. 00:19

Pandas API on Apache Spark

Pandas는 Python에서 데이터 처리를 위한 사실상 표준에 가까운 패키지 Databricks에서 주도하고 있는 Koalas 프로젝트는 Apache Spark위에 Pandas API를 구현한 기능 Pandas 문법을 사용하면서 Spark의 성능을 그대로 활용 가능 현재, 베타버전 Koalas github page - https://github.com/databricks/koalas databricks/koalas Koalas: pandas API on Apache Spark. Contribute to databricks/koalas development by creating an account on GitHub. github.com Koalas Spark + AI Summit 2019 - https:..

BigData/Spark 2020. 2. 23. 14:40

tensorflow in r 설치

TensorFlow TensorFlow™ is an open source software library for numerical computation using data flow graphs. Nodes in the graph represent mathematical operations, while the graph edges represent the multidimensional data arrays (tensors) communicated between them. The flexible architecture allows you to deploy computation to one or more CPUs or GPUs in a desktop, server, or mobile device with a s..

Programming/R 2017. 7. 19. 20:01

Sparklyr 설치

Sparklyr: R interface for Apache Spark Connect to Spark from R. The sparklyr package provides a complete dplyr backend. Filter and aggregate Spark datasets then bring them into R for analysis and visualization. Use Sparks distributed machine learninglibrary from R. Create extensions that call the full Spark API and provide interfaces to Spark packages - 설치환경 * RAM 16G * HDD 500G * Windows 7 - in..

Programming/R 2017. 7. 19. 19:47

SparkR + RStudio설정

1. R과 RStudio는 미리 설치가 되어 있다는 전제하에 진행합니다. 2. Windows 환경에서 설정하였고, 리눅스 환경에서도 비슷할 것이라는 예상하에....진행 하였습니다.3. 설정환경은 아래와 같습니다. R 3.3.1 RStudio 0.98.501 Spark 2.0.0 4. Spark 홈페이지에서 Spark를 다운로드 합니다. 5. 다운 받은 Spark를 적당한 곳에 압축 해제 후 RStudio를 실행합니다.6. 실행한 RStudio에서 아래와 같은 명령어를 입력합니다. Sys.setenv(SPARK_HOME = "Spark를 압축해제한 경로").libPaths(c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"), .libPaths())) 7. SPARK_H..

BigData/Spark 2016. 12. 7. 23:04

하둡 에코 20161003

- 기술 스택 정리할 겸 끄적거려 보았는데, 예전에 비하면 하둡 또는 데이터 관련 오픈 기술들이 정말 많아졌다. 데이터가 정말 중요해진 느낌이다. 그래서 공부 할게 많아졌다. 하하...

BigData/Hadoop 2016. 10. 3. 22:59

docker image에서 container로 데이터 복사

- docker image에서 rpython이라는 container로 데이터 복사 1. rpython의 dockeruser라는 user의 홈 디렉토리 모습입니다.현재 data.csv라는 파일이 없습니다. 2. docker image에 있는 data.csv라는 파일을 rpython으로 복사합니다. - docker cp [data] [container] - docker cp data.csv rpython:/home/dockeruser/ 를 입력합니다. 3. rpython container의 홈디렉토리를 보면 data.csv가 복사된 것을 확인 할 수 있습니다. 끝

Cloud/Docker 2016. 7. 21. 20:00

[Ubuntu] MariaDB 설치 및 jupyter 연결

- Ubuntu에 MariaDB 설치 1. sudo apt-get install mariadb-server 입력 2. mariadb의 root패스워드 설정 3. 설정한 root 패스워드를 이용하여 접속합니다. 4. MariaDB 연결을 위한 MySQL-python을 설치합니다. - pip install MySQL-python을 입력합니다. 5. jupyter에서 아래와 같은 코드를 입력하여 연결합니다. import pandas as pdimport MySQLdb db = MySQLdb.connect( 'localhost', 'username', 'userpassword', 'db', charset='utf8') pd.read_sql('select * from host', db)

OS/Linux 2016. 7. 21. 19:43

Prev 1 ··· 3 4 5 6 7 8 9 ··· 19 Next

목록전체 글 (152)

Hee'World

티스토리툴바