'SparkStreaming' 태그의 글 목록

본문 바로가기

Notice

Recent Posts

Recent Comments

Link

« 2024/12 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록SparkStreaming (1)

Hee'World

Apache Spark란?

아파치 스파크(Apache Spark)는 아래 공식 홈페이지에 소개된 것처럼 대용량 데이터를 처리하기 위한 통합 분산 엔진이다. 기존 하둡(Hadoop)이라는 플랫폼을 대체 했다기 보다는 완벽히 조화를 이루었다고 보는게 맞을거 같다. 아파치 스파크는 2009년 U.C. 버클리의 AMP랩(AMPLab)에서 시작되었으며, 지금은 빅데이터 분야에서 가장 중요한 빅데이터 분산 처리 프레임워크이다. 또한, 아파치 스파크는 다양한 데이터 소스, 개발환경, 작업등을 통합 분석 할 수 있는 엔진으로 개발되고 발전하고 있으며, 최근에는 딥러닝(Deeplearning)과 파이썬(Python)의 Pandas패키지등 인공지능과 데이터분석에도 적극적으로 지원하고 있다. 기존 Disk 기반으로 처리되는 MapReduce의 처리 ..

BigData/Spark 2020. 4. 4. 16:23

Prev 1 Next

목록SparkStreaming (1)

Hee'World

티스토리툴바