1. 광고배너
  2. 광고배너
/ 이전버튼 다음버튼
2
미리보기

파이썬을 활용한 스파크 프로그래밍
저자 : 제프리에이븐 ㅣ 출판사 : 에이콘출판 ㅣ 역자 : 송주경

2019.08.27 ㅣ 388p ㅣ ISBN-13 : 9791161753287

정가30,000
판매가28,500(5% 할인)
적립금 1,200원 (4%)
배송일정 05월 07일 출고 가능
주문 수량 변경시 안내 배송안내
쿠폰 및 결제혜택 확인하기

크기 기타 규격
제품구성 단행본
이용약관 청약철회
국내도서 > 컴퓨터 > 인터넷 > 웹프로그래밍(웹디자...
『파이썬을 활용한 스파크 프로그래밍』에서는 빅데이터 분석을 위한 가장 핵심적인 기술 중 하나인 스파크의 개념 및 설치, 활용법의 상세한 설명으로 독자들의 이해를 돕는다. 또한 스파크와 통합되는 타 기술들과 빅데이터 분석에 관한 전반적인 지식도 다룬다. 대중적으로 익숙한 파이썬을 활용한 소스 코드로 독자들이 쉽게 따라 하며 학습할 수 있도록 구성했다.
펼쳐보기

[목 차]

1부. 스파크 기초

1장. 빅데이터, 하둡 및 스파크 소개

__빅데이터, 분산 컴퓨팅 및 하둡 소개
____빅데이터와 하둡의 간략한 역사
____하둡
__아파치 스파크 소개
____아파치 스파크 배경
____스파크 사용
____스파크 프로그래밍 인터페이스
____스파크 프로그램의 제출 유형
____스파크 응용 프로그램의 입력/출력 유형
____스파크 RDD
____스파크와 하둡
__파이썬을 이용한 함수 프로그래밍
____파이썬 함수 프로그래밍에서 사용되는 데이터 구조
____파이썬 객체 직렬화
____파이썬 함수형 프로그래밍 기초
__요약

2장. 스파크 배포

__스파크 배포 모드
____로컬 모드
____스파크 독립실행형
____얀에서의 스파크
____메소스에서의 스파크
__스파크 설치 준비
__스파크 가져오기
__리눅스나 맥 OS X에서 스파크 설치하기
__윈도우에 스파크 설치하기
__스파크 설치 탐색
__다중노드(Multi-Node) 스파크 독립실행형 클러스터 배포
__클라우드에서 스파크 배포
____아마존 웹 서비스
____구글 클라우드 플랫폼
____데이터브릭스
__요약

3장. 스파크 클러스터 아키텍처의 이해

__스파크 응용 프로그램의 해부
____스파크 드라이버
____스파크 작업자 및 실행자
____스파크 마스터와 클러스터 매니저
__독립실행형 스케줄러를 사용하는 스파크 응용 프로그램
____얀에서 실행되는 스파크 응용 프로그램
__얀에서 실행되는 스파크 응용 프로그램의 배포 모드
____클라이언트 모드
____클러스터 모드
____로컬 모드 재검토
__요약

4장. 스파크 프로그래밍 기초 학습

__RDD의 소개
__RDD에 데이터 로드하기
____하나 이상의 파일에서 RDD 생성하기
____하나 이상의 텍스트 파일에서 RDD를 만드는 방법
____오브젝트 파일에서 RDD 만들기
____데이터 소스에서 RDD 만들기
____JSON 파일에서 RDD 만들기
____프로그래밍 방식으로 RDD 생성하기
__RDD 연산
____주요 RDD 개념
____기본 RDD 변환
____기본 RDD 액션
____PairRDD의 변환
____맵리듀스 및 워드 카운트(Word Count) 연습
____조인(Join) 변환
____스파크에서 데이터세트 조인하기
____세트(Sets)의 변환
____숫자(numeric) RDD의 변환
__요약

2부. 스파크 응용

5장. 스파크 코어 API를 사용한 고급 프로그래밍

__스파크의 공유변수
____브로드캐스트 변수
____어큐뮬레이터
____연습: 브로드캐스트 변수 및 어큐뮬레이터 사용
__스파크의 데이터 파티셔닝
____파티셔닝 개요
____파티션 제어
____함수 재분할
____파티션 별 또는 파티션 인식 API 메소드
__RDD 저장 옵션
____RDD 리니지 재검토
____RDD 저장 옵션
____RDD 캐싱
____RDD 유지
____RDD를 유지하거나 캐시할 시기 선택하기
____RDD 체크포인트 지정
____연습: RDD 체크포인트
__외부 프로그램으로 RDD 처리하기
__스파크를 사용해 데이터 샘플링하기
__스파크 응용 프로그램 및 클러스터 구성 이해하기
____스파크 환경변수
____스파크 구성 속성
__스파크 최적화하기
____초기 필터, 자주 필터
____연관연산 최적화하기
____함수 및 클로저의 영향 이해하기
____데이터 수집을 위한 고려 사항
____응용 프로그램 조정 및 최적화를 위한 구성 매개변수
____비효율적인 파티셔닝 피하기
____응용 프로그램 성능 문제 진단하기
__요약

6장. 스파크로 SQL 및 NoSQL 프로그래밍하기

__스파크 SQL 소개
____하이브 소개
____스파크 SQL 아키텍처
____데이터프레임 시작하기
____데이터프레임 사용
____캐싱, 지속 및 데이터프레임 재구성
____데이터프레임 출력 저장
____스파크 SQL 액세스하기
____연습: 스파크 SQL 사용하기
__NoSQL 시스템에서 스파크 사용하기
____NoSQL 소개
____HBase와 스파크 사용하기
____연습: HBase로 스파크 사용하기
____카산드라와 함께 스파크 사용하기
____DynamoDB에서 스파크 사용하기
____기타 NoSQL 플랫폼
__요약

7장. 스파크를 사용한 스트림 처리 및 메시징

__스파크 스트리밍 소개
____스파크 스트리밍 아키텍처
____DStream 소개
____연습: 스파크 스트리밍 시작하기
____State 연산
____슬라이딩 윈도우 연산
__구조화된 스트리밍
____구조화된 스트리밍 데이터 소스
____구조화된 스트리밍 데이터 싱크
____출력 모드
____구조화된 스트리밍 연산
__메시징 플랫폼에서 스파크 사용
____아파치 카프카
____연습: 카프카와 스파크 사용하기
____아마존 킨시스
__요약

8장. 스파크를 사용한 데이터 과학 및 머신 러닝 소개

__스파크 및 R
____R 소개
____R에 스파크 사용하기
____연습: SparkR과 함께 RStudio 사용하기
__스파크로 머신 러닝하기
____머신 러닝 입문서
____스파크 MLlib를 사용한 머신 러닝
____연습: 스파크 MLlib를 사용해서 Recommender 구현하기
____스파크 ML을 사용한 머신 러닝
__스파크와 함께 노트북 사용하기
____주피터(IPython) 노트북과 스파크 사용하기
____스파크에서 아파치 제플린 노트북 사용하기
__요약
펼쳐보기
★ 이 책에서 다루는 내용 ★

■ 빅데이터 및 하둡 에코 시스템에서 스파크의 진화하는 역할 이해
■ 다양한 배포 모드를 사용해 스파크 클러스터 생성
■ 스파크 클러스터 및 응용 프로그램의 제어 및 최적화
■ 마스터 스파크 코어 RDD API 프로그래밍 기술
■ 공유 변수, RDD 스토리지 및 파티셔닝을 포함한 고급 APl 플랫폼 구성으로 스파크 루틴을 확장, 가속 및 최적화
■ SQL 및 비관계형 데이터 저장소로 스파크를 효율적으로 통합
■ 스파크 스트리밍 및 아파치 카프카를 사용한 스트림 처리 및 메시징 수행
■ SparkR 및 스파크 Mllib를 사용한 예측 모델링 구현

★ 이 책의 대상 독자 ★

빅데이터 분야에 입문하거나 축적한 지식을 이 영역에 통합하려는 데이터 분석가 및 엔지니어를 대상으로 하는 책이다. 스파크는 빅데이터에 탁월한 프로세싱 프레임워크로서 현재 빅데이터 분야에서 전문적인 기술을 보유한 엔지니어가 많이 사용하고 있다.
파이썬 프로그래밍 경험이 있는 사람이라면 이 책을 볼 때 더 이해하기 쉬우므로 파이썬에 관한 경험은 유용하지만, 반드시 필요한 것은 아니다. 데이터 분석 및 조작과 관련한 훌륭한 실무 지식도 도움이 될 수 있다. 특히 빅데이터 영역으로 커리어를 확장하고자 하는 데이터 웨어하우스 전문가에게 적합하다.

★ 이 책의 구성 ★

1부, ‘스파크 기초’에서는 스파크를 배치하는 방법, 기본적인 데이터 처리 작업을 위해 스파크의 사용법을 확실하게 이해하도록 설계된 네 개의 장이 포함돼 있다.
1장, ‘빅데이터, 하둡 및 스파크 소개’에서는 스파크 프로젝트의 기원과 진화를 비롯해 빅데이터 에코 시스템에 대한 개념을 설명한다. 스파크 프로젝트의 핵심 속성은 스파크가 무엇인지, 어떻게 사용되는지, 하둡 프로젝트와는 어떤 관련이 있는지 등을 설명한다.
2장, ‘스파크 배포’에서는 다양한 스파크 클러스터 배포 모드와 스파크를 활용하는 다양한 방법을 포함해 스파크 클러스터를 배포하는 방법을 보여 준다.
3장, ‘스파크 클러스터 아키텍처의 이해’에서는 스파크 클러스터 및 응용 프로그램의 작동 방식에 관해 설명하고 스파크의 작동 방식을 확실히 이해하도록 돕는다.
4장, ‘스파크 프로그래밍 기초 학습’에서는 탄력적인 분산 데이터 세트(RDD, Resilient Distributed Dataset) API를 사용해서 스파크의 블록으로 구성된 기본 프로그래밍에 대해 중점적으로 다룬다.

2부, ‘스파크 응용’에서는 스트리밍 응용 프로그램, 데이터 과학 및 머신 러닝과 함께 사용되는 스파크 코어의 확장 및 응용에 관해 다음 네 개의 장에서 다룬다.
5장, ‘스파크 코어 API를 사용한 고급 프로그래밍’에서는 다양한 공유 변수 및 RDD 스토리지, 파티션 개념 및 구현을 포함해서 스파크 루틴을 확장, 가속, 최적화하는 데 사용되는 고급 구문을 설명한다.
6장, ‘스파크로 SQL 및 NoSQL 프로그래밍하기’에서는 스파크가 방대한 SQL 환경 및 비관계형 저장소와 통합하는 것에 관해 설명한다.
7장, ‘스파크를 사용한 스트림 처리 및 메시징’에서는 스파크 스트리밍 프로젝트와 기본 DStream 객체를 소개한다. 또한 스파크를 아파치 카프카와 같은 대중적인 메시징 시스템과 함께 사용하는 방법도 다룬다.
8장, ‘스파크를 사용한 데이터 과학 및 머신 러닝 소개’에서는 스파크에서 머신 러닝을 구현하는 데 사용되는 스파크 MLlib 하위 프로젝트뿐만 아니라 R과 스파크를 함께 사용하는 예측 모델링에 관해 소개한다.
펼쳐보기
제프리 에이븐 (Jeffrey Aven)
호주 멜버른에 본사를 둔 독립적인 빅데이터, 오픈 소스 소프트웨어 및 클라우드 컴퓨팅 전문가다. 고급 컨설턴트이자 강사이며, 『Apache Spark in 24 Hours, Sams Teach Yourself』(Sams Publishing, 2016), 『Apache Spark in 24 Hours, Sams Teach Yourself』(Sams Publishing, 2016) 등 여러 권의 책을 저술했다.

옮긴이 송주경
서강대학교 컴퓨터공학과를 졸업한 후, 삼성전자와 LG전자 연구소에서 연구원으로 재직했다. 현재 기업 및 대학에서 예술과 기술 융합, 생활 속 과학, 창의적 사고와 코딩, 아트워크 실습 등 다수 강의를 하고 있으며, 관련 컨설팅도 진행하고 있다.
펼쳐보기

독자서평 쓰기 로그인을 하시면 독자서평을 쓰실 수 있습니다.

독자서평 쓰기 로그인을 하시면 독자서평을 쓰실 수 있습니다.
도서평점
내용
등록하기
0/2000자
교환/반품 방법
  • 마이페이지 > 주문관리 > 주문/배송조회 > 주문조회 후  [1:1상담신청]  또는 고객센터 (1544-9020)
  • ※ 오픈마켓, 해외배송 주문상품 문의 시 [1:1상담신청] 또는 고객센터 (1544-9020)
교환/반품 가능기간
  • 변심반품의 경우 수령 후 7일 이내
  • 상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내
교환/반품 비용
  • 단순변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
  • 해외직배송 도서 구매 후 단순변심에 의한 취소 및 반품 시 도서판매가의 20% 수수료 부과
교환/반품 불가사유
  • 소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
  • 소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우 예) 만화, 잡지, 수험서 및 문제집류
  • 복제가 가능한 상품 등의 포장을 훼손한 경우 예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집
  • 소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우
  • 디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우
  • 시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
  • 전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에 해당되는 경우
상품 품절
  • 공급사(출판사) 재고 사정에 의해 품절/지연될 수 있으며, 품절 시 관련 사항에 대해서는 이메일과 문자로 안내드리겠습니다.
소비자 피해보상
환불지연에 따른 배상
  • 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은 소비자분쟁 해결 기준 (공정거래위원회 고시)에 준하여 처리됨
  • 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의 소비자 보호에 관한 법률에 따라 처리함

이 분야의 베스트

더보기 >

    이 분야의 신간

    더보기 >
      맨위로가기

      영풍문고 로고

      • 회사명 : (주)영풍문고
      • 대표이사 : 김경환
      • 소재지 : 서울특별시 종로구 청계천로 41 (우)03188
      • 사업자 등록번호 : 773-86-01800 ㅣ 통신판매업 신고번호 : 2023-서울종로-0130 [ 사업자정보확인 ]
      • 개인정보관리 책임자 : 조순제 ㅣ customer@ypbooks.co.kr ㅣ 대량주문 : webmaster@ypbooks.co.kr
      COPYRIGHT © YOUNGPOONG BOOKSTORE INC. ALL RIGHTS RESERVED.
      영풍문고 네이버블로그 영풍문고 인스타그램
      맨위로가기