1. 광고배너
  2. 광고배너
/ 이전버튼 다음버튼
2
미리보기

아파치 플링크로 하는 스트림 데이터 처리
저자 : 파비안휴스케,바실리키칼라브리 ㅣ 출판사 : 에이콘출판 ㅣ 역자 : 오세봉

2020.04.22 ㅣ 440p ㅣ ISBN-13 : 9791161754093

정가35,000
판매가33,250(5% 할인)
적립금 1,400원 (4%)
배송일정 절판
주문 수량 변경시 안내 배송안내
쿠폰 및 결제혜택 확인하기

크기 기타 규격
제품구성 단행본
이용약관 청약철회
국내도서 > 컴퓨터 > 시스템공학 > 데이타베이스/자료구...
아파치 플링크를 사용하면 초저지연으로 스트림 데이터를 처리하고 실시간으로 스트림 데이터를 분석할 수 있다. 강력한 아파치 플링크의 스트림 처리 기능을 바탕으로 매일 수천억 건 이상의 데이터를 처리하는 스트림 데이터 처리 애플리케이션을 쉽게 개발할 수 있다.
이 책은 스트림 데이터의 일반적인 내용부터 아파치 플링크의 구현 원리와 스트림 데이터 개발에 필요한 여러 기능을 쉬운 예제를 들어 설명한다. 스트림 데이터 처리가 궁금하거나 스트림 데이터 처리 애플리케이션 개발에 관심이 많은 개발자라면 꼭 읽어봐야 하는 책이다.
펼쳐보기

[목 차]


1장. 상태가 있는 스트림 처리 소개
__전통적인 데이터 인프라
____트랜잭션 처리
____분석 처리
__상태가 있는 스트림 처리
____이벤트 주도 애플리케이션
____데이터 파이프라인
____스트리밍 분석
__오픈소스 스트리밍 처리의 진화
____스트림 처리의 역사
__플링크 빠르게 살펴보기
____첫 번째 플링크 애플리케이션 실행
__요약

2장. 스트리밍 처리 기초
__데이터플로우 프로그래밍 소개
____데이터플로우 그래프
____데이터 병렬화와 태스크 병렬화
____데이터 교환 전략
__병렬 스트림 처리
____지연과 처리율
____데이터 스트림 연산
__시간 시멘틱
____스트리밍 처리에서 1분
____처리 시간
____이벤트 시간
____워터마크
____처리 시간과 이벤트 시간
__상태와 일관성 모델
____태스크 실패
____결과 보장
__요약

3장. 아파치 플링크 아키텍처
__시스템 아키텍처
____플링크 컴포넌트
____애플리케이션 배치
____태스크 실행
____고가용성 설정
__플링크 내부의 데이터 전송
____크레딧 기반 흐름 제어
____태스크 체이닝
__이벤트 시간 처리
____타임스탬프
____워터마크
____워터마크 전파와 이벤트 시간
____타임스탬프 할당과 워터마크 생성
__상태 관리
____연산자 상태
____키 상태
____상태 백엔드
____상태가 있는 연산자의 수평 확장
__체크포인트, 세이브포인트, 상태 복구
____일관성 체크포인트
____일관성 체크포인트에서 복구
____플링크의 체크포인트 알고리즘
____체크포인트가 성능에 미치는 영향
____세이브포인트
__요약

4장. 아파치 플링크 개발 환경 설치
__소프트웨어 요구 사항
__IDE에서 플링크 애플리케이션 실행과 디버깅
____IDE에서 예제 코드 불러오기
____IDE에서 플링크 애플리케이션 실행
____IDE에서 플링크 애플리케이션 디버깅
__플링크 메이븐 프로젝트 부트스트랩
__요약

5장. DataStream API(v1.7)
__헬로우, 플링크!
____실행 환경 설정
____입력 스트림 읽기
____변환 연산 적용
____결과 출력
____실행
__변환 연산
____기본 변환 연산
____KeyedStream 변환 연산
____다중 스트림 변환 연산
____분산 변환 연산
__병렬 설정
__데이터 타입
____지원하는 데이터 타입
____TypeInformation 생성
____명시적인 TypeInformation 제공
__키 정의 방법과 필드 참조
____필드 위치
____필드 표현식
____Key Selector
__함수 구현
____함수 클래스
____람다 함수
____RichFunction
__외부 의존 라이브러리와 플링크 라이브러리 포함
__요약

6장. 시간 기반 연산자와 윈도우 연산자
__시간 특성 설정
____타임스탬프 할당과 워터마크 생성
____워터마크가 지연과 완성도에 미치는 영향
__ProcessFunction
____TimerService와 타이머
____사이드 출력으로 내보내기
____CoProcessFunction
__윈도우 연산자
____윈도우 연산자 정의
____기본 윈도우 할당자
____윈도우에 함수 적용
____사용자 정의 윈도우 연산자
__시간 기반 스트림 조인
____간격 조인
____윈도우 조인
__연착 데이터 처리
____연착 이벤트 버리기
____연착 이벤트 재전송
____연착 이벤트를 포함해 처리 결과 갱신
____요약

7장. 상태가 있는 연산자와 애플리케이션
__상태가 있는 함수 구현
____RuntimeContext에 키 상태 선언
____ListCheckpointed 인터페이스를 이용해 연산자 리스트 상태 구현
____브로드캐스트 상태 사용
____CheckpointedFunction 인터페이스 사용
____체크포인트 완료 알림 받기
__상태가 있는 애플리케이션의 장애 복구 활성화
__상태가 있는 애플리케이션의 유지 보수 활성화
____연산자 고유 식별자 지정
____키 상태 연산자에 최대 병렬 값 정의
__상태가 있는 애플리케이션의 성능과 견고함
____상태 백엔드 선택
____기본 상태 종류 선택
____상태 누수 방지
__상태가 있는 애플리케이션의 진화
____기존 상태 수정 없이 애플리케이션 갱신
____애플리케이션에서 상태 제거
____연산자의 상태 변경
__쿼리 가능한 상태
____쿼리 가능한 상태의 아키텍처와 쿼리 가능한 상태 활성화
____쿼리 가능한 상태 노출
____외부 애플리케이션에서 상태 쿼리
__요약

8장. 외부 시스템 연동
__애플리케이션 일관성 보장
____멱등적 쓰기
____트랜잭션 쓰기
__기본 제공 커넥터
____아파치 카프카 소스 커넥터
____아파치 카프카 싱크 커넥터
____파일 시스템 소스 커넥터
____파일 시스템 싱크 커넥터
____아파치 카산드라 싱크 커넥터
__사용자 정의 소스 함수 구현
____재설정 가능한 소스 함수
____SourceFunction, 타임스탬프, 워터마크
__사용자 정의 싱크 함수 구현
____멱등적 싱크 커넥터
____트랜잭션 싱크 커넥터
__비동기로 외부 시스템에 접근
__요약

9장. 플링크 설치
__배치 모드
____독립형 클러스터
____도커
____아파치 하둡 YARN
____쿠버네티스
__고가용성 설정
____고가용성 독립형 설정
____고가용성 YARN 설정
____고가용성 쿠버네티스 설치
__하둡 컴포넌트와 통합
__파일 시스템 설정
__시스템 환경설정
____자바와 클래스 로딩
____CPU
____메인메모리와 네트워크 버퍼
____디스크 저장소
____체크포인트와 상태 백엔드
____보안
__요약

10장. 플링크와 스트리밍 애플리케이션 운영
__스트리밍 애플리케이션 실행과 관리
____세이브포인트
____커맨드라인 클라이언트로 애플리케이션 관리
____REST API로 애플리케이션 관리
____애플리케이션을 컨테이너로 번들링하고 배치
__태스크 스케줄 제어
____태스크 체이닝 제어
____슬롯 공유 그룹 정의
__체크포인팅과 복구 튜닝
____체크포인팅 설정
____상태 백엔드 설정
____복구 설정
__플링크 클러스터와 애플리케이션 모니터링
____플링크 웹 UI
____메트릭 시스템
____지연 모니터링
__로깅 설정
__요약

11장. 새 여정의 시작
__스트리밍 처리 외의 플링크 생태계
____DataSet API로 배치 처리
____Table API와 SQL로 관계형 데이터 분석
____FlinkCEP로 복합 이벤트 처리와 패턴 매칭
____그래프 처리를 위한 Gelly
__커뮤니티 소개


펼쳐보기
■ 상태가 있는 스트림의 분산 처리 개념과 도전 과제
■ 이벤트 시간 처리 모드와 내고장성 모델을 포함한 플링크 시스템 아키텍처
■ 시간 기반과 상태가 있는 연산자를 포함한 DataStream API의 기초와 구성 요소 이해
■ 정확히 한 번(exactly-once) 일관성을 보장하면서 외부 시스템의 데이터 읽고 쓰기
■ 플링크 클러스터 설치와 설정
■ 스트리밍 애플리케이션의 지속적인 실행에 필요한 운영 방법

[이 책의 구성]

아파치 플링크를 이용해 스트림을 처리할 때 알아야 하는 모든 내용을 다룬다. 11개의 장으로 구성했으며 아파치 플링크를 폭넓게 설명한다. 몇 개 장은 이론 위주로 설명하며 고수준의 설계 개념을 소개하는 것이 목표지만, 나머지는 직접 실행해볼 수 있는 내용과 코드 예제를 포함하고 있다.
이 책을 쓸 때는 각 장을 순서대로 읽도록 기획했지만, 이미 내용을 잘 알고 있는 장은 건너뛰고 싶은 독자도 있을 것이다. 플링크 코드를 직접 짜보는 데 관심 있는 독자라면 실전 코드를 포함하고 있는 장을 먼저 보고 싶을 것이다. 아래에 각 장의 내용을 소개하고 있으므로, 관심 있는 장이 있다면 바로 찾아봐도 된다.
1장, '상태가 있는 스트림 처리 소개'에서는 상태가 있는 스트림 처리의 개요와 데이터 처리 애플리케이션 아키텍처, 애플리케이션 설계, 스트리밍 처리가 전통적인 방식보다 어떤 이점이 있는지 소개한다. 로컬 플링크 인스턴스에서 스트리밍 애플리케이션을 어떻게 실행하는지도 보여준다.
2장, '스트리밍 처리 기초'에서는 스트리밍 처리의 기초와 도전 과제, 플링크만의 독자적인 내용을 알아본다.
3장, '아파치 플링크 아키텍처'에서는 플링크 시스템의 아키텍처와 내부를 설명한다. 또한 스트리밍 애플리케이션의 분산 아키텍처, 시간과 상태 처리, 플링크 내고장성 메커니즘을 살펴본다.
4장, '아파치 플링크 개발 환경 설치'에서는 플링크 애플리케이션을 개발하고 디버깅하는 환경을 설치하는 방법을 설명한다.
5장, 'DataStream API(v1.7)'에서는 플링크 DataStream API의 기초를 소개한다. DataStream 애플리케이션을 어떻게 구현하고 어떤 스트림 변환 연산, 함수, 데이터 타입을 제공하는지 배운다.
6장, '시간 기반 연산자와 윈도우 연산자에서는 DataStream API의 시간 기반 연산자를 알아본다. 스트리밍 애플리케이션에서 시간을 다룰 때 많은 유연성을 제공하는 ProcessFunction뿐만 아니라 윈도우 연산자와 시간 기반 조인을 살펴본다.
7장, '상태가 있는 연산자와 애플리케이션'에서는 상태가 있는 함수를 어떻게 구현하는지 설명하고, 상태가 있는 함수의 성능, 견고성, 코드 진화와 같은 관련된 모든 주제를 알아본다. 또한 플링크 쿼리 가능한 상태(Queryable State)를 어떻게 사용하는지도 보여준다.
8장, '외부 시스템 연동'에서는 플링크에서 가장 일반적으로 사용하는 소스와 싱크 커넥터를 알아본다. 플링크가 단대단 애플리케이션 일관성 보장에 어떻게 접근하는지 알아보며, 사용자가 입력 데이터 소스와 외부 시스템으로 데이터를 내보내는 싱크를 어떻게 정의하는지 설명한다.
9장, '플링크 설치'에서는 플링크 클러스터를 다양한 환경에서 설치하고 설정하는 방법을 소개한다.
10장, '플링크와 스트리밍 애플리케이션 운영'에서는 스트리밍 애플리케이션을 1년 365일 24시간 실행하는 데 필요한 운영, 모니터링, 유지 보수 방법을 다룬다.
11장, '새 여정의 시작'에서는 플링크 관련 질문을 어디에 하면 될지, 관련 행사에 참석하는 방법과 플링크가 현재 어떻게 사용되는지 알 수 있는 여러 정보를 제공한다.

[지은이의 말]

아파치 플링크는 세계에서 가장 큰 스트림 처리 애플리케이션에서 사용 중인 오픈소스 프레임워크다. 이 책에서는 병렬 스트림 처리의 기초 개념을 살펴보고 병렬 스트림 처리가 전통적인 배치 데이터 처리와 어떤 점이 다른지 알아본다.
플링크 DataStream API를 이용해 확장 가능한 스트리밍 애플리케이션을 구현하는 방법과 운영 환경에서 지속적으로 애플리케이션을 실행하고 유지 보수하는 방법을 설명한다. 스트림 처리는 사기 감지, 비정상 탐지, 알림뿐만 아니라 저지연 ETL, 스트리밍 분석, 실시간 대시보드와 같은 많은 유스케이스에 적합하다. 또한 사용자 상호 동작, 금융 트랜잭션, IoT 데이터와 같은 무한 데이터를 발생 즉시 처리할 수 있다.

[옮긴이의 말]

스트림 데이터 처리 프로젝트를 시작할 때 어떤 기술을 사용할지 많이 고민할 것이다. 아파치 스파크, 카프카 스트림, 아파치 플링크, 나이파이(NiFi) 등 다양한 선택 사항이 있다. 사실 무엇을 선택하든 처음에는 다들 비슷하게 느껴진다. 기능상으로 유사하므로 아무거나 사용해도 되겠다고 착각할 수도 있다. 나도 실시간 프로젝트를 시작할 때 처음에는 아파치 스파크와 아파치 플링크 중 어떤 것을 사용할지 많은 고민을 했다. 결국 아파치 플링크를 선택한 결정적인 이유는, 아파치 스파크가 "스트림은 작은 배치(batch)다"라고 접근하는 데 반해 아파치 플링크는 "배치는 데이터가 유한한 스트림이다"라고 접근하는 설계 철학 때문이었다. 초저지연을 목표로 하는 실시간 처리에 있어 배치로 스트림 데이터를 처리하면 지연이 발생할 수밖에 없다. 또한 이 책의 제목에서도 강조하는 '상태가 있는 스트림 처리'는 거의 아파치 플링크만이 완벽하게 구현했다고 볼 수 있다.
이 책은 아파치 플링크로 스트림 데이터를 처리하는 애플리케이션 개발만을 목표로 하지 않는다. 1장부터 3장까지는 일반적인 스트림 데이터 처리 이론부터 아파치 플링크의 구현 원리를 상세히 설명한다. 이 세 개의 장을 읽고 나면 여러분도 스트림 데이터 처리에 있어 '데이터 유실과 중복', '스트림 데이터의 기준 시간', '윈도우', '지연 시간', '단대단(End-to-End) 일치성' 문제 등 기본적인 스트림 데이터 처리 지식을 쌓을 수 있다. 따라서 개발자가 아니더라도 스트림 데이터 처리의 일반적인 지식이 필요한 독자라면 1장부터 3장까지 읽어볼 가치가 있다.
나머지 장은 스트림 데이터 처리 개발의 내용으로 개발자에게 특히 유용하다. 상태 관리, 윈도우 처리, 성능 최적화 등 어느 한 장이라도 소홀히 넘길 수 없을 정도로 훌륭한 내용으로 가득 차 있다.
이제 아파치 플링크는 스트림 처리뿐만 아니라 배치 처리까지 가능한 통합 데이터 처리 엔진으로 발전해 가고 있다. 아파치 스파크도 실시간 처리 기능을 계속 발전시키고 있어 이 두 프로젝트가 기능적으로는 수렴돼 가고 있다. 하지만 현재 기준에서 스트림 처리의 왕좌는 '아파치 플링크'다.
이 책을 번역할 때 최대한 번역투가 되지 않게 여러 번 리뷰를 진행했다. 그럼에도 일부 어색한 문장이 아직 있을 수 있으니 오역이나 어색한 부분이 있으면 지적해주길 바란다. 그리고 내가 아파치 플링크를 이용해 개발하면서 경험한 내용을 바탕으로 책 내용을 이해하는 데 도움이 될 만한 보조 설명을 군데군데 추가했으므로 조금이나마 도움이 됐으면 한다.

추천사

이 책은 스트리밍 업계에서 오랫동안 몸담아 온 경력자나 처음으로 스트림 처리 애플리케이션을 작성하려는 초보 소프트웨어 및 데이터 엔지니어에게 꼭 맞는 매우 훌륭한 책이다. 스트리밍 처리의 핵심 내용을 자세히 설명한다. 따라서 이 책을 읽고 나면 스트림 처리에 관한 기술적 수준을 높일 수 있으므로 꼭 읽어보길 강력히 추천한다.
- 테드 말라스카(Ted Malaska) / Capital One의 엔터프라이즈 아키텍처 이사
펼쳐보기

독자서평 쓰기 로그인을 하시면 독자서평을 쓰실 수 있습니다.

독자서평 쓰기 로그인을 하시면 독자서평을 쓰실 수 있습니다.
도서평점
내용
등록하기
0/2000자
교환/반품 방법
  • 마이페이지 > 주문관리 > 주문/배송조회 > 주문조회 후  [1:1상담신청]  또는 고객센터 (1544-9020)
  • ※ 오픈마켓, 해외배송 주문상품 문의 시 [1:1상담신청] 또는 고객센터 (1544-9020)
교환/반품 가능기간
  • 변심반품의 경우 수령 후 7일 이내
  • 상품의 결함 및 계약내용과 다를 경우 문제점 발견 후 30일 이내
교환/반품 비용
  • 단순변심 혹은 구매착오로 인한 반품/교환은 반송료 고객 부담
  • 해외직배송 도서 구매 후 단순변심에 의한 취소 및 반품 시 도서판매가의 20% 수수료 부과
교환/반품 불가사유
  • 소비자의 책임 있는 사유로 상품 등이 손실 또는 훼손된 경우
  • 소비자의 사용, 포장 개봉에 의해 상품 등의 가치가 현저히 감소한 경우 예) 만화, 잡지, 수험서 및 문제집류
  • 복제가 가능한 상품 등의 포장을 훼손한 경우 예) 음반/DVD/비디오, 소프트웨어, 만화책, 잡지, 영상 화보집
  • 소비자의 요청에 따라 개별적으로 주문 제작되는 상품의 경우
  • 디지털 컨텐츠인 eBook, 오디오북 등을 1회 이상 다운로드를 받았을 경우
  • 시간의 경과에 의해 재판매가 곤란한 정도로 가치가 현저히 감소한 경우
  • 전자상거래 등에서의 소비자보호에 관한 법률이 정하는 소비자 청약철회 제한 내용에 해당되는 경우
상품 품절
  • 공급사(출판사) 재고 사정에 의해 품절/지연될 수 있으며, 품절 시 관련 사항에 대해서는 이메일과 문자로 안내드리겠습니다.
소비자 피해보상
환불지연에 따른 배상
  • 상품의 불량에 의한 교환, A/S, 환불, 품질보증 및 피해보상 등에 관한 사항은 소비자분쟁 해결 기준 (공정거래위원회 고시)에 준하여 처리됨
  • 대금 환불 및 환불지연에 따른 배상금 지급 조건, 절차 등은 전자상거래 등에서의 소비자 보호에 관한 법률에 따라 처리함

이 분야의 베스트

더보기 >

    이 분야의 신간

    더보기 >
      맨위로가기

      영풍문고 로고

      • 회사명 : (주)영풍문고
      • 대표이사 : 김경환
      • 소재지 : 서울특별시 종로구 청계천로 41 (우)03188
      • 사업자 등록번호 : 773-86-01800 ㅣ 통신판매업 신고번호 : 2023-서울종로-0130 [ 사업자정보확인 ]
      • 개인정보관리 책임자 : 조순제 ㅣ customer@ypbooks.co.kr ㅣ 대량주문 : webmaster@ypbooks.co.kr
      COPYRIGHT © YOUNGPOONG BOOKSTORE INC. ALL RIGHTS RESERVED.
      영풍문고 네이버블로그 영풍문고 인스타그램
      맨위로가기