1. 광고배너
  2. 광고배너
  3. 광고배너
  4. 광고배너
/ 이전버튼 다음버튼
2
미리보기

빅쿼리를 활용한 데이터 웨어하우스 구축(데이터 과학)
저자 : 마크무케티 ㅣ 출판사 : 에이콘출판 ㅣ 역자 : 백진욱

2021.10.19 ㅣ 548p ㅣ ISBN-13 : 9791161755755

정가40,000
판매가38,000(5% 할인)
적립금 1,600원 (4%)
배송일정 12월 07일 출고 가능
주문 수량 변경시 안내 배송안내
쿠폰 및 결제혜택 확인하기

크기 기타 규격
제품구성 단행본
이용약관 청약철회
국내도서 > 컴퓨터 > 시스템공학 > 데이타베이스/자료구...
구글의 BigQuery(빅쿼리) 기술을 바탕으로 리포팅과 대시보드 기능을 지원하는 데이터 웨어하우스를 구축하는 방법을 설명한다. BigQuery를 사용해 설계, 빌드, 로드, 검색, 유지하는 방법을 단계별로 진행하면서 데이터 웨어하우스를 구축할 수 있다. 유용하면서도 확장 가능하며 유지보수가 쉬운 모던 데이터 분석 시스템을 어떻게 만드는지에 대한 궁금증을 해결해준다. 그리고 BigQuery 머신러닝 기능을 사용해 데이터를 예측하고 조직의 데이터 문제를 해결하는 방법을 설명한다.

펼쳐보기

[목 차]

1부. 웨어하우스 구축


1장. BigQuery 살펴보기
__구글 클라우드 플랫폼
__GCP 시작
__GCP 사용
____Cloud Console
____Command Line Interface
____프로그래밍 방식 액세스
__BigQuery Cloud Console
____SQL 쿼리
____유용한 정보
__웨어하우스 디자인
__데이터 저장소로서의 BigQuery
____행 지향 접근
____열 지향 접근
__데이터 웨어하우스로서의 BigQuery
__주요 질문
____기초
____확장성
__데이터 정규화
__요약


2장. 웨어하우스 프로젝트 시작
__시작에 앞서
__핵심 질문
____제한적인 리소스는 무엇인가?
____조직의 업무 분야는 무엇인가?
____조직의 차별점은 무엇인가?
____필요한 데이터를 알려줄 수 있는 사람은 누구인가?
____고객에게 필요한 데이터를 파악하고 있는 사람은 누구인가?
____핵심 객체는 무엇인가?
____핵심 관계는 무엇인가?
____시간은 어떤 역할을 하는가?
____비용은 어떤 역할을 하는가?
__일반적인 고려사항
__업무 승인
____관계자 인터뷰
____갈등 해결
____문서 산출물
____비즈니스 수용
____결정 기록
__설계 방식 선택
____트랜잭션 저장소
____스타/눈송이 스키마
____NoSQL
____BigQuery
__BigQuery 모델
____프로젝트
____데이터 세트
____테이블
__요약


3장. 데이터 모델
__데이터 모델
__수집 속도
__과거 데이터의 가치
__데이터 모델 생성
__데이터 세트 생성
__테이블 생성
____소스
____파일 형식
____대상
____스키마
____모드
____파티션 및 클러스터 설정
____고급 옵션
____파티셔닝
____클러스터링
__BigQuery 데이터 읽기
____BigQuery UI
____bq 커맨드 라인
____BigQuery API
____BigQuery Storage API
__요약


4장. BigQuery 비용 관리
__BigQuery 모델
__BigQuery 비용 모델
____스토리지 가격
____주문형 가격
____정액제
____BigQuery 예약
__비용 최적화
____연간 약정
____테이블 분할
____로딩 vs 스트리밍
____쿼리 작성
____쿼리 비용 확인
__GCP 예산 도구
____GCP 요금 계산기
____주문형 모델 제한 설정
____예약 할당량 설정
____BigQuery에 결제정보 로드
__요약


2부. 웨어하우스 채우기


5장. 웨어하우스 데이터 로드
__로딩과 마이그레이션
____파일
____Google Cloud Storage
____타사 이전 솔루션
____Java Database Connectivity
____Document-Based Storage/NoSQL
____외부 데이터 소스
__요약


6장. 데이터 웨어하우스 스트리밍
__장점과 단점
____데이터 일관성
____데이터 가용성
____스트리밍 사용 조건
__스트리밍 코드 작성
____Google App Engine
____발생할 수 있는 문제
__고급 스트리밍 기능
____시간순으로 분할
____수집순으로 분할
____템플릿 테이블
__요약


7장. Dataflow
__주요 개념
____Driver Program
____파이프라인
____Directed-Acyclic Graph
____PCollection
____PTransform
__파이프라인 구축
____준비
____튜토리얼
____Google Dataflow Runner
__Dataflow Templates
__Dataflow SQL
____주요 개념 확장
____Dataflow SQL 확장
____Dataflow SQL 파이프라인 작성
____Dataflow SQL 작업 배포
__요약


3부. 웨어하우스 사용


8장. 웨어하우스 관리
__질문과 계획
__회고
__로드맵
____제품 결함
____기술 부채
____유지보수
____범위 축소
____시스템화
____낙관적인 확장성
____우선순위
__푸시-풀 전략
__데이터 고객 유형
____데이터 분석가
____엔지니어
____임원 및 경영진
____영업직
__요약


9장. 웨어하우스 쿼리
__BigQuery SQL
____기본 문법
____추가 구문
____이전 데이터 액세스
__집합과 교차
____UNION ALL/DISTINCT
____INTERSECT
____EXCEPT
__조인
____CROSS JOIN
____INNER JOIN
____OUTER JOIN
____USING
____셀프 조인
__하위 쿼리
____WITH절
__중첩 데이터
____UNNEST
__파티션
____수집 시간 파티션 테이블
____날짜/타임스탬프 파티션 테이블
____정수 범위 파티션 테이블
__날짜 함수
____협정 세계시
____일반 사용 사례
__그룹핑
____ROLLUP
____HAVING
__집계 함수
__BigQuery GIS
____GEOGRAPHY의 개념
____GIS 함수
____시각화
__기타 함수들
__요약


10장. 예약 작업
__BigQuery의 예약 쿼리
____쿼리 예약하기
____쿼리 검토
__Cloud Scheduler
____이름
____빈도
____대상
____상태
____명령줄 사용
____스케줄링 모범 사례
__다른 예약 방법
____Cloud Tasks
____Cloud Composer
____BigQuery Transfer Service
__요약


11장. GCP의 서버리스 함수
__장점
____관리
____확장성
____비용
____가용성
__단점
____지연
____리소스 제한
____이식성
____관리
__BigQuery와 Cloud Functions
__함수 작성
____함수 이름
____리전
____트리거
____인증
____변수, 네트워킹, 고급 설정
____코드
____소스코드
____Cloud Functions 배포
__Cloud Functions 호출
____HTTP 트리거
____Cloud Pub/Sub 트리거
____Cloud Storage 트리거
____Cloud Firestore
____직접 트리거
____Firebase 트리거
__Cloud Scheduler
__실제 애플리케이션 예제
____제안하는 디자인
__요약


12장. Cloud Logging
__로그와 분석의 연관성
____Abigail’s Flowers 예제
__Cloud Logging
____로그 탐색기
____Cloud Logging 쿼리
__BigQuery 로그 싱크
____싱크
____싱크 생성
__측정항목과 알림
____측정항목 생성
____로그 기반 측정항목
____측정항목 내보내기
____알림
__피드백 루프
__요약


4부. 웨어하우스 유지 및 관리


13장. 고급 BigQuery 기능
__분석 함수
____정의
____윈도우 프레임
____파티션
____실행 순서
____숫자 함수
____윈도우 프레임 문법
____탐색 함수
____집계 분석 함수
__BigQuery 스크립팅
____블록
____변수
____Comments 주석
____IF/THEN/ELSEIF/ELSE/END IF
____제어 흐름
__저장 프로시저, 사용자 정의 함수, 뷰
____저장 프로시저
____사용자 정의 함수
____자바스크립트 사용자 정의 함수
____뷰
____구체화된 뷰
__요약


14장. 데이터 거버넌스
__데이터 거버넌스 정의
____가용성
____컴플라이언스
____일관성
____비용 관리
____의사 결정
____성능
____품질
____보안
____사용성
__거버넌스 전략
__책임과 역할
____고위 경영진
____거버넌스 위원회
____주제 전문가
____데이터 분석가
____데이터 엔지니어
__기록 시스템
____Golden Record
____단방향 데이터 흐름
__보안
____인증
____권한
____암호화
____분류
____데이터 손실 방지
____감사
__데이터 수명 주기
____수집에서 사용 가능 상태까지
____활성 데이터 및 품질 측정
____폐기
__거버넌스 정책 수정
__로드맵
__승인
__Google Cloud Data Catalog
____개요
____BigQuery
____외부 연결
____개인 식별 정보
__요약


15장. 장기적인 전략 수립
__비즈니스 변화
____큰 비즈니스 변화
____핵심 성과 지표
____타임라인
____접근 방법
____데이터 프로그램 품의서
__자연적인 성장
____변화 제어
____소스 제어 관리
____데이터 보존 고려사항
____개인 정보 보호법
____비용 관리
____만료 기간
____장기 스토리지
__데이터 조작 언어
__중단 시간
____코드 프리즈
____단계적 성능 저하
__BigQuery 생태계
__요약


5부. 데이터 리포팅과 시각화


16장. 리포팅
__리포팅
__리포팅과 데이터 대중화
____역사
____회색시장 데이터
____리포팅을 통한 대중화
____역사는 반복된다
__제품 관점의 리포팅
____B2B의 관점
____리포팅 시스템 품의
____제품 관리
__요구사항 정의
____플랫폼
____보고서
____로드맵
__솔루션 분포
____Google Cloud Platform
____서드 파티
____그 외의 방법
__요약


17장. 대시보드와 시각화
__시각화
____시각화 기능
__대시보드
____시각화와 대시보드
____대시보드 계층
____사용 사례
____접근성
____신선함
____관련 측정항목
____주요 비즈니스 변화
____커뮤니티
__대시보드 구축
____하드웨어
____소프트웨어
____유지보수
__요약


18장. Google Data Studio
__데이터 스튜디오 보고서와 BigQuery
____데이터 소스
____BigQuery 커넥터
____보고서 준비
____보고서 생성
____차트 작성
____보고서 보기 옵션
__추가 기능
____데이터 스튜디오 탐색기
____데이터 혼합
____계산된 필드
____커뮤니티 추가 기능
____Google 애널리틱스
__BigQuery BI Engine
__요약


6부. 데이터의 잠재력 향상


19장. BigQuery ML
__배경 지식
____인공지능
____머신러닝
____통계와의 관계
____윤리
__BigQuery ML 개념
____비용
____지도 학습과 비지도 학습
____모델 유형
____수행 절차
__예제
____k-평균 군집화
____분류
__요약


20장. Jupyter Notebook과 공개 데이터 세트
__심연의 가장자리
__Jupyter Notebook
____노트북 설정
____노트북 인터페이스
____Python 데이터 분석
__BigQuery 연결
____커널에 데이터 추가하기
____BigQuery 데이터 추가
__data-frame 탐색
____둘러보기
____개별 값 탐색
____다중 값 탐색
____다음 단계
____매직 명령어
__AutoML Tables
____데이터 세트 가져오기
____학습 설정
____모델 학습
____모델 평가
____예측
____추가 분석
__데이터 인사이트 퍼널
__요약


21장. 결론
부록 A. Cloud Shell과 Cloud SDK
부록 B. 데이터 프로젝트 품의서 샘플

펼쳐보기
◈ 이 책에서 다루는 내용 ◈

◆ 프로젝트와 조직을 위한 데이터 웨어하우스 설계
◆ 다양한 외부 및 내부 소스에서의 데이터 로드
◆ 복잡한 워크플로를 위한 구글 클라우드 플랫폼 서비스 통합
◆ 조직 성장에 대응하는 데이터 웨어하우스 유지 및 확장
◆ 웨어하우스 데이터 분석, 리포팅 및 대시보드 생성


◈ 이 책의 구성 ◈

1부, ‘웨어하우스 구축’에서는 백지상태에서 데이터 저장소에 대한 요구 사항을 정하고 구성하는 방법을 설명한다. 몇 가지 예제로 데이터 웨어하우스나 SQL 저장소 없이 BigQuery에서 바로 데이터에 접근하는 방법을 알려준다. 이미 사용하는 데이터 저장소가 있다면 어떤 전략을 채용할지 설명한다. 마지막으로 비용 측면에서 예산과 데이터의 가용성 사이의 절충안을 논의한다.
2부, ‘웨어하우스 채우기’에서는 기존 데이터 소스에서 데이터 웨어하우스로 옮기는 방법인 로딩(loading), 스트리밍(Streaming) 그리고 데이터플로우(Dataflow)를 설명한다. BigQuery에서 바로 로딩과 스트리밍을 관리할 수 있다. 데이터플로우에 한 장을 할애해 확장 가능한 커스텀 데이터 파이프라인을 구성하는 기술을 설명한다.
3부, ‘웨어하우스 사용’에서는 데이터 웨어하우스를 구축한 후 가능한 작업을 기술한다. 8장에서는 처음 BigQuery를 실행한 후 데이터를 다루는 방법에 있어 기초를 세우는 방법을 설명하고 9장에서는 BigQuery에서 SQL을 어떻게 사용하는지를 알려준다.
4부, ‘웨어하우스 유지 및 관리’에서는 데이터 웨어하우스에서 회사에 가치를 부여할 수 있는 데이터를 운영할 수 있다. 다만 데이터도 주기적인 관리가 필요하다. 문제 발생을 예방하기 위한 데이터 관리 전략을 설명한다. 14장에서는 조직에서 큰 스케일의 변화가 있을 때 데이터 웨어하우스에 어떤 변화가 있을지 설명한다.
5부, ‘데이터 리포팅과 시각화’에서는 부가적인 부분을 다룬다. 정보를 리포트로 만들거나 실시간 대시보드를 만들고 분석을 위해 데이터를 어떻게 조직에게 전달하는지를 다룬다.
6부, ‘데이터의 잠재력 향상’에서는 BigQuery의 획기적인 기능인 머신러닝(ML, machine learning) 기능을 설명하고 우리가 다루는 데이터에서 어떻게 사용하는지 설명한다. 공개 데이터 세트를 사용해 기존 데이터와 연동하는 방법도 설명한다.


◈ 지은이의 말 ◈

데이터(data)와 정보(information)는 서로 다른 개념이다. 데이터 웨어하우스 기술로 방대한 양의 원시 데이터를 수집하고 변환해 조직이 사용할 수 있는 정보를 유추할 수 있다. 구글 BigQuery는 입문자도 사용할 수 있는 서버리스, 글로벌 접근성, 보안성까지 추가된 데이터 웨어하우스다. 이 책을 읽고 초기 디자인, 설치, 데이터 가져오기, 스트리밍, 유지 보수, 시각화와 혁신적 기능까지 경험할 수 있다. 이미 알고 있는 데이터베이스, 웨어하우스 혹은 분석에 도움을 주는 정보들도 얻을 수 있다. 어떤 방식으로 진행을 하더라도 BigQuery를 사용해 정보가 지식으로 변환하는 여정의 마지막 단계로 나아가는 데 도움을 줄 수 있다.



◈ 옮긴이의 말 ◈

데이터는 어디에나 존재한다. 이제 데이터 분석은 비즈니스에 있어 필수적인 요소다. 대부분의 회사는 분석 스택을 만들면서 많은 시행착오를 겪는다. 그중 가장 먼저 맞닥뜨리는 것은 어떻게 데이터 웨어하우스(Data Warehouse)를 구축할 것인지에 관한 고민이다.
대부분의 데이터 분석 스택은 데이터 웨어하우스와 같은 중앙저장소에 데이터를 저장한 후 데이터를 변환해 BI 도구 혹은 보고서를 만드는 식으로 구성한다. 데이터 웨어하우스가 대두되기 전에는 프로덕션 DB를 직접 쿼리하는 방식으로 구현했다. 하지만 이런 방법은 프로덕션 성능에 부담을 주게 돼 읽기 전용 복제본을 사용하게 됐다. NoSQL 데이터베이스를 사용할 경우 지원되는 도구와 표준이 부족하기 때문에 SQL 데이터베이스에 로드한 후 분석했다. 최근에는 다양한 데이터 소스를 통합해서 인사이트를 얻어야 하는 복잡한 요구사항의 수용을 위해 데이터 웨어하우스의 존재가 부각됐다. 데이터 웨어하우스를 구축하면 다양한 이벤트, 애플리케이션 데이터, 마케팅 데이터, CRM 데이터, API로 얻을 수 있는 모든 데이터를 한곳에 모아 정제한 다음, 분석과 모델링을 할 수 있게 된다. 하지만 이런 기술은 기업 수준의 투자가 아니면 불가능했다. 그리고 기업들에도 데이터 웨어하우스 운영 및 워크플로 유지보수는 쉬운 일이 아니었다. 하지만 데이터 웨어하우스가 클라우드로 옮겨가면서 개발자들도 손쉽게 접할 수 있는 기술이 됐다.
데이터 웨어하우스는 중앙 분석 데이터 저장소로 분석 쿼리에 최적화된 데이터베이스라고 생각하면 된다. 다음과 같은 이유로 데이터 웨어하우스 사용을 고려하게 된다. 다수의 데이터 소스의 데이터를 결합해 분석이 필요할 때, 분석용 데이터와 트랜잭션 데이터를 분리해야 할 때, NoSQL과 같이 분석 쿼리에 적합하지 않을 때, 자주 쓰이는 분석 쿼리를 최적화할 때다.
하지만 저장소만으로 데이터 웨어하우스는 혼자 분석 스택을 감당할 수 없다. 데이터 웨어하우스를 구축하려면 워크플로와 운영을 포함해 스토리지(추출과 로드), 프로세스(변환과 모델), 접근(시각화와 전달)의 세 가지 기능을 충족해야 한다.
Amazon Redshift, google BigQuery, snowflake, presto와 같은 여러 가지 데이터 웨어하우스가 떠오르고 있다. 하지만 BigQuery는 완전 관리형 서버리스 서비스로 누구나 약정 없이 바로 시작할 수 있다.
이 책을 통해 BigQuery의 기술뿐만 아니라 데이터 엔지니어링에 필요한 여러 가지 GCP 기술들을 접할 수 있다. Cloud Functions, Dataflow, DLP 등 여러 가지 GCP 서비스들을 사용해 데이터 웨어하우스를 구축, 유지, 관리하는 방법을 배울 것이다. 시간이 지남에 따라 퇴색되고 더 나은 도구가 나오더라도 데이터 웨어하우스를 구축하는 방법론과 유지보수를 위한 기초지식을 다루기 때문에 두고두고 여러 번 참고할 수 있을 것이다.
이 책은 기술보다는 사람과의 관계를 강조한다. 데이터 전략 및 수행에 있어 BigQuery는 단순한 도구일 뿐이다. 데이터 웨어하우스 구축을 통해 인사이트를 얻고 비즈니스 예측까지 할 수 있는 기회를 갖고 데이터 주도적인 결정을 할 수 있길 바란다.

펼쳐보기

옮긴이 백진욱
카네기멜론 대학에서 컴퓨터공학 학사와 석사를 취득했다. 삼성전자에 다니다가 마이뮤직테이스트를 공동 창업해 8년간 CTO 포지션으로 일했다. 행파이브를 비롯한 여러 스타트업의 테크니컬 컨설팅을 해왔으며, 딜리버스라는 물류 스타트업을 공동 창업해 다시 한번 열정을 불태우고 있다. 데이터와 클라우드 기술의 결합에 의한 혁신에 많은 관심이 있고 조직에 DataOps와 MLOps를 적용하는 것에 흥미를 갖고 있다.


펼쳐보기

독자서평 쓰기 로그인을 하시면 독자서평을 쓰실 수 있습니다.

독자서평 쓰기 로그인을 하시면 독자서평을 쓰실 수 있습니다.
도서평점
내용
등록하기
0/2000자

이 분야의 베스트

더보기 >

    이 분야의 신간

    더보기 >
      맨위로가기

      영풍문고 로고

      • 회사명 : (주)영풍문고
      • 대표이사 : 김경환
      • 소재지 : 서울특별시 강남구 강남대로 542번지 (우)06110
      • 사업자 등록번호 : 773-86-01800 ㅣ 통신판매업 신고번호 : 2020-서울강남-01007 [ 사업자정보확인 ]
      • 개인정보관리 책임자 : 조순제 ㅣ customer@ypbooks.co.kr ㅣ 대량주문 : webmaster@ypbooks.co.kr
      COPYRIGHT © YOUNGPOONG BOOKSTORE INC. ALL RIGHTS RESERVED.
      영풍문고 네이버블로그 영풍문고 인스타그램
      맨위로가기