영풍문고 - 서점다운 서점


미리보기
검색을 위한 딥러닝(제이펍의 인공지능 시리즈 26)
저자 : 토마소테오필리 출판사 : 제이펍(주) ㅣ 역자 : 박진수

2020.03.12 ㅣ 384p ㅣ ISBN-13 : 9791188621972

정가 29,000
판매가 26,100(10% 할인)
적립금 1,450원 (5%)
배송일정 2일 이내 출고 예정 ( 주말, 공휴일 제외 )  
주문 수량 변경시 안내 배송안내
쿠폰 및 결제혜택 확인하기

결제혜택

닫기
이벤트/쿠폰
· 최대 4,000원! 신비한 거울? 도서교환권!
결제사 혜택
최대 4,500원 할인
최대 6%적립
무이자혜택
카드사 혜택

크기 기타 규격
제품구성 단행본
이용약관 청약철회
국내도서 > 컴퓨터 > 시스템공학 > 인공지능(AVR퍼지...
딥러닝 기술을 활용해서 한층 더 진화된 검색 엔진을 완성한다!
신경망을 이용한 인공지능 검색 시스템의 원리와 활용!


딥러닝을 활용하면 검색어가 부정확하거나, 색인이 심하게 꼬여 있거나, 메타데이터가 거의 없는
상태에서도 이미지 검색과 같은 가장 까다로운 검색까지 처리할 수 있다. 또한, DL4J나 텐서플로와 같은 최신 도구를 사용하면 데이터 과학이나 자연어 처리에 대한 배경지식이 깊지 않아도 강력한 딥러닝 기술을 응용할 수 있다.
펼쳐보기

[목 차]

PART I 검색이 딥러닝을 만나다 1
CHAPTER 1 신경망을 이용한 검색 3
1.1 신경망과 딥러닝 5
1.2 머신러닝이란? 8
1.3 검색 시에 딥러닝으로 할 수 있는 일은? 10
1.4 딥러닝 학습을 위한 계획도 14
1.5 유용한 정보 꺼내기 16
1.5.1 텍스트, 토큰, 용어, 검색에 관한 기초 지식 18
1.5.2 연관도 우선 28
1.5.3 고전적인 검색 모델 29
1.5.4 정밀도와 재현율 30
1.6 미해결 문제들 31
1.7 검색 엔진 블랙박스 열기 32
1.8 구조의 손길을 펼치는 딥러닝 34
1.9 색인아, 뉴런을 만나 주지 않을래? 38
1.10 신경망 훈련 39
1.11 신경 검색의 약속들 42

CHAPTER 2 동의어 생성 44
2.1 동의어 확장 소개 45
2.1.1 왜 동의어인가? 47
2.1.2 어휘 기반 동의어 일치 49
2.2 맥락의 중요성 60
2.3 순방향 신경망 62
2.4 word2vec 사용 66
2.4.1 Deeplearning4j에 word2vec 끼워 쓰기 76
2.4.2 Word2vec 기반 동의어 확장 77
2.5 평가 및 비교 80
2.6 프로덕션 시스템에 대해 고려할 사항 81
2.6.1 동의어 대 반의어 83

PART 2 검색 엔진에 신경망들 던져 넣기 87
CHAPTER 3 일반 검색에서 텍스트 생성까지 89
3.1 정보 요구 대 쿼리: 틈새를 메우는 것 91
3.1.1 대안 쿼리 생성 91
3.1.2 데이터 준비 94
3.1.3 데이터 생성 준비 102
3.2 시퀀스 학습 103
3.3 재귀 신경망 104
3.3.1 RNN 내부 구조와 작동 방식 107
3.3.2 장기 의존성 111
3.3.3 장단기 기억망 112
3.4 비지도 학습 방식으로 텍스트를 생성하기 위한 LSTM 망 113
3.4.1 비지도 쿼리 확장 122
3.5 비지도 텍스트 생성에서 지도 텍스트 생성까지 126
3.5.1 시퀀스-투-시퀀스 모델링 126
3.6 프로덕션 시스템에 대해 고려해야 할 점 130

CHAPTER 4 그럴듯한 쿼리들 제안하기 133
4.1 쿼리 제안 생성 134
4.1.1 쿼리 작성 중에 제안하기 135
4.1.2 사전 기반 제안 136
4.2 루씬 룩업 API 136
4.3 분석된 내용을 활용하는 제안기 141
4.4 언어 모델 사용 148
4.5 내용 기반 제안기 152
4.6 신경 언어 모델 154
4.7 제안용 문자 기반 신경 언어 모델 156
4.8 LSTM 언어 모델 조율 160
4.9 단어 매장을 이용한 제안 다양화 169

CHAPTER 5 단어 매장을 사용해 검색 결과의 순위지정하기 173
5.1 순위지정의 중요성 174
5.2 검색 모델 177
5.2.1 TF-IDF와 벡터 공간 모델 179
5.2.2 루씬에서 문서의 순위지정하기 183
5.2.3 확률 모델 186
5.3 신경 정보 검색 188
5.4 단어 벡터에서 문서 벡터까지 189
5.5 평가 및 비교 196
5.5.1 평균 단어 매장 기준 유사도 198

CHAPTER 6 순위지정 및 추천을 위한 문서 매장 203
6.1 단어 매장으로부터 문서 매장까지 204
6.2 순위지정 시 단락 벡터 사용 208
6.2.1 단락 벡터 기반 유사도 211
6.3 문서 매장과 연관 내용 211
6.3.1 검색, 추천 그리고 연관 내용 212
6.3.2 빈출 용어들을 사용해 유사한 내용 찾기 214
6.3.3 단락 벡터를 사용해 유사한 내용 검색 224
6.3.4 인코더-디코더 모델에서 벡터를 사용해 유사한 내용 검색 227

PART 3 한 걸음 더 나아가다 231
CHAPTER 7 여러 언어로 검색하기 233
7.1 언어가 서로 다른 사용자들에게 서비스하기 234
7.1.1 문서 번역 대 쿼리 번역 235
7.1.2 교차 언어 검색 237
7.1.3 루씬 기반 다중 언어 쿼리 239
7.2 통계적 기계 번역 241
7.2.1 정렬 244
7.2.2 단락 기반 번역 245
7.3 병렬 말뭉치를 가지고 일하기 246
7.4 신경 기계 번역 249
7.4.1 인코더-디코더 모델 250
7.4.2 DL4J에서 기계 번역을 하기 위한 인코더-디코더 254
7.5 여러 언어를 위한 단어 매장 및 문서 매장 261
7.5.1 선형 사영 1개 국어 사용 매장 261

CHAPTER 8 내용 기반 이미지 검색 268
8.1 이미지 내용과 검색 270
8.2 되돌아보기: 텍스트 기반 이미지 검색 272
8.3 이미지 이해하기 275
8.3.1 이미지 표현 277
8.3.2 특징 추출 280
8.4 이미지 표현을 위한 딥러닝 288
8.4.1 CNN 290
8.4.2 이미지 검색 298
8.4.3 국소성 민감 해싱 304
8.5 레이블이 없는 이미지 다루기 308

CHAPTER 9 성능 엿보기 314
9.1 성과 및 딥러닝의 약속 315
9.1.1 모델 설계로부터 모델 산출로 316
9.2 색인과 뉴런이 협동하게 하기 334
9.3 데이터 스트림 작업 337

찾아보기 346




[본 문]

최종 사용자에게는 검색 결과의 품질이 무척 중요하다. 검색 엔진은 어떤 검색 결과가 특정 사용자가 필요한 정보에 가장 부합한지를 알아내는 일을 무엇보다 잘 해야 한다. 검색 결과로 나온 내용에 순위(rank)가 잘 지정되어 있으면 사용자들은 중요한 결과를 더 쉽고 빠르게 찾을 수 있다. 그래서 우리는 관련 결과(relevant result)의 토픽에 많은 중점을 두었다. 현실적으로 이로 인해 엄청난 격차가 벌어진다.
_12페이지

쿼리 로그의 각 행에는 검색 결과(더 정확하게 말하자면 일치하는 결과를 담은 문서 식별번호들)와 관련된 사용자 입력 쿼리가 포함되어 있다. 하지만 여러분이 필요로 하는 것은 이게 아니다. 훈련 사례는 입력 쿼리와 입력과 유사한 하나 이상의 출력 쿼리로 구성되어야 한다. 그래서 망을 훈련하기 전에 여러분은 검색 로그의 라인을 처리하고 훈련 집합을 만들어야 한다. 데이터를 조작하고 수정하는 일을 포함한 이러한 종류의 작업을 흔히 데이터 준비(data preparation) 또는 전처리(preprocessing)라고 한다. 다소 지루하게 들릴지 모르지만, 데이터 준비는 관련된 머신러닝 과제의 성패를 좌우한다.
_96페이지

신경 언어 모델은 그 밖의 언어 모델들(예를 들면, 엔그램 모델)과 동일한 기능을 가지고 있어야 한다. 차이점은 언어 모델들이 확률 예측을 학습하는 방법과 예측이 얼마나 더 나은 것인가에 달려 있다. 3장에서는 셰익스피어의 작품에서 나온 텍스트를 재현하려는 재귀 신경망(RNN)을 도입했다. 우리는 RNN이 어떻게 작용하는지에 초점을 맞췄지만, 실제로 여러분은 문자 수준 신경 언어 모델(character-level neural language model)을 설정하고 있었다! 여러분은 RNN이 비지도 방식으로 텍스트 시퀀스를 아주 잘 학습한다는 점을 보았는데, 이는 RNN이 이전에 본 시퀀스를 바탕으로 새로운 시퀀스를 잘 생성할 수 있기 때문이다. 언어 모델은 텍스트 시퀀스에 대한 정확한 확률을 얻는 법을 학습하므로 이런 언어 모델이 RNN으로 쓰기에 딱 맞는 것처럼 보인다.
_154페이지

통계적 기계 번역(statistical machine translation, SMT)은 통계적 접근법을 사용해 입력 단어나 입력 문장에 대해 어떤 표적 단어나 표적 문장이 가장 가능성이 높은 번역인지를 예측한다. 예를 들어, 통계적 기계 번역 프로그램은 ‘‘hombre’라는 단어의 영어 번역 중에 가장 가능성이 높은 것은 무엇인가?’라는 질문에 대답할 수 있어야 한다. 그렇게 하려면 통계 모델을 병렬 말뭉치를 통해 훈련해야 한다. 병렬 말뭉치(parallel corpus)는 각 내용이 원어(예: 스페인어)와 표적
어(예: 영어)라는 두 가지 버전으로 제공되는 텍스트 조각(문서, 문장, 단어 등)의 모임이다.
_241페이지

인공 신경망과 인간의 뇌의 작용 간에는, 이 두 가지 신경망의 이름에도 불구하고, 서로 어떤 관련이 있는지 분명하지 않다. 대부분의 일반적인 인공 신경망 아키텍처에는 고정된 구조가 있다. 즉, 인공 신경망의 뉴런은 완전히 연결되어 있는 반면, 뇌의 신경세포는 그렇게 고정된(그리고 단순한) 구조를 가지고 있지 않다. CNN(convolutional neural networks, ‘합성곱 신경망’)은 원래 인간의 뇌에 있는 시각적 피질이 어떻게 작용하는지로부터 영감을 얻어 만든 것인데, 여기에 쓰이는 세포는 이미지의 특정 부분을 처리한 다음에 정교한 흐름을 따라 정보를 다른 세포로 전달하는 방식으로, 이는 여러분이 CNN에서 보게 될 내용과 같다. CNN이 다른 유형의 신경망과 관련하여 작동하는 방법의 근본적인 차이점은 평탄한 신호 입력(예: 조밀 벡터나 원핫인코딩 벡터)을 처리하지 않는다는 것이다.
_290페이지
펼쳐보기
딥러닝 기술을 활용해서 한층 더 진화된 검색 엔진을 완성한다!
신경망을 이용한 인공지능 검색 시스템의 원리와 활용!


딥러닝을 활용하면 검색어가 부정확하거나, 색인이 심하게 꼬여 있거나, 메타데이터가 거의 없는
상태에서도 이미지 검색과 같은 가장 까다로운 검색까지 처리할 수 있다. 또한, DL4J나 텐서플로와 같은 최신 도구를 사용하면 데이터 과학이나 자연어 처리에 대한 배경지식이 깊지 않아도 강력한 딥러닝 기술을 응용할 수 있다.

독자는 이 책을 통해 신경망을 사용하여 검색 결과를 향상시키는 방법을 배울 수 있다. 이 책에서는 색인 처리 및 순위지정과 같은 기본 검색 기술이 딥러닝과 어떤 관련성이 있는지를 검토하는 것부터 시작한다. 그런 다음, 아파치 루씬과 DL4J를 사용하는 검색 기능을 딥러닝 기술로 보강해 보는 심층 예제를 다루고, 더 나아가서 이미지 검색, 사용자 질의 내용 번역, 학습하는 동안 개선되는 검색 엔진 설계와 같은 고급 주제를 살펴본다.

이 책의 주요 내용
■ 동의어를 생성해 쿼리 보충하기
■ 정확하고 연관성 높은 결과가 먼저 나오게 순위지정하기
■ 여러 외국어를 사용해서 검색하기
■ 이미지 내용을 가지고 이미지 검색하기
■ 추천 기능을 제공해 검색 돕기
펼쳐보기
토마소 테오필리(Tommaso Teofili)
오픈 소스와 머신러닝에 열정을 보이는 소프트웨어 엔지니어다. 아파치 소프트웨어 재단의 일원으로서 정보 검색 분야(루씬, 솔라 등)부터 자연어 처리와 OpenNLP, Joshua, UIMA 등에 이르는 다양한 오픈 소스 프로젝트에 기여하고 있다.

현재 어도비(Adobe)에서 검색 및 색인화 기반 컴포넌트를 개발 중이며, 자연어 처리, 정보 검색 및 딥러닝 분야를 연구하고 있다. 베를린에서 열리는 버즈워즈(Buzzwords), 국제 컴퓨터 과학 회의, 아파치콘(ApacheCon), 이클립스콘(EclipseCon) 등을 포함한 여러 회의에서 검색 기술과 머신러닝 기술의 융합을 제안했다. 트위터 @teofili에서 그를 만나 볼 수 있다.
옮긴이 박진수
다양한 정보기술 분야 경력과 저술/번역 경험을 바탕으로 IT 융·복합 사업을 꿈꾸는, 1인 회사 ‘리율’의 대표다. 옮긴 책으로는 《파이썬으로 배우는 응용 텍스트 분석》, 《R로 배우는 텍스트 마이닝》, 《케라스 창시자의 딥러닝 with R》, 《모두를 위한 실용 전자공학》, 《해킹 일렉트로닉스》, 《ggplot2》 등이 있다.
펼쳐보기

독자서평 쓰기 로그인을 하시면 독자서평을 쓰실 수 있습니다.

독자서평 쓰기 로그인을 하시면 독자서평을 쓰실 수 있습니다.
도서평점
내용
등록하기
0/2000자

맨위로가기


영풍문고 로고

  • 회사명 : (주)영풍문고
  • 대표이사 : 최영일
  • 소재지 : 서울특별시 강남구 강남대로 542번지 (우)06110
  • 사업자 등록번호 : 773-86-01800 ㅣ 통신판매업 신고번호 : 2020-서울강남-01007 [ 사업자정보확인 ]
  • 개인정보관리 책임자 : 조순제 ㅣ E-mail : customer@ypbooks.co.kr ㅣ 대량주문 : 02-519-2860
COPYRIGHT © YOUNGPOONG BOOKSTORE INC. ALL RIGHTS RESERVED.
맨위로가기