2022/10/18 2

2022/10/18 TIL

루씬 인 액션 루씬 인 액션 2부를 읽기 시작했다. 티카를 사용하는 방법과 필수 확장기능에 대해서 배웠다. 필수 확장 기능에서 기억에 남는 것은 N그램필터와 스태머링(단어의 기본형찾아주기),싱글(Shingle)이 있었다. N그램이란 단어를 문자 단위로 토큰을 만드는것인데, 문자의 길이가 최대 단어의 길이만큼 길어질 수 있다. 예를 들어, lettuce 의 N그램은 l,e,t,t,u,c,e,le,et,tt,tu,uc,ce,let,ett,ttu,tuc,uce,lett,ettu,ttuc,tuce,lettu,ettuc,ttuce,lettuc,ettuce,lettuce가 있다. 이렇게 단어의 N그램을 토큰으로 만들어두면 검색어의 일부 혹은 부분문자열만으로도 문서를 찾을 수 있다는 장점이 있다.(물론 검색어의 중요..

TIL 2022.10.18

2022/10/17 TIL

루씬 고급 검색 기법과 검색기능 확장 검색에서 기본적인 키워드로 검색하는 것 뿐 아니라, SpanQuery와 같이 Term사이의 거리를 확인해서 검색하거나, 텀벡터를 이용한 검색, RangeQuery등에 대해서 배울 수 있었다. 그리고 Term을 저장할때 페이로드를 같이 저장할 수 있는데, 이때 이 페이로드를 통해서 다양한 검색기능을 구현할 수 있는 것을 배웠다. 오늘까지 해서 루씬의 일반적인 기능에 대한 내용은 모두 읽었다. 내일부터는 확장기능에 대해서 읽게 될 것 같다. 허클베리 핀의 모험 허클베리 핀의 모험을 읽기 시작했다. 오늘은 60 페이지 정도 읽었다. 미국인들의 정서를 잘 표현한다는 마크트웨인의 작품인데, 읽고 많은 감상을 얻길 바란다. 소설이다보니, 다 읽고나서 이야기를 해보려고 한다.

TIL 2022.10.18