Fundamental Notes/Information Retrieval 3

Boolean Model

Boolean Query 1. Definitions -is one of classical Information Retrieval model-is based on Boolean Logic (AND, OR, NOT) -is based on classical Sets Theory in that both documents to be searched and the user’s query are conceived as sets of terms-is based on whether or not the documents contain the query terms. 2. Query -매우직관적 -불리언모델을사용하여검색질의어처리를하면포함(TRUE), 포함하지않는다(FALSE)로단순화 Boolean Query (자연어에좀더..

A first take at building an inverted index

1.2 A first take at building an inverted index 검색시 색인 속도에 대한 이점을 획득하기 위해 우리는 향상된 색인을 구축해야 한다. 이것은 중요한 단계들은 1. 색인되어질 문서들을 수집 2. 텍스트들을 토큰화, 각 문서들을 토큰들의 리스트로 변환 3. 언어학적으로 전처리, 색인화될 term들의 일반화된 토큰들의 리스트로 처리 4. dictionary와 posting들로 구성된 역색인을 구축하는 것으로 각 term이 발생하는 문서를 색인 우리는 앞선 처리 단계(1-3 단계)에 대해서 Section 2.2에서 정의하고 논의한다. 그때까지 여러분들은 토큰들(tokens)과 일반화된 토큰들(normalized tokens)을 단어들(words)과 대충 유사하다고 생각할 수 있..

Introduction, 1.1 An example information retrieval problem

정보검색(IR. Information Retrieval)의 의미는 매우 광의적일 수 있다. 어쩌면 지갑에서 신용카드를 꺼내서 카드번호를 적는 그 자체도 정보검색의 일종이지만, 학계에서의 정보검색은 다음과 같이 정의가 된다. 정보검색은 정형화되지 않은 세계에서 자료(일반적으로 문서들)을 찾는다. 보통 컴퓨터에 저장되어진 굉장히 큰 컬렉션 내의 정보욕구를 해결해준다.. 이런 의미로 정의됨으로, 정보검색은 소수(사서, 변호사 보조원, 전문적인 정보검색사)들에 의해 이용되어지는 것으로 여겨졌다. 현재 세상은 변하고 있다. 정보검색에 관여하는 수백만의 사람들이 매일 웹 검색엔진을 이용하고 자신의 이메일을 검색한다. 정보검색은 정보 접근의 지배적인 형태로 급속히 변화하고 있고 전통적인 데이터베이스 검색을 대체하고 ..