Fundamental Notes/Information Retrieval

Boolean Model

콩콩댕 2009. 9. 3. 23:43
반응형
Boolean Query

1. Definitions
-is one of classical Information Retrieval model-is based on Boolean Logic (AND, OR, NOT)
-is based on classical Sets Theory in that both documents to be searched and the user’s query are conceived as sets of terms-is based on whether or not the documents contain the query terms.

2. Query
-매우직관적
-불리언모델을사용하여검색질의어처리를하면포함(TRUE), 포함하지않는다(FALSE)로단순화
Boolean Query
(자연어에좀더가까운사용자질의어처리를위해서Vector Space Model 또는Extended Boolean Model을사용)
-예)
1. “A”와“B”를모두포함하는문서의검색“A” AND “B”
2. “A”를포함하지만“B”를포함하지않는문서의검색“A” AND (NOT “B”)
3. “정보검색시스템” “정보” OR “검색” OR “시스템”
“정보” AND “검색” AND “시스템”
-Query에대해서도형태소분석을통해서term추출후어떻게Boolean Logic을만들것인가가관건
1. term들갂의OR Logic Recall ↑
2. term들갂의AND Logic Precision ↑

Extension of Query
2. Query
-문서Collection문서A : 정보검색시스템이란…문서B : 포털에서의정보검색은주로…문서C : 정보검색시스템은구글에서…문서D : 정보검색은초창기문헌정보…-Extension of Query : 질의명백화-“정보검색시스템”이라는질의어는정보, 검색, 시스템이라는term이전부존재하는문서만검색하라는의미로만해석변홖Query : ((정보AND 검색) OR 정보검색) AND ((검색AND 시스템) OR 검색시스템)해석: (“정보”와“검색”) 혹은“정보검색”를포함하고있는문서중에(“검색”과“시스템”) 혹은“검색시스템”을포함하고있는문서를검색장점: -사용자의의도를확대해석하지않는범주에서명확하게검색-Precision ↑단점: -“정보검색”, “검색시스템”만존재하는의미있는문서는제외-Recall ↓
Boolean Query
문제점직관적이고단순하나사용자의의도를충분히파악하기힘듬
예User Query : “정보검색시스템”
변홖Query : 정보검색시스템(동일)True인경우에만찾는다면“C” 문서만검색
Extension of Query
해결책
질의명백화와Level,Priority를할당
(형태소분석기와밀접한관계)
예User Query : “정보검색시스템”
1. ((정보AND 검색) OR 정보검색) AND ((검색AND 시스템) OR 검색시스템)2. 정보검색시스템OR 정보검색OR 정보OR 검색OR 검색시스템OR 검색OR 시스템

Extension of Query
2. Query
-Extension of Query : Level, Priority 할당
“정보검색시스템”이라는질의어는정보, 검색, 시스템이라는term이하나라도존재하는문서를검색하되
각term들에대한Level과Priority를달리줌으로써사용자의의도를최대한만족시킨다는의미
변홖Query : (정보검색시스템:L1) OR (정보검색:L2)OR (정보:L3)OR
(검색:L3)OR (검색시스템:L3)OR (검색:L3)OR (시스템:L3)
해석: “정보검색시스템”, “정보검색”, “정보”, “검색”, “검색시스템”, “검색”, “시스템”이하나라도있는문서를
검색하되, Level에따른Priority를달리하여높은Priority일수록상위에랭킹
장점: -사용자의의도를확대는하되상위검색결과는명확
-Precision ↔
단점: -연산속도가느려짂다.
-Recall ↑
보완: 검색대상문서가너무많아지며, 연산속도가현저히떨어진다.
Level1에서의결과획득후Recall율을체크후Level2의문서추가, Level3의문서추가…
정보검색시스템Level 1 (ex -Priority :1)|+------+-------+ | |정보검색검색시스템Level 2 (ex -Priority :0.5)| |+---+---+ +---+---+| | | |정보검색검색시스템Level 3 (ex -Priority :0.1)
※ 검색서비스와컬렉션의성격에따라서Extension of Query의방법중하나를선택할것

4. Limitations
-문서의우선순위나사용자질의에대한가중치등을부여할수없다.
-사용자의의도와다른결과물을보여줄확률이높다.
-직관적이고단순하지만, 사용자의의도를충분히판단하기어렵다.
-유사도를계산할수없다.