Precise Zero-Shot Dense Retrieval without Relevance Labels
22년 10월 20일 게재
워털루, 카테기 멜런 대학
url : https://arxiv.org/abs/2212.10496
Abstract
retieval 이 많이 활용되고 잇지만 아직은 zero-shot은 어려움
논문에서 zero-shot learning과 encoding relevance의 어려움을 인지하고 Hypothetical Document Embeddings (HyDE). 방식을 제안함
InstructGPT는 document를 생성하지만 현실적이지 않고 많은 잘못된 내용이 들어있음
해당 연구에서 적용한 모델이 여러 테스크와 한국어 일본어 스와힐리어(케냐)에서 잘 됨을 보임
1 Introduction
zero shot generalization 과 llm 으로 뻔한 이야기 …
Hypothetical Document Embeddings (HyDE)를 제안함
문서 검색을 위한 테스크를 위해 인코더 방식을 제안함
Step1. query를 입력으로하여 질문 구조를 생성하는 모델을 사용
“write a document that answers the question” -> 질문에 대답하는 문서를 작성하라고 지시
=> 이 단계에서는 진짜가 아닌 가짜 데이터를 생성하게 됨 그러나 진짜 문서와 유사한 형식의 문서를 생성할 것이라고 예상 할 수 있음
Step2. 비지도 학습인 contrastive encoder 모델을 학습함
해당 벡터로 다시 임베딩을 검색해 -> 가장 가까운 진짜 문서를 반환함
해당 논문에서 HyDE의 장점은 따로 학습이 필요하지 않는것이 장점이라고 함
-> 여기에서 문서를 생성하는 모델은 InstructGPT, Contriever을 사용함
2 Related Works
Dense Retrieval
Pretrained Transformer Language model이 생기면서 연구되기 시작함
metric learning의 문제점인 training loss와 negative sampling 그리고 distillation
Instructions-Following Language Models
LLM이 출현한 이후 instructions - zero-shot generalize 테스크에 대한 관심이 많아짐
Zero-Shot Dense Retrieval
설명 생략…
Generative Retrieval
설명 생략…
3 Methodology
3.1 Preliminaries
쿼리와 문서의 유사성을 검색하는 테스크 임
q : query
d : document
enc_q, enc_d : 인코더 함수 여기에서 d는 dimension
L : query set의 수 Q_1 ,…. Q_l
r_ij : 벡터로 판단한 관계성 순서
3.2 HyDE
HyDE 방식은 3.1에서 전술한 방식의 문제점을 우회함(임베딩 공간에서만 데이터를 찾는것)
2번 수식은 그냥 constrastive encoder 함수를 표현
3번 수식은 2번 수식의 encoder함수를 통해 나온 벡터를 표현함
INST는 instruction 텍스트 -> 생성모델로 가짜 답변을 생성하기 위해 미리 정해둔 instruction과 같이 넣어 답변을 반환함
g를 통해서 가상 답변을 생성함
g로 생성된 가짜 문서를 다시 벡터화함
쿼리가 모호하지 않은 경우의 단순 기대값을 정의함
그 이후 문서를 검색함
4 Experiments
Datasets
TREC DL19, DL20, BEIR 데이터셋을 사용하고 논문에서 계속 강조하는 MS-MARCO를 베이스로 사용
-> 여러가지 데이터셋을 사용하는 이유는 한국어, 일본어, 벵골어 3개국어를 테스트하기 위함
Instruction 구조는 위와 같이 사용함
###
성능 결과는 … 생략