본문 바로가기

Backend/검색

(2)
도메인 특화 knowledge graph search 구축 knowledge graph search 는 아래 과정대로 진행된다. - 표준 용어 사전, 통합 지식 사전 구축 - 지식 그래프 구축 -두가지를 합쳐서 검색 구현 1. 표준 용어 사전, 통합 지식 사전 도메인 용어의 표준 사전을 구축 표준 사전을 구축함으로써 통일된 단어를 찾을 수 있도록 함 공통 표준용어는 용도는 다르지만 의미는 유사 공공데이터 공통표준용어 동의어, 유사어 등 사전 구축 필요 ex) 적금 == 적립식 예금 2. 지식그래프 구축 how to build knowledge graph로 검색하면 자료 많음 (내용 미확인) How to build a knowledge graph from scratch even if you are not really a full-blown developer - ..
[elasticsearch] doc2vec으로 korquad 데이터 유사도 분석하기 엘라스틱서치에서 cosine similarity를 이용하여 문장이 아닌 문단수준의 문서를 검색하는 것에 대해서 설명한다 서론 elasticsearch의 검색알고리즘은 기본적으로 BM25 알고리즘을 기본으로 지원한다. 이 알고리즘을 통해 스코어를 매기고 순서대로 적합한 데이터를 찾아준다. BM25 알아보기 7.3.0 버전부터는 cosine similarity 검색을 지원한다. 즉, 데이터로 고차원벡터를 집어넣고, 벡터형식의 데이터를 쿼리(검색어)로 하여 코사인 유사도를 측정하여 가장 유사한 데이터를 찾는다. 이러한 벡터 유사도 측정은 단순하게 검색어가 문서에 있나없나를 보는것이 아니라 검색어와 문서간의 유사성(의미, 맥락, 문맥, 시맨틱)을 중요하게 보는것이다. 구현 간략한 과정은 아래와 같다 정보사전으로..