728x90
knowledge graph search 는 아래 과정대로 진행된다.
- 표준 용어 사전, 통합 지식 사전 구축
- 지식 그래프 구축
-두가지를 합쳐서 검색 구현
1. 표준 용어 사전, 통합 지식 사전
- 도메인 용어의 표준 사전을 구축
- 표준 사전을 구축함으로써 통일된 단어를 찾을 수 있도록 함
- 공통 표준용어는 용도는 다르지만 의미는 유사
- 동의어, 유사어 등 사전 구축 필요
- ex) 적금 == 적립식 예금
2. 지식그래프 구축
- how to build knowledge graph로 검색하면 자료 많음
- (내용 미확인) How to build a knowledge graph from scratch even if you are not really a full-blown developer - youtube
Neo4j
- Graph DB를 이용해서 구축하는 편(Neo4j - Graph DB ranking)
- Neo4j WikiDocs
- 그래프 데이터베이스와 Neo4j
3. 검색 구현
- Graph-Powered Search: Neo4j & Elasticsearch
https://dzone.com/refcardz/graph-powered-search-neo4j-amp-elasticsearch - Knowledge Graph Search with Elasticsearch and Neo4j
https://neo4j.com/blog/knowledge-graph-search-elasticsearch-neo4j/ - Domain-specific Knowledge Graph: A survey
https://arxiv.org/pdf/2011.00235.pdf
참고
https://yashuseth.blog/2019/10/08/introduction-question-answering-knowledge-graphs-kgqa/
ETL
대표적인 내부 데이터 수집 방법으로는 ETL(Extraction, Transformation, Loading)이 있다. ETL이란 다양한 소스 시스템으로부터 필요한 데이터를 추출(extract)하여 변환(transformation) 작업을 거쳐 저장하거나 분석을 담당하는 시스템으로 전송 및 적재(loading)하는 모든 과정을 포함한다. 대부분의 ETL 연산은 중복을 제거하고 일관성을 확보하기 위한 정제를 포함한다. 예를 들어, 성별에서 ‘남’은 ‘M’, ‘man’, ‘male’, ‘1’ 등으로 표현될 수 있는데, 이것들을 모두 동일한 것으로 인식하여 한결같이 ‘M’으로 표현하는 것이 일관성 확보를 위한 정제의 예가 된다.
[네이버 지식백과] ETL과 크롤링 엔진 (빅데이터 플랫폼 전략, 2013. 2. 11., 황승구, 최완, 허성진, 장명길, 이미영, 박종열, 원희선, 김달)
'Backend > 검색' 카테고리의 다른 글
[elasticsearch] doc2vec으로 korquad 데이터 유사도 분석하기 (0) | 2020.12.31 |
---|