본문 바로가기

Backend/검색

도메인 특화 knowledge graph search 구축

728x90

knowledge graph search 는 아래 과정대로 진행된다.

- 표준 용어 사전, 통합 지식 사전 구축

- 지식 그래프 구축

-두가지를 합쳐서 검색 구현

1. 표준 용어 사전, 통합 지식 사전

  • 도메인 용어의 표준 사전을 구축
  • 표준 사전을 구축함으로써 통일된 단어를 찾을 수 있도록 함
  • 공통 표준용어는 용도는 다르지만 의미는 유사
  • 동의어, 유사어 등 사전 구축 필요
    • ex) 적금 == 적립식 예금

2. 지식그래프 구축

knowledge graph

  • how to build knowledge graph로 검색하면 자료 많음
    • (내용 미확인) How to build a knowledge graph from scratch even if you are not really a full-blown developer - youtube

Neo4j

3. 검색 구현

참고

https://yashuseth.blog/2019/10/08/introduction-question-answering-knowledge-graphs-kgqa/

 

 

ETL

대표적인 내부 데이터 수집 방법으로는 ETL(Extraction, Transformation, Loading)이 있다. ETL이란 다양한 소스 시스템으로부터 필요한 데이터를 추출(extract)하여 변환(transformation) 작업을 거쳐 저장하거나 분석을 담당하는 시스템으로 전송 및 적재(loading)하는 모든 과정을 포함한다. 대부분의 ETL 연산은 중복을 제거하고 일관성을 확보하기 위한 정제를 포함한다. 예를 들어, 성별에서 ‘남’은 ‘M’, ‘man’, ‘male’, ‘1’ 등으로 표현될 수 있는데, 이것들을 모두 동일한 것으로 인식하여 한결같이 ‘M’으로 표현하는 것이 일관성 확보를 위한 정제의 예가 된다.

[네이버 지식백과] ETL과 크롤링 엔진 (빅데이터 플랫폼 전략, 2013. 2. 11., 황승구, 최완, 허성진, 장명길, 이미영, 박종열, 원희선, 김달)