문서 세트에 숨어있는 지식의 구조와 흐름이 궁금하지만…
문서 세트가 있습니다. 이 세트 안에는 1000건, 10000건, 아니 100만 건 이상의 문서들이 들어있을 수 있습니다. 계속해서 새로운 문서들이 추가될 수도 있지요. 웹 포털 사이트, 소셜 미디어, 커뮤니티 게시판, 기업이나 기관의 업무 처리 문서 등이 당장 떠오르네요.
문서 세트 안에 어떤 내용의 지식들이 얼마나 들어있는지 궁금할 때가 있습니다. 지식의 구조가 시간에 따라 어떤 흐름을 타고 변화해 가는지 알아보고 싶을 때도 있고요. 내가 필요로 하는 특정 정보가 지식 구조 내의 어느 위치에 있는지 알 수 있으면 더 좋을 것 같습니다. 문서의 양이 적다면 일일이 다 직접 확인해 볼 수도 있겠지만, 요즘 세상에 문서의 양이 그렇게 적을 리가 없지요. 설령 문서의 양이 적어 직접 다 읽어보는 것이 가능하다고 해도 일목요연하게 지식을 정리하는 게 쉬운 일은 아닙니다.
물론 검색 기능을 활용하면 특정 지식이 문서 세트 안에 들어있는지의 여부를 어렵지 않게 확인해 볼 수 있습니다. 그러나 검색엔진은 전체적인 지식의 구조와 흐름까지 보여주지는 않지요. 포털 사이트도 마찬가지입니다. 검색엔진과 포털 사이트는 아주 일부의 정보만을 단편적으로 보여줄 뿐입니다.
왜 지식의 구조와 흐름을 봐야 할까?
사실, 이것은 참 어려운 질문이 아닐 수 없습니다. 지식의 구조가 무엇인지에 대해 다양한 관점이 존재할 수 있기 때문이죠. 그렇다고 해도 지식의 구조와 흐름을 추출하고 활용하는 것이 가치있는 일이라는 점에는 변함이 없습니다. 뭐, 실제 지식을 직접 분석하고 느껴보면서 정의하고 풀어나갈 수 밖에 없지요.
뉴스 사이트에는 매일같이 엄청난 양의 뉴스가 업로드됩니다. 특정 이슈가 갑자기 나타났다가 사라지기도 하고, 어떤 이슈는 꽤 오랜 시간 동안 우리의 시선을 끌지요. 특정 기간 동안에 쌓였던 뉴스 기사들에 어떤 지식과 정보가 들어있는지 한눈에 알아볼 수 있다면 어떨까요? 세상이 돌아가는 상황을 좀 더 직관적으로 파악할 수 있을 지 모릅니다.
논문이나 특허에 들어있는 지식들을 구조화해서 확인해 볼 수 있다면 어떨까요? 어떤 분야의 연구개발이 진행되었는지, 주로 어떤 주제의 연구가 진행되었는지, 누가 어떤 개발을 했는지 등을 한눈에 파악할 수 있겠지요. 앞으로의 연구방향을 잡거나 연구계획을 세우는데 필요한 일입니다.
대형 병원에서 제공하는 건강 정보 문서들에 들어있는 지식들의 구조를 분석해 보면 무엇을 알 수 있을까요? 어떠한 종류의 질병이 있는지, 특정 질병과 유사한 증상을 보이는 질병에는 어떠한 것들이 있는지, 특정 증상이 느껴질 때 어떤 조치를 취해야 하는지 등에 대해 지능적으로 파악할 수 있을 겁니다.
만약, 이러한 작업을 통해 다른 사람들은 파악하지 못하는 ‘지식의 숨은 구조와 흐름’을 잡아낼 수 있다면 어떨까요? 지식을 추출하고 활용하는 작업이 꽤 보람있게 느껴지지 않을까요?
그리고 무엇보다, 이러한 작업을 쉽게 수행할 수 있도록 하는 도와주는 툴이 있다면 참 좋을 것 같습니다.
직접 만들어 가는 미래지향적인 지식 추출 엔진
인포리언스는 문서 세트 내에 포함된 지식의 구조와 흐름을 자동적으로 분석, 추출하는 엔진을 만들어 가고 있습니다. 차근차근 기술 요소를 추가해 나가면서 발전시키고 있지요. 물론 아직 가야할 길은 아주 멀지요.
최근에는 실제 문서 세트에도 적용하여 흥미로운 결과를 만들고, 이 과정에서 새롭게 추가되어야 할 기능과 인터페이스를 발굴하고 있습니다. 쉽지 않은 작업이지만 꽤 재미있기도 합니다.
“지식 추출 엔진의 현재와 미래가 궁금하다” 시리즈의 시작
인포리언스가 만들고 있다는 지식 추출 엔진은 과연 어떤 것일까요? 어떤 개념과 기능이 탑재되고 있을까요? 그리고 관련된 기술에는 어떠한 것들이 있을까요?
앞으로 인포리언스는 ‘지식 추출 엔진의 현재와 미래가 궁금하다’ 시리즈를 풀어나가고자 합니다. 이 시리즈를 통해 문서 세트를 지식 추출 엔진에 업로드하면 어떤 결과를 얻을 수 있을 지 아주 기초적인 것부터 차근차근 알아보겠습니다.
답글 남기기