ИЗВЛЕЧЕНИЕ СЕМАНТИЧЕСКИХ ОТНОШЕНИЙ ИЗ ЭНЦИКЛОПЕДИЧЕСКИХ ТЕКСТОВ НА ОСНОВЕ БАЗЫ ЗНАНИЙ ОНТОЛОГИИ

Р. Гареев, В.Д. Соловьев

Казанский (Приволжский) федеральный университет

Большинство существующих подходов извлечения семантических отношений ориентированы на конкретные виды отношений и требуют предварительных пользовательских усилий на подготовку исходных данных. Предлагается модель открытого извлечения экземпляров отношений из естественно-языковых текстов с использованием базы знаний онтологии. Открытое извлечение подразумевает поиск всевозможных отношений в тексте, достаточно часто встречающихся в исходном корпусе (эта парадигма извлечения информации ведет свой отчет с появления системы TextRunner в 2007 году). Входными данными для модели является корпус текстов, таксономия классов онтологии и экземпляры этих классов. В основе модели лежит поиск частотных сочетаний языковых единиц и их лексических, грамматических и семантических (онтологических) свойств. Для реализации поиска таких сочетаний предлагается применить метод обобщенных ассоциативных правил. Предлагаемая модель не требует избыточности информации в корпусе, глубокого лингвистического анализа (что особенно актуально для текстов на русском языке), множества исходных примеров отношений; не ориентирована на фиксированные структуры языковых выражений.В качестве экспериментальных данных в проекте рассматривается корпус Википедии и лексикализованная онтология DBPedia.

   
www.kai.ru