|
ИЗВЛЕЧЕНИЕ СЕМАНТИЧЕСКИХ ОТНОШЕНИЙ ИЗ ЭНЦИКЛОПЕДИЧЕСКИХ ТЕКСТОВ НА ОСНОВЕ БАЗЫ ЗНАНИЙ ОНТОЛОГИИ
Р. Гареев, В.Д. Соловьев
Казанский (Приволжский) федеральный университет
Большинство существующих подходов извлечения семантических отношений ориентированы на конкретные виды отношений
и требуют предварительных пользовательских усилий на подготовку исходных данных. Предлагается модель открытого
извлечения экземпляров отношений из естественно-языковых текстов с использованием базы знаний онтологии. Открытое
извлечение подразумевает поиск всевозможных отношений в тексте, достаточно часто встречающихся в исходном корпусе
(эта парадигма извлечения информации ведет свой отчет с появления системы TextRunner в 2007 году). Входными данными
для модели является корпус текстов, таксономия классов онтологии и экземпляры этих классов. В основе модели лежит
поиск частотных сочетаний языковых единиц и их лексических, грамматических и семантических (онтологических) свойств.
Для реализации поиска таких сочетаний предлагается применить метод обобщенных ассоциативных правил. Предлагаемая
модель не требует избыточности информации в корпусе, глубокого лингвистического анализа (что особенно актуально для
текстов на русском языке), множества исходных примеров отношений; не ориентирована на фиксированные структуры языковых
выражений.В качестве экспериментальных данных в проекте рассматривается корпус Википедии и лексикализованная онтология
DBPedia.
|