СЕМАНТИЧЕСКИЕ ФИЛЬТРЫ ДЛЯ РАЗРЕШЕНИЯ МНОГОЗНАЧНОСТИ В НАЦИОНАЛЬНОМ КОРПУСЕ РУССКОГО ЯЗЫКА: ПРИЛАГАТЕЛЬНЫЕ 1 SEMANTIC FILTERS FOR THE WORD SENSE DISAMBIGUATION IN RNC: ADJECTIVES (original) (raw)
2007, СЕМАНТИЧЕСКИЕ ФИЛЬТРЫ ДЛЯ РАЗРЕШЕНИЯ МНОГОЗНАЧНОСТИ В НАЦИОНАЛЬНОМ КОРПУСЕ РУССКОГО ЯЗЫКА: ПРИЛАГАТЕЛЬНЫЕ 1 SEMANTIC FILTERS FOR THE WORD SENSE DISAMBIGUATION IN RNC: ADJECTIVES
В статье представлена система семантических фильтров имен прилагательных, которая используется для разрешения неоднозначности лексико-семантической разметки в Национальном корпусе русского языка. Большинство значений многозначных прилагатель-ных (как и других многозначных слов) в словаре Корпуса снабжено пометой семантического класса. В тексте каждое вхождение слова автоматически получает все словарные семантиче-ские пометы. С помощью семантических фильтров лишние пометы автоматически удаляют-ся. Мы уже писали в наших предыдущих публикациях о том, какова идеология семантических фильтров для Национального корпуса русского языка и какова технология их создания (см. [Кустова, Ляшевская, Падучева, Рахилина 2005], [Рахилина, Кобрицов, Кустова, Ляшевская, Шеманаева 2006]; о различных идеологиях семанти-ческой классификации лексики и семантической разметки см. также [Atkins 1993], [Fellbaum, Grabowski, Landes 1998], [Dolan, Vanderwende, Richardson 2002]). Поэтому сейчас мы ограничимся лишь короткой справкой. В Корпусе наряду с морфологической разметкой существует семантическая разметка: слову в электронном слова-ре Корпуса приписываются различные семантические пометы-таксономический класс (кинжал: «оружие», печаль: «эмоция», кривляться: «поведение»), мереология (каблук: «части одежды и обуви»), топология (ниша: «вместилище»), оценка (благоухание: «положительная оценка», пресмыкаться (перед кем): «отрицательная оценка»), некоторые словообразовательные пометы, важные для семантики (проверка: «отглагольное», здешний: «отадвербиальное»), и т.п. Помимо очевидной лингвистической ценности такой разметки, ее можно использо-вать еще и как средство разрешения многозначности слов в текстах Корпуса. В обычных бумажных словарях разные значения идут под разными номерами. Это неудобно для пользо-вателя Корпуса (поскольку он не помнит, сколько значений выделяет тот или иной словарь и под какими номе-рами они идут) и нерационально с точки зрения возможных лингвистических исследований, которые могут про-водиться на Корпусе и для которых он (в числе многих других важных задач) был задуман и создан. В электро-нном словаре Корпуса вместо номеров (точнее, наряду с номерами) значениям приписываются семантические пометы, т.е. семантический класс, например: обивка (закончена)-«физическое воздействие», (шелковая) обивка-«вещества и материалы». Основная проблема перенесения помет из словаря в тексты Корпуса состоит в следующем. В словаре Корпуса у многозначного слова обычно имеется несколько семантических помет (поскольку разные значения слова обычно, хотя и не всегда, принадлежат к разным семантическим классам). Когда программа автоматически расставляет пометы в тексте, то она каждому вхождению слова приписывает все пометы, которые есть у слова в словаре, поскольку программа не знает, в каком значении выступает слово в данном тексте, и не может выбрать единственную правильную помету, удалив все лишние. Это должны сделать семантические фильтры. Фильтр основан на принципе контекстной однозначности. В контексте слово выступает в определенном значении. Если сформулировать параметры контекста или контекстов, соответствующих данному значению, и сделать соответ-ствующий поисковый запрос, Корпус выдаст примеры употребления слова в данном значении-которому соо-тветствует определенная семантическая помета. Остальные пометы удаляются. И так для каждого значения. Таким образом, многозначность снимается с точностью до семантического класса (т.е. с точностью до семанти-ческой пометы). Тем самым пользователь получает возможность формулировать поисковые запросы и получать Труды международной конференции "Диалог 2007" 582 1 Данная работа выполняется при поддержке РФФИ, проект № 05-06-80396, и РГНФ, проект № 05-04-04008а