Алгоритмы, дискретная математика и пр.'s Journal (original) (raw)

9:10a

Здравствуйте! Подскажите, пожалуйста, ссылку на алгоритм формирования запроса к поисковой системе исходя из анализа нескольких текстовых документов. Суть задачи в следующем. Имеется несколько (немного - от 3 до 10) текстовых документов. Они уже представлены (закодированы) в виде TF (term frequency)- т.е. предварительно составлен общий словарь, выброшены stop-words, произведены операции замены синонимов, стемминга и лемматизейшн,... В итоге каждый документ характеризуется вектором из К чисел (К = 100...1000), каждое из которых задает частоту этого терма в данном документе. Мы хотим найти "подобные" документы. Как составить запрос к поисковику? Ясно, что использовать "в каком-то смысле" наиболее частые термы и объединять их в булевский запрос на основе OR - неэффективно, получим море ответов. Также ясно, что надо строить конструкцию а виде {Term1&Term2&....}OR {Term11&Term12&....}OR..., где Term может быть и словом, и двойкой слов, и тройкой,...
П.С. Просьба НЕ отсылать к Гугль. Я знаю, что в нем заложена опция "find similar" (поиск подобных по одному из ответов), но во-первых ссылку на конкретный алгоритм я не нашел, а во-вторых, для своих внутренних нужд Гугль может использовать данные, к которым внешние юзеры не имеют доступа.
Заранее спасибо.