Алгоритмы, дискретная математика и пр.'s Journal (original) (raw)
Алгоритмы, дискретная математика и пр.'s Journal [Most Recent Entries] [Calendar View] [Friends View]
Monday, August 20th, 2007
Time | Event |
---|---|
10:54a | Алгоритм привязки строк к КЛАДР Рассмотрим подробнее условие предыдущей задачи: нужно разработать алгоритм привязки адресной информации, набранной пользователями вручную как попало - к фиксированному классификатору адресов КЛАДР. Для того, чтобы вы лучше представили себе качество исходных данных, приведу пример из строчек, которым я нашел соответствие вручную: Текстовые данные Соответствующая запись КЛАДРа г Елец УЛ МАРКСА 34 399774 Липецкая обл, Елецкий р-н, г Елец, ул К.Маркса Г ЛEБEДЯHЬ ЕЛЕЦКАЯ Здание магазина 399610 Липецкая обл, Лебедянский р-н, г Лебедянь, ул Елецкая Добринский район Талицкий Чамлык - ул. Советская д 46 399450 Липецкая обл, Добринский р-н, с Талицкий Чамлык ЛИПЕЦКАЯ ОБЛАСТЬ ИЗМАЛКОВСКИЙ Р-Н СЕЛО ПРЕОБРАЖЕНИЕ 399012 Липецкая обл, Измалковский р-н, с Преображенье Липецк г. район Цемзавода 398000 Липецкая обл, г Липецк ДОБРОВСКИЙ Р-Н.С Б ХОМУТЕЦ 399148 Липецкая обл, Добровский р-н, с Большой Хомутец (не путать с Малым Хомутцом) ЛИПЕЦК Г ,ПОБЕДЫ ПР,21 398024 Липецкая обл, г Липецк, пр-кт Победы (не путать с площадью Победы) Итак, каким же образом столь корявой, хаотичной, иногда избыточной, иногда недостаточной информации можно поставить в соответствие единственную правильную строчку из справочника? Вот такой алгоритм напрашивается изначально:( Collapse ) ( Collapse ) Применение данного алгоритма на практике показало довольно низкий процент ошибок: из 2000 записей, ручной корректировке подверглись не более 60 штук, что составляет всего лишь 3% от всей выборки.• На придумывание и программирование обоих алгоритмов у меня ушла одна ночь.• На применение второго алгоритма на практике, и чистку данных - еще одна ночь.• На то, чтобы написать эту статью - потребовалось три ночи. ;-) |