Frantishek
Advanced Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору Кстати, раскрывая идеи нечеткого поиска.. Кто-нибудь баловался с матчингом? Какие сейчас алгоритмы самые бойкие, если на коленке ваять (нужно кустарно порешать вопрос под Эксель). Типическая задачка: связать определения по маске-ключу - заголовков с разными косяками (артефакты/ошибки написания, кавардак спец.символов/пробелов и тп.). Про существование Fuzzy Lookup Add-In for Excel (free) // WinPure Clean & Match и Data Match (ProductMatch) Enterprise by Data Ladder (полечил бы кто это) // и Unification от ExcelVBA.ru - знаю. Может чего еще есть уже, с участием ИИ (выполняющих предварительные: нормализация, обогащение и тп. манипуляции). Думаю, интересны алгоритмы с подсчетом статистики. Я бы видел, бегло, решение таким. 1. Все определения обогащаются по контексту (тут ИИ в помощь). Причем, контекст, как раз, может определяться валовой мусорной подачей первички данных под конкретную модель ИИ. 2. Далее, строится статистическая модель релевантности (эдакая семантическая диффузия определений в сторону отклонений-ошибки как частоты вариабельности/встречабельности, вбирая сюда и склонности людей повторять характерные ошибки написания). И, на базе нее, тут же, можно формировать канонические ключи - библиотеку (можно подключить экспертный режим, с полуручным управлением, скажем - контроль потока на аномалии, с остановкой на перепроверку вручную) 3. Все связывается обратно. Может, какие еще уже есть инновации (вижу тенденцию в направлении связывания по изображению, как очевидной константе). Интересны вероятностные модели контроля правдоподобия (верификации достоверности). |