IvanStepanov
BANNED | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору Есть большая база скаченных из интернета за много лет документов (doc, pdf, html, кэш браузера и т.п.). Несколько сотен тысяч. Соотвественно, как это часто бывает, авторы одних документов заимствуют целые куски из других документов. Соответственно найденные архивариусом фрагменты повторяются. Приходится по 100 раз читать одно и тоже. Существует и другая проблема: один и тот же фрагмент текста находится по разным запросам. Так или и иначе В ПОЛНЫЙ РОСТ ВСТАЁТ ПРОБЛЕМА как отфильтровать ненужные фрагменты текста (ненужные потому что Вы их уже видели и они не содержат новой информации или не нужные потому что в них вообще нет полезной информации). Вы задав какое-то слово исключение отфильтруете файл ЦЕЛИКОМ. Но нам не надо исключать (отфильтровать) файл целиком, нам нужно исключить из поиска только определённые места в этом файле, чтобы вновь и вновь не читать их по сто раз. Кто как решает данную проблему? Добавлено: Повторяю, мне не нужно исключить из поиска целый, к примеру, 1000 страничный документ (там ещё много чего полезного можно потом нарыть если хорошенько порыться). Мне нужно исключить из поиска определенные куски текста документа, которые я либо уже читал много раз, либо они не содержат нужной мне информации, либо они дублируются в других местах. Как это можно сделать? | Всего записей: 136 | Зарегистр. 11-05-2019 | Отправлено: 21:36 19-05-2019 | Исправлено: IvanStepanov, 23:03 19-05-2019 |
|