IvanStepanov
BANNED | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору [more] Romul81 Цитата: . Что считать "оригиналом", а что "дубликатом"? | А это имеет значение? Можно оставить любую копию, а все дубли удалить Добавлено: Цитата: Поставьте чёткую задачу, если хотите, чтоб вам помогли. | Как можно поставить "чёткую" задачу если она по определению относится к "не чётким"? В правильно написанном задании уже 90% решения. Если бы я чётко смог описать задачу и требуемый алгоритм решения - мне бы и "помощь зала" не потребовалась. Поскольку, как я сказал выше, в правильно написанном ТЗ уже содержится 90% решения. Задача простая: Отфильтровать из поиска архивариуса 300 повторяющиеся и уже ранее просмотренные фрагменты. Чтобы он в них больше не искал, а я, соответственно, больше их не видел. Вот и всё. Что не ясного? Добавлено: Цитата: Ещё раз - "найти дублирующиеся блоки текста" - это слишком расплывчато, эфемерно и недостаточно для нахождения адекватного решения. | Предложите свою формулировку Добавлено: YuS_2 Цитата: Но надо учитывать, что найденный фрагмент, имеющий повторы, захватывается только первый | Очень хорошо. Значит я могу его сначала скопировать и сохранить в отдельный "файл уникальных фрагментов", а потом забить в POWERGREP и вычистить всю базу от этого фрагмента. Вполне себе решение Блин. А повторы в Вашем скрипте должны находиться в одном файле? Блин. Не катит Так как одинаковые фрагменты у меня в базе могут находится в разных TXT-файлах Добавлено: AZJIO Цитата: то есть надо написать сначала архивариус, чтобы он из PDF, DJVU вытащил тексты | Зачем. У архивариуса уже есть такая фишка: экспорт всех найденных файлов в TXT-формат | Всего записей: 136 | Зарегистр. 11-05-2019 | Отправлено: 16:21 20-05-2019 | Исправлено: IvanStepanov, 16:42 20-05-2019 |
|