Регулярные выражения - [714] :: Прикладное программирование

[more] Romul81

Цитата:

. Что считать "оригиналом", а что "дубликатом"?

А это имеет значение?
Можно оставить любую копию, а все дубли удалить

Добавлено:

Цитата:

Поставьте чёткую задачу, если хотите, чтоб вам помогли.

Как можно поставить "чёткую" задачу если она по определению относится к "не чётким"?
В правильно написанном задании уже 90% решения.
Если бы я чётко смог описать задачу и требуемый алгоритм решения - мне бы и "помощь зала" не потребовалась.
Поскольку, как я сказал выше, в правильно написанном ТЗ уже содержится 90% решения.

Задача простая: Отфильтровать из поиска архивариуса 300 повторяющиеся и уже ранее просмотренные фрагменты. Чтобы он в них больше не искал, а я, соответственно, больше их не видел. Вот и всё.

Что не ясного?

Добавлено:

Цитата:

Ещё раз - "найти дублирующиеся блоки текста" - это слишком расплывчато, эфемерно и недостаточно для нахождения адекватного решения.

Предложите свою формулировку

Добавлено:
YuS_2

Цитата:

Но надо учитывать, что найденный фрагмент, имеющий повторы, захватывается только первый

Очень хорошо.
Значит я могу его сначала скопировать и сохранить в отдельный "файл уникальных фрагментов", а потом забить в POWERGREP и вычистить всю базу от этого фрагмента.

Вполне себе решение

Блин. А повторы в Вашем скрипте должны находиться в одном файле?

Блин. Не катит

Так как одинаковые фрагменты у меня в базе могут находится в разных TXT-файлах

Добавлено:
AZJIO

Цитата:

то есть надо написать сначала архивариус, чтобы он из PDF, DJVU вытащил тексты

Зачем.

У архивариуса уже есть такая фишка: экспорт всех найденных файлов в TXT-формат

Модерирует : ShIvADeSt
Версия для печати • Подписаться • Добавить в закладки
На первую страницу • к этому сообщению • к последнему сообщению