Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Прикладное программирование » Регулярные выражения

Модерирует : ShIvADeSt

 Версия для печати • ПодписатьсяДобавить в закладки
На первую страницук этому сообщениюк последнему сообщению

Открыть новую тему     Написать ответ в эту тему

IvanStepanov

BANNED
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
[more] Romul81

Цитата:
. Что считать "оригиналом", а что "дубликатом"?

А это имеет значение?
Можно оставить любую копию, а все дубли удалить
 
Добавлено:

Цитата:
Поставьте чёткую задачу, если хотите, чтоб вам помогли.  

Как можно поставить "чёткую" задачу если она по определению относится к "не чётким"?
В правильно написанном задании уже 90% решения.
Если бы я чётко смог описать задачу и требуемый алгоритм решения - мне бы и "помощь зала" не потребовалась.
Поскольку, как я сказал выше, в правильно написанном ТЗ уже содержится 90% решения.

Задача простая: Отфильтровать из поиска архивариуса 300 повторяющиеся и уже ранее просмотренные фрагменты. Чтобы он в них больше не искал, а я, соответственно, больше их не видел. Вот и всё.

 
Что не ясного?
 
Добавлено:

Цитата:
Ещё раз - "найти дублирующиеся блоки текста" - это слишком расплывчато, эфемерно и недостаточно для нахождения адекватного решения.
 

Предложите свою формулировку
 
Добавлено:
YuS_2

Цитата:
Но надо учитывать, что найденный фрагмент, имеющий повторы, захватывается только первый

Очень хорошо.
Значит я могу его сначала скопировать и сохранить в отдельный "файл уникальных фрагментов", а потом забить в POWERGREP и вычистить всю базу от этого фрагмента.
 
Вполне себе решение
 
Блин. А повторы в Вашем скрипте должны находиться в одном файле?
 
Блин. Не катит
 
Так как одинаковые фрагменты у меня в базе могут находится в разных TXT-файлах
 
Добавлено:
AZJIO

Цитата:
то есть надо написать сначала архивариус, чтобы он из PDF, DJVU вытащил тексты

Зачем.
 
У архивариуса уже есть такая фишка: экспорт всех найденных файлов в TXT-формат

Всего записей: 136 | Зарегистр. 11-05-2019 | Отправлено: 16:21 20-05-2019 | Исправлено: IvanStepanov, 16:42 20-05-2019
Открыть новую тему     Написать ответ в эту тему

На первую страницук этому сообщениюк последнему сообщению

Компьютерный форум Ru.Board » Компьютеры » Прикладное программирование » Регулярные выражения


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru