Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Прикладное программирование » Регулярные выражения

Модерирует : ShIvADeSt

 Версия для печати • ПодписатьсяДобавить в закладки
На первую страницук этому сообщениюк последнему сообщению

Открыть новую тему     Написать ответ в эту тему

IvanStepanov

BANNED
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Romul81

Цитата:
Но это не значит, что он нерешаема в принципе. Тут нужны программы типа TextPipe и PowerGREP.  

Так я с PowerGREP и начал как раз решение своей задачи.
Экспортирую найденные в архивариусе тексты как plain text.
А дальше с помощью PowerGREP "выкусываю" (т.е. удаляю из файлов) ненужные фрагменты текста.
Только проблема, что REGEX для каждого куска я пишу вручную.
 
Какой у меня сейчас алгоритм.
 
Я пишу самый простой шаблон поиска  
 
Типа .{1,20}система.{1,20} и запускаю поиск в PowerGREP.
 
Причём задаю показывать контекст в котором нашёлся фрагмент.
 
Просмотрев найденное и контекст вижу, что есть более крупные повторы и модифицирую шаблон добавляя в него ещё выражения.
 
И таким образом постепенно дохожу до максимально возможной длины повторяющихся кусков.
 
Здесь PowerGREP мне сильно облегчает мою задачу.
 
Но всё равно до полной автоматизации далеко: Я за 4 дня в базе из 700 файлов вычистил дубли только по одному слову. Т.е. слову, которое обязательно должно входить в искомый фрагмент
 
Думаю что для того, чтобы вычистить все дубли - мне потребуется больше месяца.
 
А если мне нужно будет сменить тематику и собрать информацию для другого проекта  - то опять месяц тупой ручной рутинной работы по чистке найденного от дублей.
 
Это очень долго  
 
 

Всего записей: 136 | Зарегистр. 11-05-2019 | Отправлено: 12:17 20-05-2019
Открыть новую тему     Написать ответ в эту тему

На первую страницук этому сообщениюк последнему сообщению

Компьютерный форум Ru.Board » Компьютеры » Прикладное программирование » Регулярные выражения


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru