IvanStepanov
BANNED | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору Romul81 Цитата: Но это не значит, что он нерешаема в принципе. Тут нужны программы типа TextPipe и PowerGREP. | Так я с PowerGREP и начал как раз решение своей задачи. Экспортирую найденные в архивариусе тексты как plain text. А дальше с помощью PowerGREP "выкусываю" (т.е. удаляю из файлов) ненужные фрагменты текста. Только проблема, что REGEX для каждого куска я пишу вручную. Какой у меня сейчас алгоритм. Я пишу самый простой шаблон поиска Типа .{1,20}система.{1,20} и запускаю поиск в PowerGREP. Причём задаю показывать контекст в котором нашёлся фрагмент. Просмотрев найденное и контекст вижу, что есть более крупные повторы и модифицирую шаблон добавляя в него ещё выражения. И таким образом постепенно дохожу до максимально возможной длины повторяющихся кусков. Здесь PowerGREP мне сильно облегчает мою задачу. Но всё равно до полной автоматизации далеко: Я за 4 дня в базе из 700 файлов вычистил дубли только по одному слову. Т.е. слову, которое обязательно должно входить в искомый фрагмент Думаю что для того, чтобы вычистить все дубли - мне потребуется больше месяца. А если мне нужно будет сменить тематику и собрать информацию для другого проекта - то опять месяц тупой ручной рутинной работы по чистке найденного от дублей. Это очень долго |