Регулярные выражения - [727] :: Прикладное программирование

Цитата:

Потому что, если речь о текстовых файлах (любого типа), то вопрос идет о каких -то смешных количествах, ради которых разведен балаган, как будто нужно что-то сделать с бибилиотекой конгресса, которая еще не оцифрована.

Согласен.
700 файлов кажется небольшим количеством.

Но проблема в том, что мне вручную приходится искать фрагменты, которые повтоярются, и их границы.
Потому что нет какой-то определенной цепочки символов, которую можно принять за границы фрагментов.

Точнее есть много разных типов границ. И описав ряд из них с помощью REGEX нельзя быть уверенным, что ты выявил их все.

Поэтому я ищу похожие куски с помощью PowerGREP следующим образом.
1) ввожу ключевое слово.
2) смотрю сколько раз оно встречается и контекст, в котором оно встречается
3) добавляю к слову его контекст (по 1-2 слова слева и справа и выражение [\s\r\n\t]+ между словами) опираясь на какой-нибудь файл где этот контекст точно есть
4) опять ищю и просматриваю найденное в PowerGREP
5) если есть повторы и вижу что контекст можно ещё расширить - расширяю и повторяю п./п. 2-4
6) и так до тех пор пока дальше расширить фрагмент уже невозможно
7) копирую фрагмент в файл коллекции и удаляю его во всех остальных файлах
8) беру другое ключевое слово и повторяю п/п 1-7

Нашёл тут программу, WordTabulator v3.6 и WordSmith 7, которые, якобы могут найти повторяющиеся словосочетания.
Но первая "спотыкается" на служебных символах, а во второй я понял только как делать конкордансы слов. Как делать коллокаты (это, как я понял, по научному так и называются повторяющиеся словосочетания) я пока чего-то не разберусь

Модерирует : ShIvADeSt
Версия для печати • Подписаться • Добавить в закладки
На первую страницу • к этому сообщению • к последнему сообщению