IvanStepanov
BANNED | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору Цитата: Потому что, если речь о текстовых файлах (любого типа), то вопрос идет о каких -то смешных количествах, ради которых разведен балаган, как будто нужно что-то сделать с бибилиотекой конгресса, которая еще не оцифрована. | Согласен. 700 файлов кажется небольшим количеством. Но проблема в том, что мне вручную приходится искать фрагменты, которые повтоярются, и их границы. Потому что нет какой-то определенной цепочки символов, которую можно принять за границы фрагментов. Точнее есть много разных типов границ. И описав ряд из них с помощью REGEX нельзя быть уверенным, что ты выявил их все. Поэтому я ищу похожие куски с помощью PowerGREP следующим образом. 1) ввожу ключевое слово. 2) смотрю сколько раз оно встречается и контекст, в котором оно встречается 3) добавляю к слову его контекст (по 1-2 слова слева и справа и выражение [\s\r\n\t]+ между словами) опираясь на какой-нибудь файл где этот контекст точно есть 4) опять ищю и просматриваю найденное в PowerGREP 5) если есть повторы и вижу что контекст можно ещё расширить - расширяю и повторяю п./п. 2-4 6) и так до тех пор пока дальше расширить фрагмент уже невозможно 7) копирую фрагмент в файл коллекции и удаляю его во всех остальных файлах 8) беру другое ключевое слово и повторяю п/п 1-7 Нашёл тут программу, WordTabulator v3.6 и WordSmith 7, которые, якобы могут найти повторяющиеся словосочетания. Но первая "спотыкается" на служебных символах, а во второй я понял только как делать конкордансы слов. Как делать коллокаты (это, как я понял, по научному так и называются повторяющиеся словосочетания) я пока чего-то не разберусь |