Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Прикладное программирование » Регулярные выражения

Модерирует : ShIvADeSt

 Версия для печати • ПодписатьсяДобавить в закладки
На первую страницук этому сообщениюк последнему сообщению

Открыть новую тему     Написать ответ в эту тему

IvanStepanov

BANNED
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Потому что, если речь о текстовых файлах (любого типа), то вопрос идет о каких -то смешных количествах, ради которых разведен балаган, как будто нужно что-то сделать с бибилиотекой конгресса, которая еще не оцифрована.

Согласен.
700 файлов кажется небольшим количеством.
 
Но проблема в том, что мне вручную приходится искать фрагменты, которые повтоярются, и их границы.
Потому что нет какой-то определенной цепочки символов, которую можно принять за границы фрагментов.
 
 
Точнее есть много разных типов границ. И описав ряд из них с помощью REGEX нельзя быть уверенным, что ты выявил их все.
 
Поэтому я ищу похожие куски с помощью PowerGREP следующим образом.
1) ввожу ключевое слово.
2) смотрю сколько раз оно встречается и контекст, в котором оно встречается
3) добавляю к слову его контекст (по 1-2 слова слева и справа и выражение [\s\r\n\t]+ между словами) опираясь на какой-нибудь файл где этот контекст точно есть
4) опять ищю и просматриваю найденное в PowerGREP
5) если есть повторы и вижу что контекст можно ещё расширить - расширяю и повторяю п./п. 2-4
6) и так до тех пор пока дальше расширить фрагмент уже невозможно
7) копирую фрагмент в файл коллекции и удаляю его во всех остальных файлах
8) беру другое ключевое слово и повторяю п/п 1-7
 
Нашёл тут программу, WordTabulator v3.6 и WordSmith 7, которые, якобы могут найти повторяющиеся словосочетания.
Но первая "спотыкается" на служебных символах, а во второй я понял только как делать конкордансы слов. Как делать коллокаты (это, как я понял, по научному так и называются повторяющиеся словосочетания) я пока чего-то не разберусь

Всего записей: 136 | Зарегистр. 11-05-2019 | Отправлено: 12:51 22-05-2019
Открыть новую тему     Написать ответ в эту тему

На первую страницук этому сообщениюк последнему сообщению

Компьютерный форум Ru.Board » Компьютеры » Прикладное программирование » Регулярные выражения


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru