Регулярные выражения - [36] :: Прикладное программирование

IvanStepanov

Цитата:

А если я буду использовать не (.*), а что-то более определенное? Типа того, что Вы мне написали для поиска фрагментов, содержашего не менее 5-ти слов из заданного списка из 10 слов? Задача имеет же решение?

Т.е. раз реализовать нужную мне функцию, делающую всё в полном автомате трудно, то мне хотя бы в полуавтомате сделать. Т.е. что-то вручную набивать (REGEX-ы предположительно повторяющиеся фрагментов), а что-то выполнять автоматически

Да, если будут хоть какие-то конкретности, от которых можно отталкиваться, то задача значительно упрощается.
Скажем, если добавить условия в эту Вашу недетерминированную задачу, что фрагменты должны быть не менее 10 символов, сравнение вестись будет с учетом пробельных символов (пока для наглядности так, но, в принципе, их конечно можно и удалять и сравнивать без них) и регистрозависимость присутствует, тогда можно состряпать что-то вроде:
powershell

Код:

$regexp = '(?sm-i)(.{10,})(?=.*?\1)'
$file = 'test.txt'
$arr = gc $file -raw|sls -patt $regexp -all
$a = ($arr.matches|? length -ge 10).value
write-output "Всего совпадений: $($a.length)"
write-output '=========='
foreach ($item in $a){
    write-output "Длина фрагмента: $($item.length)"
    write-output '---'
    write-output $item
    write-output '=========='
}

Пробовать лучше на небольшом объеме текста, постепенно увеличивая этот объем до реального, при этом выполняя замеры времени.
Но надо учитывать, что найденный фрагмент, имеющий повторы, захватывается только первый и если внутри этого фрагмента существуют ещё повторы, то уже во втором, т.е. повторном фрагменте, новые фрагменты будут также найдены. Пример:

Код:

abc 1234567890 1234567890 vbc 1234567890 1234567890 fgh

дадут результат:

Код:

Всего совпадений: 2
==========
Длина фрагмента: 23
---
1234567890 1234567890
==========
Длина фрагмента: 11
---
1234567890
==========

Модерирует : ShIvADeSt
Версия для печати • Подписаться • Добавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91