Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Прикладное программирование » Регулярные выражения

Модерирует : ShIvADeSt

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97

Открыть новую тему     Написать ответ в эту тему

leftMIND

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
   Регулярные выражения
Обучающий материал
  • Книги    
  • Шпаргалки: от AZJIO (AutoIt3, PCRE) от Dave Child
  • wikipedia.org - Регулярные выражения на wiki  
  • edlinsoft.blogspot.com - Регулярные выражения в .NET Framework  
  • php.ru - Синтаксис регулярных выражений  
  • php.net - Синтаксис регулярных выражений  
  • regexpstudio.com - Регулярные выражения для Delphi  
    Официальные источники:
  • docs.notepad-plus-plus.org - Официальный источник Notepad++ (англ. яз.)  
  • pcre.org - Официальный справочник движка PCRE (англ. яз.)  

  •    Тестирование регулярных выражений
    Программы
    Онлайн сервисы
  • RegexBuddy - крутая и платная  
  • RegExp - бесплатно, AZJIO, PCRE, AutoIt3  
  • Expresso  
  • The Regex Coach  
  • RegExstar, Github (AutoHotKey, PCRE)
  • Обзор программ от ManHunter    
  • regexr.com здесь в Community множество готовых регулярных выражений  
  • pagecolumn.com - для javascript  
  • pagecolumn.com - для php  
  • cuneytyilmaz.com - для javascript  
  • php-include.ru - на флеш-плеере  
  • regex101.com  
  • easyregexp.ru  
  • debuggex.com - показывает структурно  

  •    Схожие темы
  • javascript регулярные выражения
  • PHP: Регулярные выражения (RegExp, Regular, eregi, preg)
  • Игра - Регулярно выражайтесь!
     
    первое сообщение темы...
    Обсуждение шапки данной темы ведётся в этой теме
    Рекомендации по составлению вопросов в данной теме:

  • Всего записей: 33 | Зарегистр. 07-04-2002 | Отправлено: 23:55 15-10-2002 | Исправлено: AZJIO, 15:18 12-02-2021
    VadKomarov



    Junior Member
    Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
    Romul81

    Цитата:
    Парсить что? HTML? Или буфер обмена копированного со станицы текста?

    Все варианты можно рассмотреть как html так и буфер, но буфер предпочтительней.
     
    вообще регулятки отрабатываются через RegEx в Delphi

    Код:
     
    ...
    Reg := TRegEx.Create(masshab[k],[roIgnoreCase, roMultiLine]);
      if Reg.IsMatch(form1.Memo2.Lines.Text) then
      begin
        M:=Reg.Matches(form1.Memo2.Lines.Text);
    ...
    for j := 1 to m[i].Groups.Count-1 do begin
           form1.Memo2.Lines.Add(M[i].Groups.Item[j].Value);
    ...
     

     
    В общем программулина которая следит за памятью и если находит в ней текст который можно отработать каким нибудь регулярным выражением (которые храняться в файле/ах) то програмулина отрабатывает и помещает обратно в буфер уже преобразованные данные.
     
    к примеру есть какой то текст который можно выбирать  


    01.02.2000 - http//....
    Тут какой то текст и т.д.
    02.02.2001 - http//.....
    Тут какой то текст и т.д
    ....


    и надо отработать такой текст и в память положить такой результат:


    ПРОВЕРКА ПРОВОДИЛАСЬ 01.02.2000 г. по адресу http//.....
    ПРОВЕРКА ПРОВОДИЛАСЬ 01.02.2001 г. по адресу http//.....
    ....


     
    Регулярные выражения и результаты храняться в таком виде:
    ПРИМЕР:Файл с регулярками
     
    Все это в программе можно выбирать.... и пока хватало...
    но возникла необходимость отрабатывать данные с сайта (пока что связано с расписанием) поездов.
     
    и надо регулярку или вариант решения подобной задачи.

    Всего записей: 100 | Зарегистр. 01-05-2005 | Отправлено: 13:22 14-01-2019
    Jonmey

    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    VadKomarov

    Цитата:
    вариант решения подобной задачи

    Вам нужен, как я понял, однокнопочный вариант решения, поскольку в противном случае иной метод для работы с частными страницами не выиграет ни  по времени, ни в количестве телодвижений по сравнению с предложенным мною ранее (одно нажатие пиппы, выделение нужного и копирование в буфер). Далее делайте, что угодно с буфером (поскольку имеете набор строк с делимитерами и без тегового мусора), например, clipboardfusion поддерживает навороченные макросы (C# или VB .NET) работы с буфером (включая, разумеется пресловутые регэкспы) - редактируйте, сохраняйте и т.д. автоматом, написав соответствующий хотелкам макрос).
     
    В общем проблема надуманная, и лично мне представляется, что реальной проблемой в данном случае является задача выдергивания нужных страниц с сайта (в лоб она решается перебором 17 млн. урлов или более). Если же нужны лишь отдельные расписания в ограниченном количестве, то это разговор ни о чем, поскольку задачка копеечная и засорять мозги ею не стоит.
     
    Добавлено:
    Подробнее

    Всего записей: 1365 | Зарегистр. 17-01-2011 | Отправлено: 13:58 14-01-2019 | Исправлено: Jonmey, 16:14 14-01-2019
    Romul81



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    VadKomarov
    Теперь понятно.
    Пробовал с буфером обмена. Если нужны только строки с промежуточными станциями, то регулярка следующая:
     
    Найти:

    Код:
    ^\x20\t{2}((?:[^\r\n\t]+\t){5})\r?\n([^\r\n\t]+)

     
    Заменить:

    Код:
    \1\t\2

    Выставьте флаг "символ ^ находит начало строки" - не знаю, как с этим в Delphi.
     
    Если требуется первый пункт и пункт назначения, то могут быть варианты. Лучше сделать отдельной регуляркой, если есть такая возможноть. Если нет, то надо усложнять эту. Например так:
     
    Найти:

    Код:
    ^\x20\t{2}((?:[^\r\n\t]+\t{3}(?:[^\r\n\t]+\t){2}|(?:[^\r\n\t]*\t){5})$)(?:\r?\n(?=\d)([^\r\n\t]+)|$)

     
    Заменить то же.
    Ещё раз, должны быть вставлены флаги "^$ match at line breaks", хотя можно указать в самой регулярке так:
     

    Код:
    (?m:^\x20\t{2}((?:[^\r\n\t]+\t{3}(?:[^\r\n\t]+\t){2}|(?:[^\r\n\t]*\t){5})$)(?:\r?\n(?=\d)([^\r\n\t]+)|$))

     
    Проверил другую страницу с расписанием - вроде работает.

    Всего записей: 1329 | Зарегистр. 03-03-2008 | Отправлено: 14:12 14-01-2019
    Baltazar500



    Silver Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Есть текст
    Код:
    ('10','10','20')
    <span style="color:#4b4b4b">aaa bbb ccc ddd </span>
    <br />(aaa bbb ccc 123)</nobr>
    и в нём надо найти текст обратный "<.+?>" (lazy/non-greed). Всё пытаюсь инвертировать это выражение, но с negative look-ahead (?!) у меня дела туго идут, либо я вообще не в ту сторону смотрю.

    Всего записей: 2271 | Зарегистр. 19-09-2011 | Отправлено: 06:52 21-01-2019
    Romul81



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Baltazar500

    Цитата:
    и в нём надо найти текст обратный "<.+?>" (lazy/non-greed).

    Вы не совсем ясно объяснили. Тем не менее попробую ответить.
    Просто так, только в рамках регулярных выражений, инвертировать не получится. Нужна программная логика. Она легко реализуется в том же TextPipe, к примеру. Не говоря уже о языках программирования. Парсить HTML регулярками вообще дело неблагодарное. Для этого существуют специализированные инструменты.
    Максимум, что вы можете сделать, основываясь на этом примере, это первым проходом удалить HTML-теги. Следующей регуляркой:

    Код:
    </?[a-z][a-z0-9]*[^<>]*>

    Останется нужный вам контент.

    Всего записей: 1329 | Зарегистр. 03-03-2008 | Отправлено: 12:36 21-01-2019
    Baltazar500



    Silver Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Romul81,
    Цитата:
    Вы не совсем ясно объяснили.
    тут был интерес в возможности инвертирования данной регулярки для поиска значений обратной ей, дабы grep'ом через -oP выцепить всё, что мне было нужно. Ну ежели так нельзя, значит буду sed'ом по вашей регулярке (спасибо, лишний раз голову ломать не буду).
    Цитата:
    Парсить HTML регулярками вообще дело неблагодарное.
    Да я в курсе Но тот сайт статичен и изменений на нём не предвидится в принципе, так что всё ОК.
    Цитата:
    Для этого существуют специализированные инструменты.
    Порывался разобраться с этим делом и наставил кучу tool'ов, но а итоге понял, что на разборки с ними уйдёт прорва времени для задачи, которая всплывает раз в 2-3 месяца.

    Всего записей: 2271 | Зарегистр. 19-09-2011 | Отправлено: 21:09 21-01-2019
    Nikolai2004



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    в документации текстового редактора EmEditor написано, что он использует Boost library Regex++.
    хочу под него настроить RegexBuddy 4.5, но в нем нет такой разновидности (flavor) регулярных выражений.
    я вот нашёл целую таблицу как Boost отличается от std::regex, JavaScript и Perl. кто-нибудь может помочь?
     
    Добавлено:
    update: блин, заглянул на оф.сайт, уже есть более новая RegexBuddy 4.9, где добавлена разновидность Boost. вопрос снимается

    Всего записей: 1523 | Зарегистр. 07-01-2004 | Отправлено: 22:06 22-01-2019
    Romul81



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Nikolai2004
     
    Дык это, вопрос не так прост на первый взгляд... Boost - это библиотека, написанная на языке С++.
    В том же RegexBuddy для этой библиотеки имеется 7(!) диалектов. Какой конкретно используется в EmEditor для меня вопрос.
     
    Но это ещё не всё. С версии 15.7 в EmEditor появилась поддержка альтернативного движка - Onigmo, который мне лично кажется более симпатичным. Его синтаксис можно найти как в справке самого EmEditor, так и в репозитории проекта.
    В RegexBuddy вы можете составлять совместимые регулярки, выбрав синтаксис ...Ruby
    Да, этот язык программирования использует библиотеку Onigmo в качестве движка регулярных выражений.
    А вообще, это одно семейство - Perl/PCRE/Boost/Onigmo и многие другие, которые повторяют синтаксис Perl с некоторыми (не)значительными отличиями. Вряд ли вам попадётся ситуация, когда бы потребовалась регулярка, в которой эти отличия имели бы значение. Это, надо сказать, достаточно продвинутый уровень, где важны подобные нюансы. Очень многие программисты даже не тратят время на освоение всех тонкостей и премудростей регэкспов. Сложную логику проще реализовать программно.
     
    Возвращаясь к движкам. Самым главным недостатком всех перло-подобных диалектов, на мой взгляд является отсутствие такой вещи как Variable-length look-behind. В том числе и поэтому EmEditor-ом я не пользуюсь. EditPad с его собственным движком выгодно отличается в этом плане. Хотя, ничего идеального нет, конечно...

    Всего записей: 1329 | Зарегистр. 03-03-2008 | Отправлено: 00:24 23-01-2019
    Nikolai2004



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Romul81

    Цитата:
    Variable-length look-behind

    из описания не понял что это, а интересно.
    можете дать краткий пример регулярки и того, что она делает с заданным текстом?

    Всего записей: 1523 | Зарегистр. 07-01-2004 | Отправлено: 22:03 23-01-2019
    Romul81



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Nikolai2004

    Цитата:
    можете дать краткий пример регулярки и того, что она делает с заданным текстом?

    Регулярное выражение:

    Код:
    (?<=\b\w{1,2})\d

    Текст:

    Цитата:
    a1
    ab1
    abc1

    Эта регулярка находит текст a1, ab1 но не abc1 в программах JGSoft, новом JavaScript из V8 и .NET.
    Большинство перло-подобных диалектов так сделать не дадут. Для них в этом регулярном выражении ошибка -  variable repetition inside lookbehind - т.е. заглядывание назад переменной длины. А это очень нужный функционал для интенсивной обработки текста в редакторе, в частности в контексте создания словарей.
    Понятное дело, что пример простейший. Но отражает сам принцип. В EditPad, к примеру, вы можете указать сколь угодно сложное выражение в этом самом блоке lookbehind, в том числе вложенные конструкции в со своими lookbehind или lookahead, в т.ч. переменной длины.

    Всего записей: 1329 | Зарегистр. 03-03-2008 | Отправлено: 00:44 24-01-2019
    Romul81



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Ещё практический пример. Проверка множественного экранирования обратным слешем.

    Код:
    (?<=(?<!\\)|(?<!\\)(?:[\\]{2})+)

     
    Использую, к примеру, в регулярке, которая удаляет все DSL-теги, причём учитывая это самое множественное экранирование:

    Код:
    (?<=(?<!\\)|(?<!\\)(?:[\\]{2})+)(?:\[(?:(?:\/?(?:[\*'bcimpstu]|com|ex|ref|trn|!trs|su[bp]|url))|(?:m\d|c\x20[a-z]{3,20}|lang(?:\x20(?:id=\d{1,5}|name="[A-Za-z]{5,22}"))|ref(?:\x20dict="[^\r\n"]+")|br)|\/lang)\]|[\\#@~^]|{{.*?}}|<<|>>)

    Такая регулярка не работает в перло-подобных диалектах. Более того, мне не известен способ достичь подобного функционала в рамках синтаксиса Perl/PCRE/etc. На данный момент работает только в JGSoft, .NET и JavaScript V8 (Chrome, Node.js).

    Всего записей: 1329 | Зарегистр. 03-03-2008 | Отправлено: 18:48 24-01-2019
    Nikolai2004



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    мне тяжело понять даже концепцию lookbehind, куда уж там до variable-length внутри неё
    но ладно, может когда-нибудь доросту. пока EmEditor с его boost library меня всем устраивает.
    тем более, что в EditPad нет очень полезной функции работы с CSV-таблицами

    Всего записей: 1523 | Зарегистр. 07-01-2004 | Отправлено: 18:58 26-01-2019
    AZJIO



    Silver Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Romul81
    (?<=...) просмотр назад можно конечно организовать без использования этим способом, а просто сделать обычную регулярку с группой, но пошаговый поиск с возвращением начало поиска назад на ширину этой группы и с контролированием позиции найденного, если та же позиция то не добавлять искомое. Ну это конечно программно. А при обычном поиске просто не используешь группу добавляя (?:...) или \K, но опять же что мы делаем подсчёт, проверку вхождения, валидность? Просто те кто не добавили возможность просмотра назад переменной длины возможно предвидели проблему как это будет действовать в разных условиях, когда искомое и просмотренное назад одинаковое, когда просмотренное назад можно по всякому интерпретировать, это не тоже самое что искать общую регулярку, а именно найти искомую и проверить что перед ней стоят символы. Иначе пришлось бы много раз проверять предыдущую часть текста на вхождение регулярки конец которой совпадал бы с началом найденного. То есть это сделать можно но не в универсально быстрой концепции просмотра назад.

    Всего записей: 4536 | Зарегистр. 03-05-2006 | Отправлено: 06:24 30-01-2019 | Исправлено: AZJIO, 06:40 30-01-2019
    Romul81



    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    AZJIO (post)

    Цитата:
    Ну это конечно программно.

    В том то и дело. Раньше в JS так и делал - по глобальному exec и потом отдельной проверкой первой группы на чётность. С поддержкой variable-length такая необходимость отпадает. Хотя, вопрос что быстрее остаётся открытым.

    Цитата:
    А при обычном поиске просто не используешь группу добавляя (?:...) или \K

    Группу (?:...) использую всегда по возможности. Но \K не использую - эта фича поддерживается далеко не везде. Конкретно в тех диалектах, с которыми я работаю, её нет.

    Цитата:
    То есть это сделать можно но не в универсально быстрой концепции просмотра назад.

    Да, здесь основная проблема - быстродействие. Я тоже предполагаю, что внедрить поддержку variable-length технически не проблема. Проблема возникает с плохо-составленными регулярками. Особенно если в (?<=...) присутствует точка в многострочном режиме. Там будет просто сумасшедшее кол-во бактраков. Всё повиснет намертво на большом тексте. Эту фичу надо пользовать с умом. Например, я перед тем как смотреть назад, сначала смотрю вперёд:

    Код:
    (?=[abc])(?<=...)[abc]

    На практике, та регулярка "strip DSL tags" будет выглядеть так:

    Код:
    (?=[<>@[\\^{~])(?<=(?<!\\)|(?<!\\)(?:\\{2})+)(?:\[(?:(?:\/?(?:[\*'bcimpstu]|com|ex|lang|ref|trn1?|!trs|su[bp]|url))|(?:m\d|c\x20[a-z]{3,20}|lang\x20(?:id=\d{1,5}|name="[A-Za-z]{5,22}")|ref(?:\x20dict="[^\r\n"]+")|br))\]|[\\@~^]|{{2}[\s\S]*?}{2}|<{2}|>{2})

    Всего записей: 1329 | Зарегистр. 03-03-2008 | Отправлено: 11:28 30-01-2019
    gerxer

    Full Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Как сделать чтобы несколько условий выполнялось в выражении, например выделить все строки начинающиеся на C ^c, и которые не содержат запятых ^[^\n,]+$?

    Всего записей: 565 | Зарегистр. 19-06-2014 | Отправлено: 20:19 02-02-2019
    YuS_2



    Silver Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    gerxer

    Цитата:
     и  

    Это условие предполагает такой шаблон:

    Код:
    ^c[^\n,]+$

     
    А вот на счет:

    Цитата:
    выделить все строки

    - будет зависеть от инструмента, где используются регэкспы...

    Всего записей: 3218 | Зарегистр. 03-02-2009 | Отправлено: 21:12 02-02-2019
    gerxer

    Full Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    YuS_2
    Странно почему у меня сразу не получалось когда пробовал так ^c[^\n,]+$.  
    А если не знак, а слово нужно отфильтровать в c[^\n...]+$, то тогда как?

    Всего записей: 565 | Зарегистр. 19-06-2014 | Отправлено: 23:43 02-02-2019
    Jonmey

    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    gerxer

    Цитата:
    А если не знак, а слово нужно отфильтровать в c[^\n...]+$, то тогда как?  

    Примеры
    (?(?!(^с[^\n\r]*слово[^\n\r]*$))(^.*$))
    (?(?!(^с.*слово.*$))(^.*$))
    (?(?=(^с.*слово.*$))|(^.*$))

    Всего записей: 1365 | Зарегистр. 17-01-2011 | Отправлено: 05:04 03-02-2019
    gerxer

    Full Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    Jonmey
    Что-то не срабатывает.

    Всего записей: 565 | Зарегистр. 19-06-2014 | Отправлено: 14:08 03-02-2019
    Jonmey

    Advanced Member
    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
    gerxer
    Зависит от используемой программы.
    Программа должна поддерживать lookbehind/lookaround. И кроме этого, зависит как программа разбирает перевод каретки.
    Те примеры для powergrep, которая различает переводы каретки трех типов PC. NIX, MAC потому что отдельно разбирает символы 0D и 0A. В приведенном вами примере движек этого, похоже, не различает, поэтому указан только \n. Если ваша программа отличается в понимании синтаксиса только этим, то уберите из выражений выше сочетания \r
    Но сначала читайте справку к вашей программе насчет поддержки lookbehind/lookaround и его синтаксиса в ней.

    Всего записей: 1365 | Зарегистр. 17-01-2011 | Отправлено: 16:14 03-02-2019 | Исправлено: Jonmey, 16:29 03-02-2019
    Открыть новую тему     Написать ответ в эту тему

    Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97

    Компьютерный форум Ru.Board » Компьютеры » Прикладное программирование » Регулярные выражения


    Реклама на форуме Ru.Board.

    Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
    Modified by Ru.B0ard
    © Ru.B0ard 2000-2024

    BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

    Рейтинг.ru