Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Прикладное программирование » Регулярные выражения

Модерирует : ShIvADeSt

 Версия для печати • ПодписатьсяДобавить в закладки
На первую страницук этому сообщениюк последнему сообщению

Открыть новую тему     Написать ответ в эту тему

IvanStepanov

BANNED
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Вот Ваши условия:
1. Найти неопределенного размера куски текста, состоящие из любых символов, т.е. от 0 символов и до бесконечности, но имеющие дубликаты в любом месте всего массива текста.  

 
YuS_2
Я виноват, что задача именно такая?
И я удивляюсь почему до сих пор никто из разработчиков программ полнотекстового поиска типа архивариус, search inform, Google desktop search и т.п не озадачился проблемой фильтрации повторяющихся или уже просмотренных кусков текста. Не файлов, а именно текстовых фрагментов внутри файла.
 
Ведь это реально бесит, когда поисковик раз за разом находит тебе тыщи фрагментов, которые ты либо уже читал, либо они просто повторяются. В результате ты тратишь несколько часов, чтобы просмотреть всю выдачу и понимаешь, что это всё не то.
 
И "до бесконечности" - это Вы загнули. Я не видел книги, мануала и т.п. текстового документа, который бы после преобразования в PLAIN TEXT был бы более 10 Мегабайт.
Скажем так. Меня бы устроило нахождение похожих фрагментов текста длиной не более 10 тыс символов
 

Цитата:
2. Поиск необходимо вести в массиве текста, который собирается из массива файлов неопределенного количества, т.е. от 1 шт. и до бесконечности.

YuS_2
Не передёргивайте
Я думаю вполне можно ограничиться выборкой из не более чем 1000 файлов. Каждый из которых длиной не более 10 Мегабайт (а в среднем около 100 кБайт)
Хотя у меня в базе архивариуса 3000 несколько сотен тысяч файлов, но предварительной фильтрацией с помощью поисковых запросов можно вычленить до 1000 файлов.
 

Цитата:
Что мы можем получить от этого? Выявление людей нарушающих лицензию? Чисто для себя сканировать вещи, которые за всю жизнь не перечитаешь удаляя из них дубликаты-похожести, чтобы что? Чтобы меньше прочитать на 5%.

AZJIO
Поиск плагиата и преследование авторов за копипасту не моя самоцель.
 
Мне (да и любому человеку, занимающемуся сбором инфы по какой-либо тематике) просто важно знать: это новая информация или это то, что я уже видел, читал, скопипастил и т.п.
 

Цитата:
Есть и еще одна проблема в контексте поиска "универсального решения", так сказать, идеологического плана. Речь о ценности и целесообразности поиска такого решения.

Jonmey
Ребят.  
Я не ради "чиста научного интереса" хочу решить данную задачу.
 
Мной движут чисто практические и меркантильные интересы.
 
Я не хочу тратить своё личное время (которое, как известно, деньги) на чтение по 150 раз одного и того же фрагмента текста.  
 
 
Когда я что-то ищу в базе данных скачанных документов - часто бывает что нужно, чтобы это была новая, ранее не читанная инфа.  
 
 
Но пока десктопные ищейки не позволяют отфильтровать кусок файла. В результате по сто раз находишь и читаешь одно и то же.
 
Можно отфильтровать только файл целиком.
Что не айс.  
Так как с водой можно выплеснуть и ребёнка.  
 
Т.е. выкидывать из выдачи 1000 страничную книгу целиком только потому что в ней встречаются какие-то 3-5 слов исключений как-то глупо.
 
 

Цитата:
И выяснится, что чтение нужного с дублями займет меньше времени (электричества и денег), чем обработка с целью получения огрызков, которые, скорее всего, будут в принципе нечитабельными (отсутствующие куски в текстах будут рассеяны по остальным файлам, которые найти будет практически невозможно).

Jonmey
Вы пессимист
Ведь файл-исходник никуда не исчезает.
И если Вам стало интересно частью чего является данный кусок текста - Вы легко сможете найти исходник.
 
Но я ищу инфу не в прозе Шекспира, а по научным и техническим текстам.
 
Поэтому мне важен сам факт как таковой, а откуда он - дело десятое.
 
К примеру такая строка: "В контроллере бла-бла-бла можно установить максимум 12 модулей ля-ля-ля".
 
Мне этой инфы более чем достаточно.
И какой документ является первоисточником этой инфы, а какой - просто копипаста - мне насрать.
 
Мне важен сам факт.
 
И если данный факт повторен в сотнях документов - моя уверенность, что инфа правдива растёт

Всего записей: 136 | Зарегистр. 11-05-2019 | Отправлено: 22:09 23-05-2019 | Исправлено: IvanStepanov, 22:51 23-05-2019
Открыть новую тему     Написать ответ в эту тему

На первую страницук этому сообщениюк последнему сообщению

Компьютерный форум Ru.Board » Компьютеры » Прикладное программирование » Регулярные выражения


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru