IvanStepanov
BANNED | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору Цитата: Вот Ваши условия: 1. Найти неопределенного размера куски текста, состоящие из любых символов, т.е. от 0 символов и до бесконечности, но имеющие дубликаты в любом месте всего массива текста. | YuS_2 Я виноват, что задача именно такая? И я удивляюсь почему до сих пор никто из разработчиков программ полнотекстового поиска типа архивариус, search inform, Google desktop search и т.п не озадачился проблемой фильтрации повторяющихся или уже просмотренных кусков текста. Не файлов, а именно текстовых фрагментов внутри файла. Ведь это реально бесит, когда поисковик раз за разом находит тебе тыщи фрагментов, которые ты либо уже читал, либо они просто повторяются. В результате ты тратишь несколько часов, чтобы просмотреть всю выдачу и понимаешь, что это всё не то. И "до бесконечности" - это Вы загнули. Я не видел книги, мануала и т.п. текстового документа, который бы после преобразования в PLAIN TEXT был бы более 10 Мегабайт. Скажем так. Меня бы устроило нахождение похожих фрагментов текста длиной не более 10 тыс символов Цитата: 2. Поиск необходимо вести в массиве текста, который собирается из массива файлов неопределенного количества, т.е. от 1 шт. и до бесконечности. | YuS_2 Не передёргивайте Я думаю вполне можно ограничиться выборкой из не более чем 1000 файлов. Каждый из которых длиной не более 10 Мегабайт (а в среднем около 100 кБайт) Хотя у меня в базе архивариуса 3000 несколько сотен тысяч файлов, но предварительной фильтрацией с помощью поисковых запросов можно вычленить до 1000 файлов. Цитата: Что мы можем получить от этого? Выявление людей нарушающих лицензию? Чисто для себя сканировать вещи, которые за всю жизнь не перечитаешь удаляя из них дубликаты-похожести, чтобы что? Чтобы меньше прочитать на 5%. | AZJIO Поиск плагиата и преследование авторов за копипасту не моя самоцель. Мне (да и любому человеку, занимающемуся сбором инфы по какой-либо тематике) просто важно знать: это новая информация или это то, что я уже видел, читал, скопипастил и т.п. Цитата: Есть и еще одна проблема в контексте поиска "универсального решения", так сказать, идеологического плана. Речь о ценности и целесообразности поиска такого решения. | Jonmey Ребят. Я не ради "чиста научного интереса" хочу решить данную задачу. Мной движут чисто практические и меркантильные интересы. Я не хочу тратить своё личное время (которое, как известно, деньги) на чтение по 150 раз одного и того же фрагмента текста. Когда я что-то ищу в базе данных скачанных документов - часто бывает что нужно, чтобы это была новая, ранее не читанная инфа. Но пока десктопные ищейки не позволяют отфильтровать кусок файла. В результате по сто раз находишь и читаешь одно и то же. Можно отфильтровать только файл целиком. Что не айс. Так как с водой можно выплеснуть и ребёнка. Т.е. выкидывать из выдачи 1000 страничную книгу целиком только потому что в ней встречаются какие-то 3-5 слов исключений как-то глупо. Цитата: И выяснится, что чтение нужного с дублями займет меньше времени (электричества и денег), чем обработка с целью получения огрызков, которые, скорее всего, будут в принципе нечитабельными (отсутствующие куски в текстах будут рассеяны по остальным файлам, которые найти будет практически невозможно). | Jonmey Вы пессимист Ведь файл-исходник никуда не исчезает. И если Вам стало интересно частью чего является данный кусок текста - Вы легко сможете найти исходник. Но я ищу инфу не в прозе Шекспира, а по научным и техническим текстам. Поэтому мне важен сам факт как таковой, а откуда он - дело десятое. К примеру такая строка: "В контроллере бла-бла-бла можно установить максимум 12 модулей ля-ля-ля". Мне этой инфы более чем достаточно. И какой документ является первоисточником этой инфы, а какой - просто копипаста - мне насрать. Мне важен сам факт. И если данный факт повторен в сотнях документов - моя уверенность, что инфа правдива растёт | Всего записей: 136 | Зарегистр. 11-05-2019 | Отправлено: 22:09 23-05-2019 | Исправлено: IvanStepanov, 22:51 23-05-2019 |
|