Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Прикладное программирование » Регулярные выражения

Модерирует : ShIvADeSt

 Версия для печати • ПодписатьсяДобавить в закладки
На первую страницук этому сообщениюк последнему сообщению

Открыть новую тему     Написать ответ в эту тему

IvanStepanov

BANNED
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Не "Не", а Да... Вы всех обвиняете в том, что не читают Вашу задачу, а сами вообще игнорируете то, что Вам пишут...
Вы упустили главное из того алгоритма:
 
 

Цитата:
Прямое сравнение текстов является крайне ресурсоёмким и алгоритмически сложным. Оно исключает возможность быстрого поиска похожего текста.  
 

YuS_2
"быстро" понятие относительное.
Для меня и неделя - это будет "быстро"
Учитывая что я уже около 2-х недель практически вручную  вожусь с очисткой контента от дублей, а воз и ныне там: по моим оценкам я даже 20% всей работы не сделал.
 
И потом, приведенный Вами алгоритм работает только на больших текстах (статья целиком и даже книгах), чтобы можно было набрать статистику использования слов. На маленьких фрагментах текста (например сниппеты выдачи гугла) он не применим.
 
Добавлено:

Цитата:
 напрямую использовать не получится, но если изучить perl, адаптировать код под задачу... и

YuS_2
"напрямую кашу из топора сварить не получится. Но если найти молока, крупы, сливочного масла - то вполне себе хорошая каша выйдет"
 
Примерно так звучат Ваши слова.
 
Повторяя - там совсе другая задача. Там вся игра идёт на статистике повторяемости слов.
А какая у меня может быть статистика если, к примеру, сниппет содержит 10 слов.
Например "В контроллере сименс время цикла составляет 10 мс".
Тут вообще нет повторяющихся слов.
И как Вы тогда будете применять указанный выше алгоритм определения вероятности плагиата?
 
Добавлено:

Цитата:
А зачем отфильтровывать?

AZJIO
Понимаю. Вы читаете меня выборочно.
Я более развёрнуто это объяснял выше. Но Вы не читали.
Ну что ж.
Специально для Вас повторю. Но кратко. Без разжёвывания нюансов и деталей.
Затем, чтобы программа десктопного поиска (архивариус 3000 или ещё какая, хотя ничего лучше я не встречал) не находила мне каждый раз одни и те же фрагменты текста, чтобы мне не тратить время на их просмотр.
 
 
Добавлено:

Цитата:
Ну если автор не выдающийся то даже при отсутствии повторов вы можете не получить представление об объекте.  

AZJIO
Представление о теме/объекте у меня есть.
Но важны нюансы и полнота.
 
Поэтому и хочется находить то, что я ещё не читал и даже, возможно, не слышал ничего об этом.
Все знают, что "дьявол гнездиться в мелочах".
Бывает какая-то маленькая незначительная деталь переворачивает всю картину мира.
 
А тратить время по 150 раз рассматривая то, что ты уже читал - не хочется
 
Добавлено:

Цитата:
Если речь идёт о помойке, где голос ребёнка на одном уровне значимости с голосом гения, то вы тоже не составите картину ведь количество лжи и правды может быть одинаково или с неизвестным перекосом, даже если нет повторов, тексты не имеют значимости.

AZJIO
Не надо теоретизировать.
От того, что я удалю исключу из поиска все дубли, к примеру, сниппета "В контроллере сименс время цикла составляет 10 мс" моя картина мира никак не пострадает, а времени при этом я сэкономлю уйму: ведь я не буду вновь и вновь на него натыкаться.
 
Поэтому мнение очень даже хорошо составляется.
Просто я сейчас фильтрую вручную. А хотелось бы автоматически.
Вот и всё. Никакой мистики и фантазий тут нет.

Всего записей: 136 | Зарегистр. 11-05-2019 | Отправлено: 13:50 25-05-2019 | Исправлено: IvanStepanov, 14:19 25-05-2019
Открыть новую тему     Написать ответ в эту тему

На первую страницук этому сообщениюк последнему сообщению

Компьютерный форум Ru.Board » Компьютеры » Прикладное программирование » Регулярные выражения


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru