IvanStepanov
BANNED | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору Цитата: Не "Не", а Да... Вы всех обвиняете в том, что не читают Вашу задачу, а сами вообще игнорируете то, что Вам пишут... Вы упустили главное из того алгоритма: Цитата: Прямое сравнение текстов является крайне ресурсоёмким и алгоритмически сложным. Оно исключает возможность быстрого поиска похожего текста. | | YuS_2 "быстро" понятие относительное. Для меня и неделя - это будет "быстро" Учитывая что я уже около 2-х недель практически вручную вожусь с очисткой контента от дублей, а воз и ныне там: по моим оценкам я даже 20% всей работы не сделал. И потом, приведенный Вами алгоритм работает только на больших текстах (статья целиком и даже книгах), чтобы можно было набрать статистику использования слов. На маленьких фрагментах текста (например сниппеты выдачи гугла) он не применим. Добавлено: Цитата: напрямую использовать не получится, но если изучить perl, адаптировать код под задачу... и | YuS_2 "напрямую кашу из топора сварить не получится. Но если найти молока, крупы, сливочного масла - то вполне себе хорошая каша выйдет" Примерно так звучат Ваши слова. Повторяя - там совсе другая задача. Там вся игра идёт на статистике повторяемости слов. А какая у меня может быть статистика если, к примеру, сниппет содержит 10 слов. Например "В контроллере сименс время цикла составляет 10 мс". Тут вообще нет повторяющихся слов. И как Вы тогда будете применять указанный выше алгоритм определения вероятности плагиата? Добавлено: Цитата: AZJIO Понимаю. Вы читаете меня выборочно. Я более развёрнуто это объяснял выше. Но Вы не читали. Ну что ж. Специально для Вас повторю. Но кратко. Без разжёвывания нюансов и деталей. Затем, чтобы программа десктопного поиска (архивариус 3000 или ещё какая, хотя ничего лучше я не встречал) не находила мне каждый раз одни и те же фрагменты текста, чтобы мне не тратить время на их просмотр. Добавлено: Цитата: Ну если автор не выдающийся то даже при отсутствии повторов вы можете не получить представление об объекте. | AZJIO Представление о теме/объекте у меня есть. Но важны нюансы и полнота. Поэтому и хочется находить то, что я ещё не читал и даже, возможно, не слышал ничего об этом. Все знают, что "дьявол гнездиться в мелочах". Бывает какая-то маленькая незначительная деталь переворачивает всю картину мира. А тратить время по 150 раз рассматривая то, что ты уже читал - не хочется Добавлено: Цитата: Если речь идёт о помойке, где голос ребёнка на одном уровне значимости с голосом гения, то вы тоже не составите картину ведь количество лжи и правды может быть одинаково или с неизвестным перекосом, даже если нет повторов, тексты не имеют значимости. | AZJIO Не надо теоретизировать. От того, что я удалю исключу из поиска все дубли, к примеру, сниппета "В контроллере сименс время цикла составляет 10 мс" моя картина мира никак не пострадает, а времени при этом я сэкономлю уйму: ведь я не буду вновь и вновь на него натыкаться. Поэтому мнение очень даже хорошо составляется. Просто я сейчас фильтрую вручную. А хотелось бы автоматически. Вот и всё. Никакой мистики и фантазий тут нет. | Всего записей: 136 | Зарегистр. 11-05-2019 | Отправлено: 13:50 25-05-2019 | Исправлено: IvanStepanov, 14:19 25-05-2019 |
|