Romul81
Advanced Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору IvanStepanov Вам все присутствующие очень дельные вещи говорят. Вот на самом деле. В очень доступном, и "разжёванном" виде. Я многое из этого хотел сказать, но мне было лень. А вот люди не поленились, и я, со своей стороны, могу подписаться практически под всем, что здесь было сказано на эту тему. Видно, что присутствующие понимают о чём пишут и имеют представление о многих (далеко не всех) сложностях и подводных камнях, связанных с разработкой решения для вашей задачи. Это не надуманность, не пессимизм, не сгущение красок. Это реальность. От вашего же подхода, буквально веет упрощением, и, извините, примитивизмом. Почему нет таких программ? Не потому что невозможно, а потому что сложно, действительно сложно реализовать. При том, эта программа будет "заточена" на очень узкий спектр задач, фактически на одну задачу. Но в таком виде она будет бесполезна для широкого круга пользователей - задачи у каждого свои. Значит, в программе нужно делать различные настройки, позволяющие, к примеру, менять алгоритмы сопоставления, анализировать отрезки разной длины и ещё много чего, что имеет смысл кастомизировать. Но такая кастомизация ещё более усложнит разработку. А что в итоге? Кому будет нужен этот софт? Кто его купит (извините за прагматизм и меркантильность - но это реальность)? Если, конечно, немного пофантазировать, то задачка-то вполне может иметь решение при применении новомодных нейро-сетей, машинного обучения и т.п. Но... мы-то тут при чём? Обратитесь в соответствующую контору, поставьте соответствующее ТЗ, оплатите счёт (разработка - это время, а время, как вы сами сказали - это деньги) и пользуйтесь в своё удовольствие! Только не забудьте потом, пожалуйста, нам здесь сообщить, во сколько обойдётся всё это счастье - я например, уже сгораю от любопытства . Ну и ещё, чисто по техническим моментам. Вам, для вашего процесса, по сути не надо ничего удалять (т.к. это лишь всё усложнит). Вам надо подсвечивать дублирующиеся блоки определённым уникальным цветом, чтоб вы при просмотре уже визуально могли сразу отличить повтор это, либо уникальный контент. Сама программа, как я её вижу, это должно быть что-то вроде катологизатора текстов (типа Calibre). Она должна вести базу повторяющихся фрагментов, запоминать их, естественно. Сравнивать с ней новые добавленные файлы (а это уже легче оптимизировать). При нахождении сразу подсвечивать определённым, присущим только этой разновидности повтора цветом. Естественно должна иметься возможность вывести общее кол-во повторов по каждому блоку (с быстрым переходом к нему для каждого файла, его содержащего). Это всего-лишь драфт, набросок. Всё может быть немного не так, или совсем не так - вам виднее. Вы представьте себе идеальную ситуацию, в которой вам было бы наиболее комфортно работать. Опишите её в тех. задании. С вашей точки зрения, как пользователя. Не надо думать о технических деталях, учитывая что вы о них имеете достаточно смутное представление. Получившееся ТЗ обсудите уже со специалистом-программистом. Крайне желательно, чтоб у него уже был опыт разработки решений для анализа текстовых данных (ЯП здесь дело даже не третье). В процессе обсуждения, он, с позиции своего опыта, вам уже что-то посоветует, порекомендует изменить тем или иным образом, возможно предложит более лучшее и оригинальное решение (с точки зрения пользователя), о котором вы даже не догадывались. После согласования ТЗ и соотв. стоимости услуги, программист(ы) создадут для вас этот программный продукт. Только так, а не иначе. |