www_world
Advanced Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору galina2000 Цитата: Неcколько раз возникала задача найти исходные тексты в формате pdf, содержащие определённые математические формулы, по причине ошибок в позднейших публикациях. Условия такие же: имеется ошибочная / сомнительная формула и массив pdf файлов, в котором, возможно, есть что-то похожее. | Вы, как и подавляющее большинство какбыюзеров PDF формата, не понимаете саму идеологию этого формата. И не пытаетесь понимать. ПДФ - формат, априори не предназначенный для обратного преобразования в исходные составляющие, точно так же, как и любая бинарная скомпилированная программа. Это постулат. Чтобы свободно оперировать со всем содержимым (редактировать, проводить поиск и тд и тп) вам нужны исходные файлы - те, из которых создан этот пдф файл. Это тоже постулат. Рассмотрим стандартный пример. Имеем документ Word, в котором присутствует форматированный текст, картинки (jpg, gif), математические/физические/химические формулы (сложнее тех, которые можно записать обычными текстовыми символами строкой, типа а + в = с, 21H + 31H -> 41He + 10n или H2O) Как создается подобный документ? Набирается текст, форматируется. В нужные места вставляются картинки. В специальных программах создаются формулы и вставляются вовсе не как стандартные объекты Word, а как внедренные объекты, то есть инородные для ворда объекты, которые сам он в данном случае интерпретирует как произвольные (бессмысленные для него) векторные объекты. Однако он сохраняет связь с хостовыми программами, в которых созданы эти объекты, если эти программы имеют специальные возможности интеграции с вордом (поэтому двойной клик на них позволяет их редактировать (не в ворде, а в хостовых приложениях, хотя визуально это может выглядеть, как редактирование в ворде). Если интеграция отсутствует или если деинсталлировать приложения, в которых созданы формулы, то внедренныe в документ ворд формулы станут обычным, бессмысленным для ворда набором векторных примитивов, хотя чисто визуально они будут все также выглядеть как формулы. При дальнейшем создании пдф файла из этого документа практически все внедренные векторные объекты (формулы и т.д.) передаются именно как набор векторных примитивов (независимо от того, какими они являлись в ворде), просто потому, что пдф формат ничего не знает о подавляющем большинстве форматов и софтов создающих векторные объекты. То есть, все формулы в пдф формате - это вовсе не формулы, а набор по сути случайных для него палочек, черточек и букв, рассоложенных по конкретным координатам, но которые для человека выглядят, как формулы. Восстановить обратно в исходный интерпретируемый формульный формат их невозможно. Поэтому поиск в пдф по подобным объектам (формулам и т.д.) невозможен. В отличие от векторных объектов типа простого текста, который в пдф является именно текстом, а не набором векторных примитивов. Растровые картинки также сохраняются как есть, поэтому их можно беспотерьно извлечь из пдф файлов (по крайней мере тех, при создании которых не применялись лосси преобразования для уменьшения размера файлов. Поиск по формулам, включая поиск с учетом степени похожести возможен лишь в программах и для форматов, в которых эти формулы физически и идеологически представляют из себя особую лексическую единицу или их совокупность, подобно тому, как это имеет место быть для обычного текста. Существуют специальные методы кодирования, при которых любая формула может быть представлена особой строкой (фактически из векторного представления конвертирована в текстовое) и это позволяет осуществлять различные виды поиска по разным формулам. Это реализовано во многих специальных , научных и проч. базах данных мирового уровня, а также в соответствующих программах. Все они не используют пдф и проч док форматы. Вся инфа в них - в специальных форматах. Хотя литературу по найденным ссылкам конечный пользователь может получить в обычных пдф или печатном виде (но сам поиск по ним не осуществляется). | Всего записей: 626 | Зарегистр. 04-11-2018 | Отправлено: 20:43 20-08-2025 | Исправлено: www_world, 20:50 20-08-2025 |
|