Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Интернет » Web-программирование » Написание скрипта для каталогизации e-book'ов в Варезнике

Модерирует : Cheery

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10

Открыть новую тему     Написать ответ в эту тему

LevT



Platinum Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
За первый общепригодный результат благодарим vladgangan
 

IsbnExtractor v1.2 Executable:
http://dl.downloadhosting.com/download/vladgangan/IsbnExtractor_v1.2.exe
 
IsbnExtractor v1.2 Source:
http://dl.downloadhosting.com/download/vladgangan/IsbnExtractor_Source_v1.2.exe

 
Утилита написана под .NET
 
Вытаскивает номера ISBN из локальной коллекции ебуков, располагает их в XML-дескрипторах папок (для удобства перемещения папок с книгами между носителями).
 
 
Процесс рождения утилиты описан на 1-6 страницах темы, там же - более подробная документация.  
 
Теперь, наконец, можно начинать Web-программирование
 
 
А пока срочно ищется человек, который откомпилит под винды один из серверных скриптов для проверки варез-релизов. Или иным образом перенесет их логику на винды, с целью не только выявления битых релизов, но и вытаскивания всего, что вытаскивается, во временный каталог.
 
Вторая полезная утилита:

Цитата:
Написал скрипт AutoIT3 для извлечения ISBN из коллекции DJVU книг. Необходим FR и  Djvudecode. В скрипте также выполняется проверка ISBN по 10-ой контрольной цифре.  
http://www.mytempdir.com/2026301  
(c)U235
 
Alfa Ebooks Manager-0.4.5.0 2008-01-17
Готовая утилита для работы с PDF с множеством встроенных функций, таких как распаковка архивов, поиск информации в Интернете и экспорт в локальную базу данных Microsoft Access (JET Engine .mdb)
 
 
 
Первоначальная шапка темы





Исправил название. — Svarga.

Всего записей: 18151 | Зарегистр. 14-10-2001 | Отправлено: 23:46 28-06-2004 | Исправлено: 174bpm, 14:38 24-02-2008
hyphen

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
vladgangan
 

Цитата:
Вариант ц компонентом мне кажется вообще идеальным

надеюсь, что он будет востребован
 

Цитата:
Ну так займись им  

было бы время, его и так нет. Я не хочу браться, а потом исчезнуть. Все это в целом уже отняло у тебя больше чем неделю, разве нет? И, я думаю, твое нежелание, менять текст тоже связано с этим.
 

Цитата:
то получается, что он изменит мои книги, чего особо не хотелось бы . Тут надо подумать.  

Он ничего не изменит, если ты сам не запишешь изменения. Программа-то, чья?
 

Цитата:
нужен совет Raven377, который может определить нужна ли ему вообще эта информация или нет  

Может быть, что она ему она не нужна, хотя это неизвестно. Его пока нет. Но что точно, что она ему никак не помешает, а другим польза будет.

Всего записей: 101 | Зарегистр. 22-04-2002 | Отправлено: 15:10 31-03-2005
vladgangan



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
hyphen

Цитата:
надеюсь, что он будет востребован  

Конечно будет. Проблема только в том, что бесплатного компонента нет .
 

Цитата:
Все это в целом уже отняло у тебя больше чем неделю, разве нет?

Реально работы там было на 2-3 полных дня девелопмента, но вот найти времени для этих самых 2-3 дней была задача 1-2 месяцев . Парадоксально, смешно и обидно одновременно. У меня тоже нет времени на все это дело, но я пытаюсь его найти по крупицам. Ты мог бы начать свою часть и доделывать по ходу дела. Но я не давлю: надо будет - сделает кто-то.
 

Цитата:
твое нежелание, менять текст  

Хм, какой текст? Если ты про вывод ошибок, то это не связано со временем. Там работы на 10-15 минут реально. Просто пока большинство участников не определится, что это действительно надо им, то я не хочу менять. А то мало ли - прийдет LevT и скажет, что мы прогнали и надо менять обратно как было .
 

Цитата:
Он ничего не изменит, если ты сам не запишешь изменения


Цитата:
Снимает restrictions  с pdf файла. Я уже проверил. Плохого то, что лепит доп строчку на каждую страницу

По-моему эти 2 фразы противоречат друг другу, а? Разъясни, плз. Мне показалось, что это значит, что pdfkit  обрабатывает файл, сниамет защиту и сохраняет его вместе с дополнительными строчками на каждой странице.

Всего записей: 761 | Зарегистр. 12-09-2002 | Отправлено: 15:40 31-03-2005
hyphen

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
vladgangan
 
pdfkit - не программа, а библиотека (dll) компонетов с примерами как ее использовать.
Можно открыть pdf документ, можно снять restrictions, можно редактировать, можно после этого записать, с другим именем, во временный файл и тд.. Но записывать он будет с добавками. Это ограничение фри версии. Все остальное полностью функционально. Версию фри или evaluation само собой дают беспплатно.  
Если уж так надо записать его для обработки, то можно записать в кэш в memory mapped file, будет быстрее чем на диск.

Всего записей: 101 | Зарегистр. 22-04-2002 | Отправлено: 16:25 31-03-2005 | Исправлено: hyphen, 17:44 31-03-2005
vladgangan



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
hyphen

Цитата:
Но записывать он будет с добавками.

Т.е. ты предлагаешь запускать прогу с этим компонентом, давая как инпут список файлов, которым надо снять защиту (предположим это будет кумулятивный набор путей PDF/CHM из всех bookshelf.xml, где указаны ошибки), он снимает защиту, сохраняет где-нибудь их временно, парсит IsbnExtractor-ом, и добавляет нехватающую инфу в соответствующий уже существующий bookshelf.xml? Я правильно понял идею? Если да, то реализовать это - раз плюнуть. Ну, с предположением что компонент написан прямыми руками и не имеет невидимых граблей .

Всего записей: 761 | Зарегистр. 12-09-2002 | Отправлено: 17:38 31-03-2005
hyphen

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
vladgangan
посмотри пост выше я его исправил, но уже видимо после твоего ответа
 
Насчет грабель, ты меня удивляешь, а где ты их не видел?
Это коммерческий компонент(люди заботятся о нем), чем он может быть хуже любого другого и почему тот без граблей? Пока не пощупаешь правду не узнаешь. Сним нужно поработать.
 
Предлагать можно по разному, лучше сразу делать на базе этого компонента, зачем многоступенчатая  обработка. Открываешь очередной файл, проверил атрибуты доступа, если все хорошо, извлек текст, поискал, записал в xml базу. Если content copying запрещен снимашь ограничения и все тоже самое.

Всего записей: 101 | Зарегистр. 22-04-2002 | Отправлено: 18:12 31-03-2005
vladgangan



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
hyphen

Цитата:
посмотри пост выше я его исправил, но уже видимо после твоего ответа  

Точно после моего ответа. Идея хорошая - надо будет для начал поковырять pdfkit перед тем, как делать суждения.
 

Цитата:
Насчет грабель, ты меня удивляешь, а где ты их не видел?  

Ну, это понятно, грабли есть везде . Просто с катастрофической нехваткой времени, хочется чтобы их было поменьше .
 

Цитата:
Предлагать можно по разному, лучше сразу делать на базе этого компонента, зачем многоступенчатая  обработка.

Согласен. В общем, я его для начала поковыряю. Если все пучком, то включим в мой компонент. Если нет, то будем думать.

Всего записей: 761 | Зарегистр. 12-09-2002 | Отправлено: 18:33 31-03-2005
LevT



Platinum Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Ага, скачал и попробовал. Навскидку у меня ругается так:
 
 

Цитата:
J:\@@@@@2OV\@@@Newest3\IsbnExtractor>driver "J:\@@@@@2OV\@@@Newest3\eBooks"
 
Unhandled Exception: System.IO.PathTooLongException: The path is too long after
being fully qualified.  Make sure path is less than 260 characters.

 
 
Там действительно корень охренительной иерархии, и наверняка есть пути длинннее 260 символов. но книжки-то там лежат и каши не просят.
 
То есть нужно как минимум включить эти сбои в Errorlog. Пока что он даже не создается.
 
 
Добавлено:
 
Подключил каталог через subst   Вроде, запустилось. 3.15 МСК  иду спать
 
 
Добавлено:
 
Один хрен время не смогу засечь. Да и все равно первый блин комом: уже началась ругань "Low disk space"
 
 
 
Добавлено:
 
Можно предусмотреть, чтобы она вот в таких случаях  
 

Цитата:
Unhandled Exception: System.IO.IOException: There is not enough space on the disk.

 
останавливалась? А потом - чтобы возобновляла работу с этой точки?
 
 
(Update: тут нужен не переход к интерактивному ожиданию продолжить/отменить, а завершение работы в зависимости от логического условия или нажатия клавиши. Останавливаясь, надо сохранить "позицию курсора". После запуска, по умолчанию возобновлять процесс, а заново все перестраивать - только по ключу /rebuild  )

Всего записей: 18151 | Зарегистр. 14-10-2001 | Отправлено: 03:12 02-04-2005 | Исправлено: LevT, 13:49 02-04-2005
LevT



Platinum Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Еще одно пожелание - распаковка по ходу дела варезных релизов, хранящихся в оригинальном формате.
 
 
Добавлено:
 
Вероятно, для распаковки лучше сделать отдельную утилиту - прямо из кода driver.exe. Кстати, давно хотел раздобыть вменяемую неразрушающую утилиту, которая распаковывала бы дважды заархивированные релизы и стирала бы лишние архивы - но только строго лишние. Ошибки должны быть записаны в лог, а проблемные релизы оставлены как есть.
 
(Главная трудность тут - различение проблемных и нормальных релизов, чтобы не стиралось автоматом то, что требуется оценить вручную - неполные и битые релизы. Честно говоря я не могу придумать удовлетворительного алгоритма распозания всех распространенных практик варез-групп, и четкого отсечения нераспознанного.)
 
 
И пускай driver.exe, как и сейчас, полагается на то, что все файлы распакованы.

Всего записей: 18151 | Зарегистр. 14-10-2001 | Отправлено: 09:42 02-04-2005 | Исправлено: LevT, 15:18 02-04-2005
vladgangan



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
LevT

Цитата:
Там действительно корень охренительной иерархии, и наверняка есть пути длинннее 260 символов.

Хм, а каким образом ты смог создать путь более 260 символов? У меня стоит Windows Server 2003, который откровенно послал меня на 3 веселых буквы, когда я ради теста решил создать подобную иерархию. По-моему это лимитации винды в этом плане. Даже не знаю, что ответить тебе на этот вопрос .
 

Цитата:
Unhandled Exception: System.IO.IOException: There is not enough space on the disk.

Попробуй новый билд (http://dl.downloadhosting.com/download/vladgangan/IsbnExtractor.exe). Я отошел от XPDF в пользу собственного компонента, да и вообще там много всяких доделок (в частности решающих чрезмерное потребление памяти). Спасибо hyphen за советы и отзывы!
 

Цитата:
Еще одно пожелание - распаковка по ходу дела варезных релизов, хранящихся в оригинальном формате.

Полагаю, что на это у меня точно времени не хватит. Очень много дел на работе.

Всего записей: 761 | Зарегистр. 12-09-2002 | Отправлено: 01:01 03-04-2005
hyphen

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
vladgangan
 
Оперативно.
Проверил тот же каталог, работала в 2раза быстрее, вместо 30 мин. - 17мин.
Все книги, которые были "сбойными", на этот раз обработаны. Тег error исчез вообще, хотя он нужен, там где он нужен.
 
Недостатки:
1  продолжает писать bookshelf в каталоги, где нет книг.
2  в корневом каталоге, где книги есть, bookshelf пустой, в library же, все ok.
3  алгоритм поиска по тексту не находит всех ISBN, хотя они там есть.
    примеры:  
    ISBN: 0-672-32233-1
    ISBN 5-7502-0154-6
    ISBN: 0-7821-4203-6
4. Самое странное (все книги не проверял, но в одной такое встретил):
    найдены все 5 isbn по тексту, но в bookshelf они записаны не в том порядке в котором встречаются в тексте, т.е первый почему-то стал третьим. Это not good.

Всего записей: 101 | Зарегистр. 22-04-2002 | Отправлено: 07:28 03-04-2005
LevT



Platinum Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

vladgangan
 

Цитата:
 Хм, а каким образом ты смог создать путь более 260 символов?  

 
Не знаю. Может, там нет таких путей, а исключение выбрасывается из-за спецсимволов в пути, собаки той же?
 
 

Цитата:
Полагаю, что на это у меня точно времени не хватит. Очень много дел на работе.

 
Ну да, это собственно и не твое дело: это общеварезная задача, которую надо решить раз и навсегда.  Но тут не хватает чисто алгоритмической идеи: реализация-то тривиальна. После того, как я своии батниками побил несколько важных неполных релизов - я перестал этим заниматься "на коленке".
 

Всего записей: 18151 | Зарегистр. 14-10-2001 | Отправлено: 09:52 03-04-2005
vladgangan



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
hyphen

Цитата:
Все книги, которые были "сбойными", на этот раз обработаны.

Это потому что теперь если у книги есть security settings, то они снимаются - благодаря твоей идее с PDFKIT.
 

Цитата:
Тег error исчез вообще, хотя он нужен, там где он нужен.

Откуда он исчез? Если все файлы оказались нормальными, то он и не появится.
 

Цитата:
1  продолжает писать bookshelf в каталоги, где нет книг.  

Упс, про это я забыл .
 

Цитата:
2  в корневом каталоге, где книги есть, bookshelf пустой, в library же, все ok.

Странно, только что разрулил у себя на тестовом каталоге и все сработало нормально. Вот моя иерархия (Книги есть во всех - включая корень). Напиши свою - тогда мне легче будет воссоздать и проверить.
 
C:\EbooksTests
C:\EbooksTests\1's
C:\EbooksTests\2
C:\EbooksTests\3
C:\EbooksTests\4
C:\EbooksTests\5
 

Цитата:
найдены все 5 isbn по тексту, но в bookshelf они записаны не в том порядке в котором встречаются в тексте, т.е первый почему-то стал третьим.

Какое название книги? Если есть - то посмотрю у себя, т.к. в принципе такого не должно быть. Проверил около 50 книг, у которых выявлено более одного ISBN, и везде все работает по правилам.
 

Цитата:
алгоритм поиска по тексту не находит всех ISBN, хотя они там есть

Опять же - дай название книги и я посмотрю. Это может быть из-за того, что некоторые номера не проходят pattern matching.
 

Цитата:
Не знаю. Может, там нет таких путей, а исключение выбрасывается из-за спецсимволов в пути, собаки той же?

Вполне может быть. Попробую - потом скажу.
 

Цитата:
это общеварезная задача, которую надо решить раз и навсегда

Ага, согласен. Надо найти человек, который имеет время на реализацию этой задачи.

Всего записей: 761 | Зарегистр. 12-09-2002 | Отправлено: 12:28 03-04-2005
LevT



Platinum Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Кстати, раздел-то тут "web-программирование"
 
Может быть, кто-то из здешних гуру откомпилит под винды какой-нибудь из серверных проверочных скриптов?
 
 
Добавлено:
 
vladgangan
 
А вот что ты можешь легко добавить - это реакцию на присутствие в фолдере lib.nfo, ddu.nfo и т. п. признаков при отсутствии там распакованной книги. Пускай пишет в лог предупреждение.  
 
 
А лучше - пускай выполняет, кроме того, некое действие-заглушку. Кажется, здесь можно безусловно все распаковать во временную папку, и передать ее в качестве параметра твоему экстрактору вместо оригинальной папки.  
 
Строчки батника:
 

Код:
c:\totalcmd\arc\rar\unrar x -o- *.rar
c:\totalcmd\arc\zip\pkunzip -d -o *.zip

 
Если и там тоже не окажется книг - пускай это будет ошибкой.
 
Я около года назад спрашивал Рошаля насчет managed unrar.dll :   даже не планировалось
 
 
Добавлено:
 
И еще просьба такая: загони повторяющиеся теги <Ebook> внутрь раздела <IsbnExtractor>, добавь к разделу атрибут - номер версии экстрактора.
 
Это чтобы не зависеть от твоей схемы и от самого экстрактора. Схема bookshelf.xml должны быть открыта для еще не написанного софта: ему надо дать возможность добавлять туда свои разделы.
 
 
Также присутствие тега  <Path> нарушает мою спецификацию bookshelf.xml:   обычное копирование и перемещение папок должно сохранять этот файл в актуальном состоянии.
 

Всего записей: 18151 | Зарегистр. 14-10-2001 | Отправлено: 12:34 03-04-2005 | Исправлено: LevT, 13:39 03-04-2005
vladgangan



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
LevT
Только что проверил. Знак @ распознается без проблем, так что все таки проблема в длине пути каталога. С этим я ничего не смогу поделать.

Всего записей: 761 | Зарегистр. 12-09-2002 | Отправлено: 13:34 03-04-2005
LevT



Platinum Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Поздравляю: на огромной коллекции типа "свалка" размером 12Гб отработало около часа. Это субъективно, точно не засекал. Количество ошибок в логе ничтожно, все ошибки по существу. 2.8ГГц Northwood 800
 
Правда, по-прежнему запускал через subst
 
Теперь надо, не торопясь, совершенствовать логику выявления ISBN.
 
 
 
Доп. пожелание: хотелось бы возможности, не извращаясь, отпроцессить сразу несколько корней один за другим.

Всего записей: 18151 | Зарегистр. 14-10-2001 | Отправлено: 13:36 03-04-2005 | Исправлено: LevT, 13:39 03-04-2005
vladgangan



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
hyphen

Цитата:
продолжает писать bookshelf в каталоги, где нет книг

Исправил.
 

Цитата:
Тег error исчез вообще, хотя он нужен, там где он нужен

Тэг Error теперь пишется и в Library.xml, и в соответствующий bookshelf.xml, где была ошибка.
 
Новый билд будет выложен позже. Может еще какие недочеты найдете.
 

Цитата:
И еще просьба такая: загони повторяющиеся теги <Ebook> внутрь раздела <IsbnExtractor>, добавь к разделу атрибут - номер версии экстрактора.

Че за раздел и откуда он взялся? Каким образом предлагаешь устанавливать номер версии экстрактора? По внутреннему номеру билда?
 
Добавлено:
LevT

Цитата:
Поздравляю

Спасибо .

Цитата:
отработало около часа. Это субъективно, точно не засекал

Драйвер должен в конце сам писать время, сколько на это дело ушло.

Цитата:
Правда, по-прежнему запускал через subst  

Читай мой пост выше - чересчур длинный путь. Знак @ проблемы не представляет.

Цитата:
Теперь надо, не торопясь, совершенствовать логику выявления ISBN.  

Жду предложений. Вот как реализовано на данный момент:
1) Читаем 10 КБ текста
2) Ищем все сиквенсы, который попадают под паттерн как "вероятный ISBN"
Код:
string pattern1 = @"(\d)[- ]?(\d)[- ]?(\d)[- ]?(\d)[- ]?(\d)[- ]?(\d)[- ]?(\d)[- ]?(\d)[- ]?(\d)[- ]?([0-9xX])";
, что расшифровывается как "последовательность 9 цифр, возможно разделенных пробелом или тире, и на конце цифра или буква икс"
3) Для каждого кандидата из найденных в шаге 2 проверяем - стоит ли перед ним где-нибудь слово ISBN
4) Читаем следующие 10 КБ текста и т.п.

Цитата:
отпроцессить сразу несколько корней один за другим

В смысле задать серию рутов (вместо одного) при вызове компонента?

Всего записей: 761 | Зарегистр. 12-09-2002 | Отправлено: 13:57 03-04-2005
hyphen

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
vladgangan

Цитата:
3) Для каждого кандидата из найденных в шаге 2 проверяем - стоит ли перед ним где-нибудь слово ISBN  

Почему так, я бы например, сначала слово ISBN искал, а затем паттерн проверял. Мне кажется, это быстрее.

Цитата:
4) Читаем следующие 10 КБ текста и т.п.

А что ты делаешь, если ISBN попадает на границу блока, т.е. половина его оказалась в предыдущем буфере чтения, а вторая в последующем?
 
посмотри на результат, это одна и та же книга в разных каталогах, причем от запуска к запуску последовательности не меняются
 
<?xml version="1.0" standalone="yes"?>
<Library xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="http://tempuri.org/Library.xsd">
  <Ebook>
    <Name>tracing and logging with .net.pdf</Name>
    <Path>d:\books\dotnet\_0\1\</Path>
    <Size>874158</Size>
    <ISBNs>
      <ISBN>1893115976</ISBN>
      <ISBN>0672315904</ISBN>
      <ISBN>1893115232</ISBN>
      <ISBN>1562765706</ISBN>
      <ISBN>1893115011</ISBN>
    </ISBNs>
  </Ebook>
  <Ebook>
    <Name>tracing and logging with .net.pdf</Name>
    <Path>d:\books\dotnet\_0\</Path>
    <Size>874158</Size>
    <ISBNs>
      <ISBN>0672315904</ISBN>
      <ISBN>1893115232</ISBN>
      <ISBN>1562765706</ISBN>
      <ISBN>1893115011</ISBN>
      <ISBN>1893115976</ISBN>
    </ISBNs>
  </Ebook>
</Library>

Всего записей: 101 | Зарегистр. 22-04-2002 | Отправлено: 16:33 03-04-2005 | Исправлено: hyphen, 03:15 04-04-2005
LevT



Platinum Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Че за раздел и откуда он взялся?

 
Идея такая. Каждая библиотечная папка может свободно перемещаться и копироваться вместе со всем контентом, будучи самодокументирована файлом bookshelf.xml
 
Схема этого файла заранее не задана - для того, чтобы еще не существующий софт мог создавать там свои разделы (sections) - как в конфигурационных файлах. Предполагается, что все bookshelf-ориентированные программы обязаны пропускать в неизменном виде все неопознанные ими разделы.
 
Кстати, ты каждый раз воссоздаешь файл? Теперь файл должен пересоздаваться только в том случае, если он отсутствует. Если же он наличествует - ты его только модифицируешь, вернее оставляешь все как есть, кроме имеющихся разделов IsbnExtractor, с которыми поступаешь так, как предписывают свитчи (либо дописываешь новую версию, сохраняя старую, либо перезаписываешь ее вместо старой версии).
 
 

Цитата:
 Каким образом предлагаешь устанавливать номер версии экстрактора? По внутреннему номеру билда?  

 
Хотя бы так. Но главное - при изменениях логики работы или внутренней схемы секции. Например, поменяешь ты чуток алгоритм опознания isbn-ов - и не пересоздавай эти файлы, а дописывай еще один раздел IsbnExtractor с новым значением атрибута Version.  
 
Это особенно станет важным, когда ты выложишь код, и у твоего экстрактора появятся клоны, которые ты не сможешь контролировать. Например, ты сможешь договориться напрямую с другим софтописателем, что тот будет принимать во внимание только твои секции с определенным значением атрибута - и эта договоренность не повлияет на работоспособность всего прочего софта, имеющего дело с этим файлом.  
 
Тут логика сродни разруливанию dll-hell
 
 
 

Цитата:
Жду предложений. Вот как реализовано на данный момент:  

 
Мне тоже кажется, что надо начинать с поиска строки "ISBN"
 
Думаю, что не стоит вот прямо сейчас гнаться за окончательным вариантом. Из  выловленных экстрактором номеров надо еще уметь выделять основной.  Предложения с шансами на окончательность появятся не раньше, чем заработает Амазон-lookup
 
 
 

Цитата:
В смысле задать серию рутов (вместо одного) при вызове компонента?

 
Ага. Или несколько раз подряд запустить, в батнике например.  Логично было бы логи писать не в рабочую директорию программы, а в текущий рут.

Всего записей: 18151 | Зарегистр. 14-10-2001 | Отправлено: 01:38 04-04-2005 | Исправлено: LevT, 01:49 04-04-2005
vladgangan



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
hyphen
LevT
ОК, предложений много и все по делу. Вечером выложу исходный код. У меня в ближайшее будущее времени на занятие этим проектом будет ничтожно мало - поэтому чтобы не тормозить процесс любой желающий сможет скачать исходники и наваять/улучшить экстрактор.

Всего записей: 761 | Зарегистр. 12-09-2002 | Отправлено: 09:43 04-04-2005
vladgangan



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Наконец-то нашел время залить то, что обещал еще в начале недели. Ссылки в шапке.

Всего записей: 761 | Зарегистр. 12-09-2002 | Отправлено: 20:58 08-04-2005
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10

Компьютерный форум Ru.Board » Интернет » Web-программирование » Написание скрипта для каталогизации e-book'ов в Варезнике


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2025

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru