Написание скрипта для каталогизации e-book'ов в Варезнике - [9] :: Web-программирование

>Потому я предлагал класть метаинфу в xml с заранее не заданной схемой.

А кто против? Все же ЗА, тем более Озон эту инфу всем раздает бесплатно в виде файла
books.xml (в сжатом виде 30Мб), где более 320000 записей о книгах
Вот типичный кусок :

<offer id="88337" type="book">
<url>http://www.ozon.ru/context/detail/id/88337/?from=partner</url>
<price>185</price>
<currencyId>RUR</currencyId>
<categoryId>1088301</categoryId>
<categoryId>1090459</categoryId>
<categoryId>1090462</categoryId>
<picture>http://www.ozon.ru/multimedia/books_covers/pushkinstihotvorpoemy99afdasd.jpg</picture>
<orderingTime>
<ordering>На складе</ordering>
</orderingTime>
<author>А. С. Пушкин</author>
<name>Стихотворения. Поэмы</name>
<publisher>Эксмо-Пресс</publisher>
<series>Русская классика</series>
<year>2007</year>
<ISBN>978-5-699-09667-1</ISBN>
<description>Прекрасный подарок к юбилею Поэта - пушкинские стихи.</description>
</offer>

Кое какие теги выкинуть, некоторые переименовать, добавить «по вкусу» свои.

Для себя решил просто, если надо будет создавать для своих книжек некий info.xml из названия (файла или папки) извлекаю ISBN , лезу в books.xml и извлекаю информацию для заполнения info.xml. Кстати существуют библиотечные сервера, которые по специальному протоколу все инфу о книге могут выдать. На http://aleph.rsl.ru/F/?func=file&file_name=find-a можно посмотреть на html шлюз к такому серверу - Единый электронный каталог (ЭК) Российской Госуд.Библиотеки (РГБ).

Думаю главный вопрос : «Какой УНИКАЛЬНЫЙ идентификатор книги выбрать, если нет ISBN? И может ли ISBN выполнять роль уникального идентификатора на практике?». Так, даже в обычной библиотеке не только книги, там есть еще и журналы (ISSN), и другие единицы хранения. Практика такова, что большинство библиотек договориться между собой не могут, и каждая ведет свой каталог.
У каждой библиотеки свой <offer id="хххххх" type="book"> ! А уж про тематические каталоги, я вообще молчу. Даже для РГБ создать полный тематический каталог по всем своим книжка не под силу. Не будет единого уникального идентификатора, не будет нормального (автоматического) обмена между каталогами юзеров. Обмен в ручном режиме это такой дикий ТРУД, что сводит на нет выгоду от обмена. Не будет, обмена не будет БОЛЬШОЙ актуальной базы с инфой о книгах, любая программа каталогизатор без такой базы, будет давать минимальный, ЛОКАЛЬНЫЙ эффект. (Вроде об этом уже здесь писали).

Все что нужно для без проблемного сбора, раздачи и поиска книг, так это чтобы в именах файлов (каталогах) была связка «Автор+Название+Возможный_ISBN». И 95 процентов варезных потребностей решены. Остальные 5% это не выявляемые на автомате дубли, легче заплатить за место на жестком диске для них, чем с ними бороться.

>А что делаешь ты? Ты смешал все этапы сложного… рабочего процесса …

Скорее, я просто реализовал законченное «средне-взвешенное решение», которое легко внедрить для достижения конкретных целей – создания и сопровождения электронных библиотек с минимальными усилиями. (Ставишь спутниковую тарелку(и), подключаешься к P2P сети, собираешь файлы-е-буки, на автомате их очищаешь от явных дублей, полуавтоматически сортируешь-переименовываешь и получаешь готовый материал для размещения на FTP или в P2P сети.) Разве не просто?
В нашем случае WWW в основном нужен для ускоренного широкого распространения свеже-отсканированных книг.

>умению если не "пасти котов", то хотя бы кооперироваться с другими "котами" - пока два.

«Коты» обычно гуляют сами по себе, их только «кормом» можно заманить. Здесь нужны энтузиасты, хотя бы на первом этапе.

Модерирует : Cheery
Версия для печати • Подписаться • Добавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10