Svirepov
Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору Испытания Xapian, если кому интересно. Включил галку 'positional information', раз уж он без неё не может полноценно работать, и протестировал ПТП на нескольких больших словарях, содержащих только латиницу (всё-таки CJK - очень тяжёлый случай для поиска). AND заработал: > "silk purse" AND "sow's ear" успешно находит you can't make a silk purse out of a sow's ear (подсвечивает только первый кусок - и на том спасибо) AND и OR комбинируются: > ("se mettre sur" OR "qui vaille") AND ("n'avoir rien" OR "trente-et-un") находит в статьях: se mettre sur son trente-et-un n'avoir rien à se mettre sur le dos n'avoir rien qui vaille Оператор NEAR упорно не желает искать фразы, а со словами работает: > Corneille NEAR Vierge находит Corneille, ..., « Antienne de la Sainte Vierge ». Corneille, l'Office de la Vierge. Тут он ничего не подсвечивает, конечно, а вручную каждый раз искать на странице такие вхождения - то ещё удовольствие. Нет опции, позволяющей игнорировать диакритику (возможно, в Xapian не предусмотрено). Это не беда. Размеры: Словарь | .dsl (UTF-8) | .dsl.dz | FTS-индекс | Oxford English Dictionary 2 | 560,714,120 | 201,367,545 | 884,441,215 | Webster's 3rd New International, Unabridged | 125,234,552 | 32,724,675 | 210,739,324 | Le Grand Robert | 239,181,748 | 51,817,171 | 207,077,501 | Trésor de la Langue Française | 216,326,245 | 79,593,705 | 357,892,221 | всего | 1,141,456,665 | 365,503,096 | 1,660,150,261 | В общем, с включённой positional information FTS-индексы получаются в 4-6 раз больше самих (сжатых) словарей, а для CJK-словарей - и вовсе в 7-9 раз больше. Я бы и хотел быстрый поиск, но уж точно не такой ценой. Любит падать во время поиска (и один раз намертво завис), а ещё я заметил, что в TLF побились все JPG-картинки, которые наш GD, разумеется, нормально отображает. Что ещё тут можно сказать? В морг. |