WinRAR (часть 5) - [187] :: Программы :: Компьютерный форум Ru.Board

Цитата:

Я проверял это на реальном xml файле с длинными совпадениями, взятом отсюда: https://uops.info/xml.html

EugeneRoshal

Поздравляем, вы нашли действительно крайний случай.
Это действительно хорошо.
(instructions.xml)

Код:

instructions.xml
tlen t[s] Dt[x1] size Ds(64)
- - - 114820836 -
32 14.710 0.968 928792 56899
64 15.189 1.000 871893 0
128 16.564 1.090 831036 -40857
256 23.025 1.515 796330 -75563
512 36.276 2.387 768012 -103881
1024 72.535 4.775 741557 -130336
2048 127.154 8.371 739552 -132341
4096 221.981 14.614 738534 -133359

Код:

instructions.xml
- t[s] Dt[x1] size Ds
- - - 114820836 -
bzip2 40.124 - 1064607 -
bzip2dss 7.361 - 1064607 -
lbzip2 6.412 - 1059230 -

Но это не очень распространено и, честно говоря, нереально - есть только один такой пример, размером 100 МБ, но не существует XML-баз данных размером в гигабайты, которые были бы широко распространены. XML — очень сложный и запутанный формат. Неудивительно, что JSON занял много времени, поскольку он прост и может быть загружен непосредственно в Javascript или Python. Почему-то на это никто не жалуется.

Я нашел эту базу данных json, которая не демонстрирует такого поведения, хотя она и большая (а есть еще большие).
(employees_100MB_min.json)

Код:

employees_100MB_min.json
tlen t[s] Dt[x1] size Ds(64)
- - - 114820836 -
32 50.441 0.917 5715877 314570
64 54.993 1.000 5401307 0
128 91.609 1.666 4822275 -579032
256 92.883 1.689 4822892 -578415
512 92.885 1.689 4822892 -578415
1024 91.838 1.669 4822892 -578415
2048 92.328 1.679 4822892 -578415
4096 93.343 1.697 4822892 -578415

Даже вот этот, аномально повторяющийся, с целыми сотнями строк символов, повторяющимися снова и снова, замедляется «всего» в 5 раз. Даже не это.
(full_sft_v0.4_trim_web.jsonl.100M)

Код:

full_sft_v0.4_trim_web.jsonl.100M
tlen t[s] Dt[x1] size Ds(64)
- - - 100000000 -
32 10.298 0.956 1578854 21147
64 10.731 1.000 1557707 0
128 11.403 1.062 1532142 -25565
256 13.375 1.246 1518351 -39356
512 16.191 1.508 1513228 -44479
1024 21.617 2.014 1511386 -46321
2048 42.157 3.928 1509823 -47884
4096 50.530 4.708 1511667 -46040

Какая-то реальная юридическая база данных, восприимчивая к `tlen' размером до 2048.
DSA Transparency Database
2023-09-25

Код:

sor-global-2023-09-25-full-00001-00005.csv
tlen t[s] Dt[x1] size Ds(64) Ds-last
- - - 101445139 -
32 31.626 0.975 4539367 67514 -67514
64 32.440 1.000 4471853 0 67514
128 32.821 1.011 4394795 -77058 77058
256 32.463 1.001 4333555 -138298 61240
512 67.500 2.080 4190095 -281758 143460
1024 204.791 6.313 4127016 -344837 63079
2048 316.062 9.743 4103473 -368380 23543
4096 316.590 9.728 4103473 -368380 0

Если у кого-то действительно есть такой набор данных для сжатия, он проверит свои параметры, прежде чем применять его к гигабайтам данных. И они поймут, что это может быть не лучшая идея.

Все сводится к вопросу, являются ли люди «sapiens» или маленькими детьми, о которых нужно заботиться.

Модерирует : gyra, Maz
Версия для печати • Подписаться • Добавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188