Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » AkelPad (часть 2)

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146

Открыть новую тему     Написать ответ в эту тему

gyra

Moderator
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
 AkelPad
текстовый редактор с открытым исходным кодом, созданный, чтобы быть маленьким и быстрым
Авторы: Шенгальц А. А. (aka Instructor; версии 3–4); Кузнецов А. И. (версии 1–2)

Последний релиз: 4.9.9 от 16 октября 2024


Скачать
Программа релиз 4.9.9: многоязычная [exe]: x86 | x64; русская [zip]: x86 | x64; английская [zip]: x86 | x64    
Плагины полный авторский комплект: x86 | x64    
Скрипты авторская подборка: Instructor | KDJ | VladSh | Infocatcher    
Синтаксические файлы авторские дополнения к комплектным: akelpad.sf.net    
Шрифты авторская модификация для использования с плагином Fonts.dll: akelpad.sf.net    
Обновления авторская утилита AkelUpdater v6.8

Дополнения от сообщества
Программа Неофициальная компиляция из последних исходников 4.10.0 r4475 от 03.11.2024
Microsoft SDK для самостоятельной компиляции AkelPad и плагинов
NSIS 2.xx для самостоятельной компиляции AkelUpdater    
Плагины SpellCheck: проверка орфографии на движке Hunspell, подробнее. Автор: random6_2020. Скачать: x64 (1.3.0.4) | x86 (1.3.0.5) | исходники    
TagsView: разбор исходного кода при помощи ctags, подробнее: akelpad.sf.net | github. Автор: DV. Скачать: 0.5b github | sf.net    
Скрипты akelpad.sf.net | Infocatcher :: github | DV :: github | AZJIO | Andrey_A_A    
Синтаксические файлы • подборки: Lenchik & Drugmix & Skif_off | cuprum | Infocatcher :: github | VladSh | Andrey_A_A    
единым списком по расширениям (включая авторские)    
Утилиты ShellExt: пункт в контекстное меню проводника, подробнее. Автор: Ralph Shane. Скачать: 4.8.3.0    
Help: вызов справки с поиском выделенного текста, подробнее. Автор: AZJIO. Скачать: плагин, утилита    
AnotherFileNearby: создание слепка редактируемого файла, подробнее. Автор: AZJIO. Скачать: YaD    
Цветовые темы Atom One Dark Pro    
Сборки местная коллекция    
в составе сборок часто содержатся скрипты и синтаксические файлы, не имеющие самостоятельных ссылок, и потому не перечисленные в шапке

Помощь
Справка из исходников | FAQ 1 | FAQ 2
Справка от AZJIO
Coder-файл: справочные комментарии на русском языке
Установка AkelPad 4 на Windоws 7 с заменой Блокнота Windows

Всего записей: 7932 | Зарегистр. 18-02-2006 | Отправлено: 22:03 10-07-2017 | Исправлено: yozhic, 17:12 04-11-2024
destiny_child



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
volkovysk
Ну тут вопросы к тому - в какой кодировке был ИЗНАЧАЛЬНЫЙ текст, что указан как "документ на английском".
Если это откуда-то оригинал "из-за бугра" - то вообще "ихняя" 1252 должна была бы быть кодировка.
Если просто вырезка текста сохранялась русским человечком "для себя", то наверняка 1251 это было.
И вот теперь из-за двух слов на крякозяблинском в 866 коде следует рассматривать такой файл как
866?

Всего записей: 3794 | Зарегистр. 01-04-2006 | Отправлено: 10:54 04-10-2024
volkovysk



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
destiny_child
У вас некорректное представление о кодировках и как они устроены. Обычный однобайтовый текст в формате TXT на латинице никакой изначальной/неизначальной кодировки не может содержать. Латиница относится к кодовой системе ASCII. Это стандарт для всех и латиница показывается одинаково во всех однобайтовых документах, а так же в UTF-8. В файле TXT никаких служебных пометок о кодировках тоже нет (исключение есть для UTF-8 в виде метки BOM размером 3 байта). Поэтому физически латинский текст ни в какой кодировке русскими или нерусскими человечками не сохраняется в файле. Файл TXT с таким текстом остаётся всегда универсальным безкодировочным в едином стандарте ASCII.
 
Кодировка существует для нелатинских символов вне диапазона ASCII, потому что вне диапазона ASCII всего 128 символов, а языков на планете много. Если они присутствуют в тексте, то редакторы определяют кодировки этих символов путём анализа строк. Чем больше слов, тем точнее угадает редактор кодировку и откроет файл с нелатинскими строками в читабельном виде.

Всего записей: 585 | Зарегистр. 21-04-2011 | Отправлено: 12:00 04-10-2024 | Исправлено: volkovysk, 12:54 04-10-2024
AkulaBig

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
destiny_child

Цитата:
View64 КАК его распознает? Как 866 что ли?

Конечно.

Цитата:
если подавляющая масса текста корректно  
читаться будет ТОЛЬКО в изначальной 1251 кодировке?

Почему это. Я-же пересохранил файл в 866. То-есть у него кодировка физически стала 866.
volkovysk

Цитата:
View64 видит эти два слова и логично показывает текстовый документ как 866.

Да, так и должно быть.

Всего записей: 5024 | Зарегистр. 11-03-2003 | Отправлено: 12:22 04-10-2024
destiny_child



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Но вроде как суть вопроса никак не поменялась)))
Отчего из-за двух слов на крякозяблинском в 866 коде следует рассматривать ВЕСЬ такой файл как 866?
С какого перепугу эта мелочь должна оказывать влияние на ВЕСЬ объем символов? Статистическая же  
погрешность? Раз уж основа текста у нас в кодировке, что является изначальной для всех других?
 
Два слова на нем, или 500 на ANSI'шном... Ведь расширенная версия ASCII уж если мы вдруг заговорили  
про две части таблицы символов: с 1 по 127 и со 128 по 255 знакоместа, нас интересует в современном  
мире. Версия, которую Windows и программы для Windows в большинстве случаев и используют по факту.
А точнее вариации в виде СР1251/1250/1252.... Окончательно же файл будет сообразно выставленной
кодовой странице в системе или в настройках редактора сохраняться.

Всего записей: 3794 | Зарегистр. 01-04-2006 | Отправлено: 12:50 04-10-2024 | Исправлено: destiny_child, 12:53 04-10-2024
volkovysk



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Отчего из-за двух слов на крякозяблинском в 866 коде следует рассматривать ВЕСЬ такой файл как 866?
Ну чтобы не видеть кракозяблы, эти два слова и надо читать в кодировке 866. А латинские слова, как я уже объяснял, до звезды в какой кодировке читать. Поэтому весь файл надо открывать в 866.
 
Добавлено:

Цитата:
какого перепугу эта мелочь должна оказывать влияние на ВЕСЬ объем символов?
Потому что только два этих слова имеют кодировку и всё решают, латинские слова не имеют значения.

Всего записей: 585 | Зарегистр. 21-04-2011 | Отправлено: 12:55 04-10-2024
AkulaBig

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
destiny_child

Цитата:
Отчего из-за двух слов на крякозяблинском в 866 коде следует рассматривать ВЕСЬ такой файл как 866?

Потому что я его сохранил как 866. С какой стати он останется 1251?

Всего записей: 5024 | Зарегистр. 11-03-2003 | Отправлено: 13:10 04-10-2024
Wave_Blessed

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Потому что я его сохранил как 866. С какой стати он останется 1251?

Ты сохранил не «как 866», ты сохранил просто последовательность байтов. Если программа не запоминает, в какой кодировке ты его сохранил, то дальше только угадывать, что ты имел в виду, может, вообще пытаешься прочитать картинку или архив. И далеко не все детекторы могут угадать кодировку по двум словам.

Всего записей: 1255 | Зарегистр. 16-04-2006 | Отправлено: 13:33 04-10-2024
yozhic



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Неофициальная компиляция AkelPad 4.9.9 r4457 [04.10.2024]
с плагинами (по списку на akelpad.sf.net) и AkelUpdater
 
Обычная: ya.ru | upload.ee | workupload.com
Отладочная: ya.ru | upload.ee | workupload.com
 
Подробнее »»»

Всего записей: 2945 | Зарегистр. 20-03-2008 | Отправлено: 13:52 04-10-2024 | Исправлено: yozhic, 14:01 04-10-2024
destiny_child



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Ок, упростим задачу.
Некий чувак накидал 500 символов `g` в файле. Это латиница. В коде это 0x67
И это входит в первую часть таблицы символов, значит принадлежит "первичной",
скажем так, вариации 7 битового набора ASCII.
И значит везде-везде мы увидим этот символ именно таким. Ибо все другие под
виндой таблицы символов эту (первую) часть не меняют. Значит файл корректен же?
Согласны, что в принципе пофигу под какой кодировкой в редакторе, позволяющим
ее менять, его стоит открывать?
Ок, теперь тот чувак по недомыслию, случайно, влепил символ `П`, что в кодировке
его любимого редактора СР866 имеет код 0x8F. Вместо нужного `g`. А это уже вторая  
часть таблицы символов как мы видим. Файл отослали другу чувака. Внимание вопрос.
Стоит ли другу верить кодировке CP1251, что у него по умолчанию открывается в
его любимом редакторе? И да, символ там уже будет выглядеть как `Џ`, т.е. вроде
как покрякозяблински. НО! 99,9% другого текста выглядит же верно!
Так почему эти погрешности должны выводить этот файл в СР866? Только потому,
что есть этот 1 символ из 500?

Всего записей: 3794 | Зарегистр. 01-04-2006 | Отправлено: 14:07 04-10-2024 | Исправлено: destiny_child, 14:13 04-10-2024
AkulaBig

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Так почему эти погрешности должны выводить этот файл в СР866? Только потому,
что есть этот один символ?

Почему один символ? Все символы переведены в 866.

Цитата:
Стоит ли другу верить кодировке CP1251, что у него по умолчанию открывается в
его любимом редакторе?

Любимый редактор просто не распознает кодировки. Или распознает их плохо. Ведь алгоритмов распознавания кодировок несколько. Другие программы, которые правильно распознают кодировки, откроют этот файл в правильной кодировке.

Всего записей: 5024 | Зарегистр. 11-03-2003 | Отправлено: 14:16 04-10-2024
destiny_child



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
AkulaBig (пост)
Цитата:
Почему один символ? Все символы переведены в 866.

Еще раз - проблема с кодировками уровня CP<чего-то-там> в том что они реально как бы из двух половинок состоят.
Первая часть у них одинаковая. А вот символами из второй они и отличаются.
А еще в файле не проставляется какой-то маркер, которой бы прямо указывал на конкретной подвид кодировки,
что использовался в текущем файле.
По итогу. Мой утрированный пример - возьмем его - проще рассмотреть, имхо.
Что в кодировке СР1251, что СР1252, что СР1250, что СР866 - это будет абсолютно идентичный до бита файловый  
поток, сохраненный на диске. Одни символы `g` сплошным потоком "вырвутся" на экран при отрисовке. Код=0x67.
А вы не сможете ЗАРАНЕЕ узнать - а в какой кодировке из вышеперечисленных наш автор сохранял в своем любимом  
редакторе этот файл. Ибо у себя вы будете просматривать его легко и спокойно в любой из этих кодировок. Всегда
это будет код 0x67 и визуально отрисовываться это будет как `g`.
И вот ЛИШЬ этот один символ в конце файла, по случайности вставленный, и переводит для всего файла кодировку
из какой-то там "подходящей" в строго равную "СР866", ибо только так вы сможете прочитать этот символ при
получении этого файла. НО и то - это если вы будете знать, ЧТО именно этот символ вам нужен))))
А иначе можно будет просто пропустить этот "мусор" в виде `Џ` в конце...
 
P.S. Даже если вдруг этот файл с `g` сохранить в UTF-8 без BOM - это будет то же текстовый файл! побитово  
равный исходному в .... СР1250, к примеру)))
 
https://pastebin.com/dgxT76Pp
тут вот более приятно и понятно вроде как выведено про таблицы кодировок.

Всего записей: 3794 | Зарегистр. 01-04-2006 | Отправлено: 14:28 04-10-2024 | Исправлено: destiny_child, 14:49 04-10-2024
volkovysk



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
destiny_child
По одному левому символу кодировку не идентифицируют. Поэтому весь ваш пример не канает. А вот когда речь о двух полноценных словах в полтора-два десятка символов, то тут человек может определить как они записаны, тупо пересмотрев текст в разных кодировках, если программа сама не угадала.

Цитата:
Файл отослали другу чувака.  
Стоит ли другу верить кодировке CP1251, что у него по умолчанию открывается в  
его любимом редакторе?
Что это за друзья такие, которые подсовывают ребусы с одним левым символом? Хотя, если чувак серб или македонец, можно предположить, что он бухой писал именно `Џ`, сохраняясь в 1251.

Всего записей: 585 | Зарегистр. 21-04-2011 | Отправлено: 14:41 04-10-2024 | Исправлено: volkovysk, 14:43 04-10-2024
destiny_child



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
volkovysk (пост)
Цитата:
По одному левому символу кодировку не идентифицируют.  

Да ну я же утрировал для более простого разбора сути процесса...
Все равно - относительно того, что прога Х вдруг на основе 2 хоть и связных слов, но
для огромного текста на инглише в тыщу слов вдруг посчитала, что это именно СР866 - это  
конечно же хорошо, с точки зрения пользователя - которому надо быстро прочитать послание  
от грека, что на реке кого-то словил))). Но с точки зрения статистики - ну тоже явно за уши  
притянутый вывод.
Поэтому безусловно наиболее верным является наличие простой возможности "перебрать"
доступные кодировки быстро/интуитивно и получить читабельный текст про раков
Но самим пользователем, а не вверять всё дело одной проге на автомат...
 
P.S.
`Џ` - этим символом мы объем ведра показываем - мол, воооон сколько натаскал!

Всего записей: 3794 | Зарегистр. 01-04-2006 | Отправлено: 14:54 04-10-2024 | Исправлено: destiny_child, 14:58 04-10-2024
AkulaBig

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Да ну я же утрировал для более простого разбора сути процесса...

Как-раз для определения кодировки основное значение имеет количество символов. И где они расположены. Два слова на кириллице в начале длинного текста на латинице и в конце не одно и тоже. Поэтому ваш пример совсем не катит.
И, если честно я не понял. Какова цель нашего обсуждения?

Всего записей: 5024 | Зарегистр. 11-03-2003 | Отправлено: 16:42 04-10-2024 | Исправлено: AkulaBig, 16:42 04-10-2024
destiny_child



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
AkulaBig (пост)
Цитата:
Поэтому ваш пример совсем не катит.

Ок, пусть целая строка из `П` будет в моем примере. Так проще будет аналогии проводить?
Я это собсно к тому, что ни одно из каких-либо средств, что есть на руках - не должно вот прям обладать
какими-то супер сакральными знаниями о том, как можно "разглядеть" правильную кодировку в энном тексте.
Главное - что есть возможность в своих инструментах менять её так - как хочется.
И в сабже УЖЕ есть эта возможность. Так зачем подняли обсуждение какого-то скрипта?
Там-то какая цель была? Как говорится, могут лишь ответить вопросом на вопрос в такой ситуации.
Ну понимает View64 лучше других русские текста - ну ок. Но ведь не редактор это. Он вызывает
редактор, что указан в его настройках...
Мой пример, кстати, он не воспринимает иначе как UTF-8)))
 
P.S. но в целом можно и не дергать дальше эту нить рассуждений, ибо реально важнее понять - насколько новые
исправления в коде - полезны и приятны для всех нас...

Всего записей: 3794 | Зарегистр. 01-04-2006 | Отправлено: 18:10 04-10-2024
yozhic



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
destiny_child (пост)
Цитата:
насколько новые исправления в коде - полезны и приятны для всех нас

Если речь о r4457, то полностью согласен. Изменения в самом AkelPad и в 5 плагинах. У меня пока на Win 11 всё летает. Хочу сегодня вечером за одну работу взяться, чтобы проверить в деле, не проявится ли какой косяк.

Всего записей: 2945 | Зарегистр. 20-03-2008 | Отправлено: 18:27 04-10-2024 | Исправлено: yozhic, 18:40 04-10-2024
volkovysk



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Да ну я же утрировал для более простого разбора сути процесса...


Цитата:
Ок, пусть целая строка из `П` будет в моем примере. Так проще будет аналогии проводить?

Так утрировать нельзя, тем более условия задачи даны были конкретные: два слова вписанные в кодировке 866 на целую кучу аглицкого текста. Идентификация кодировки — процедура логическая, её люди определяют по полноценным словам. Никакие массовые повторения `П` или крючочков совсем не могут сказать, какую кодировку задумывал пЕЙсатель-кракозябрист.

Цитата:
Я это собсно к тому, что ни одно из каких-либо средств, что есть на руках - не должно вот прям обладать какими-то супер сакральными знаниями о том, как можно "разглядеть" правильную кодировку в энном тексте.
Ага.)) Но тему то вы подняли совсем о другом. Походу вы хотели доказать, что документ AkulaBig должен быть якобы в 1251, которая мифическая «изначальная», а его втиснутая кувалдой кириллица-866 должна якобы показывать кракозябры.)) В связи с этим не понимали почему «нелогичный» View64 не показывает кракозябры, а разглядел полноценные русские слова не в кодировке 1251.

Всего записей: 585 | Зарегистр. 21-04-2011 | Отправлено: 18:49 04-10-2024
AkulaBig

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
destiny_child

Цитата:
Так зачем подняли обсуждение какого-то скрипта?

Потому что у Акельки не самые лучшие возможности по автоматическому определению кодировки. Хотелось-бы их улучшить.
yozhic

Цитата:
Если речь о r4457, то полностью согласен. Изменения в самом AkelPad и в 5 плагинах. У меня пока на Win 11 всё летает.

А в изменениях только "улучшение работы в Вин11". А можно поподробней, что изменилось? У меня и до этого все летало.
volkovysk

Цитата:
Походу вы хотели доказать, что документ AkulaBig должен быть якобы в 1251, которая мифическая «изначальная», а его втиснутая кувалдой кириллица-866 должна якобы показывать кракозябры.

Я тоже так понял.

Всего записей: 5024 | Зарегистр. 11-03-2003 | Отправлено: 19:16 04-10-2024
destiny_child



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Я не хотел доказать что либо. Я хотел понять - почему вдруг это поведение по вычленению верных слов/фраз(раз просто символов мало) считается абсолютно идеальным и к нему выходит должны стремиться все другие инструменты.
Есть же явно некий предел, ниже которого даже тот же View64 неверно распознает текст. Проверено))) И тут опять мы вернёмся лишь к тому, что точку в выборе ставить должен пользователь. С помощью функционала утилиты, выбранной для этого. В сабже выбор/смена кодировок есть. Что такого могло бы привнести использование что упомянутого джава скрипта, что сторонней утилиты? Имхо, ничего такого...
Вот и всё. И никаких других инсинуаций у меня не было...
Ни кого не задеваю и не умоляю профессиональности разрабов, создавших, что скрипт, что утилиту.
 
P.S.
Чтож. Совместимость к win11 не принесла фикса на фоновое подсвечивание выбранного маркера выделения((((

Всего записей: 3794 | Зарегистр. 01-04-2006 | Отправлено: 00:23 05-10-2024 | Исправлено: destiny_child, 00:49 05-10-2024
Skif_off

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
AkulaBig

Цитата:
Потому что у Акельки не самые лучшие возможности по автоматическому определению кодировки.

Сравнивать AkelPad и View64, который заточен под работу с кириллицей + UTF-8/UTF-16 (последнее - это вообще плёвое дело, хотя было бы любопытно затестить с UTF-16 без BOM), - это как-то немного нечестно, ибо для универсальных способов мы, полагаю, всегда сможем найти косячный файл (вплоть до банального - буфера распознавания не хватило).
 
P.S. Для любопытных, детект кодировки идёт в AutodetectMultibyte в Edit.c.

Всего записей: 6586 | Зарегистр. 28-01-2008 | Отправлено: 01:37 05-10-2024
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146

Компьютерный форум Ru.Board » Компьютеры » Программы » AkelPad (часть 2)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru