Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Текстовый редактор | Text editor

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59

Открыть новую тему     Написать ответ в эту тему

Corewin



Lazy
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Требования к текстовому редактору разные люди для разных задач предъявляют... правильно, совершенно различные. Эта тема посвящена выбору редактора под конкретные нужды.
 
Если чётко задать вопрос в соответствующей подтеме (см., например, Хорошо структурированный набор требований к текстовому редактору [?]), то наверняка вам быстро помогут....
 
Подборка ссылок на специализированные темы:
 
HTML редакторы. Какой лучше? [?] ( 1 2 3 4 5 6 7 ... last post [?] )
 » Выбираем лучший HTML редактор
   
Редакторы с древовидной структурой [?] ( 1 2 3 4 5 6 ... last post [?] )
 »  MyNotesKeeper, KeyNote, Treepad, ... выбираем лучший
   
Замена блокнота [?] ( 1 2 3 4 5 6 7 ... last post [?])  


Особо стоит выделить
Заменители/аналоги Microsoft Word'а

Прекрасный Путеводитель по текстовым процессорам опубликован 12.04.2006 на iXBT.com. Рассмотрены:
# AbiWord 2.4.2
# KWord 1.4.2
# OpenOffice.org Writer 2.0.2
# PolyEdit 5.0
# 602 Text 4.2
# Think Free Office Write 3.0

 
Не вошел в обзор замечательный редактор [R]Software Editor
 
Соответствующие темы в Программах [?]:
[R]Software Editor [?] ( 1 2 3 4 5 ... last post [?] )
 »  Мощный тектовый процессор
AbiWord [?] ( 1 2 3 4 ... last post [?] )
 »  Бесплатная альтернатива MS Word
Супер прога Polyedit 5 ( 1 2 ... last post [?] )
 »  Замечательный текстовый редактор
OpenOffice.org [?] ( 1 2 3 ... 38 39 40 ... last post [?] )
 »  Бесплатный офисный пакет с открытым кодом

P.S. Мастерим шапку все вместе в спец. теме [?] в Тестировании [?]

 
Голосование: Лучший Блокнот | Notepad [?]

Всего записей: 2598 | Зарегистр. 03-08-2001 | Отправлено: 23:25 06-10-2001 | Исправлено: Maz, 13:39 19-09-2021
PaulGor



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
CaptainFlint

Цитата:
...  
В частности - представление окончания строки, например, в Линухе и в Винде. В виндах это два символа CR+LF (символы с кодами 0x0D и 0x0A), а в Линухе - только один из них (я не помню точно, который именно). Если я буду редактировать линуховый файл, то лучше, чтобы он остался в линуховом же формате, а еще лучше - чтобы была возможность перевести из одного вида в другой. Многие редакторы не позволяют ни того, ни другого, а некоторые еще и без уведомления превращают такие файлы во что-то нечитаемое нормально ни в винде, ни в линухе  

 
Да, под Unix - только LF (0x0a). Я тоже часто переношу файлы Unix<--->Win.
Всё вышеизложенное поддерживается - очень удобно - редактором UltraEdit -
все варианты поддерживаются - можно и оставить в формате Unix, можно перевести из одного формата в другой, и не делает ничего без уведомления.
   
И не нужно ничего проверять, вставляя пробелы
   
Плюс, для любых символов (у меня это часто японские буквы) - нажатием одной
конопки переходишь в режим Hex и видишь, например, те же 0x0d 'живьём'.
 
 
Подсветка синтаксиса в нём есть.
 
Автоопределения кодировки нет (он нерусский), но я честно говоря не люблю
автоопределения и в ИЕ - накой оно?
Ведь в отличие от года скажем 1995-го, когда скажем файлы
с фантастикой могли быть в любой из нескольких кириллических кодировок, сейчас
такого нет, да и IMHO, не дело для текстового редактора быть одновременно и
перекодировщиком - есть отдельные перекодировщики, и т.к. они на это и заточены,
то удобнее ими пользоваться, а в Windows-редакторе писать 'родной' кодировкой
Windows-1251...
 
Я пользуюсь перекодировщиком А.Лобастова CVT32
(http://ourworld.compuserve.com/homepages/paulgor/nof_main.htm#cvt32-win),
 он может и файлы перекодировать,
но я пользуюсь опцией перекодировки в Clipboard:
 - допустим, я загрузил в редактор некий Readme.txt от русской программы,
  а текст - в DOS-866 (вроде... видно ведь на глаз, что за кракозябры -
  KOI8-R или DOS-866). Делаю Ctrl/A - выделяю весь текст.
 - в CVT32 выбираю режим DOS--->Win и сразу вижу, читабелен ли результат.
   Если нет - меняю скажем на KOI8-R --->Win и смотрю.
 - возвращаюсь в редактор - Ctrl/V - 'родной' Windows-1251 текст
 
Это если чужой текст. А уж свои собственные HTML файлы (я их все делаю в UltraEdit)
я перевожу точно таким же способом в KOI8-R.
   
o22

Цитата:
 
4. Скорость открытия файла  
5. Настройка своих кодировок (например национальные алфавиты)  
6. Вертикальные блоки.  
7. Возможность просмотра текста с переносом строк и без него.  

 
В UltraEdit:
4. Файлы открываются очень быстро. Размер не ограничен
5. Национальные алфавиты легко настраиваются.
   Для работы выбирается многоязычный шрифт, например, "Courier New" и:
     - надо писать по-немецки, в windows-1252:
        выбираю "Western" в списке Scripts для этого шрифта
     - надо писать по-русски, в windows-1251:
        выбираю "Cyrillic" в списке Scripts для этого шрифта
     - надо писать по-польски, в windows-1250:
        выбираю "Central European" в списке Scripts для этого шрифта
   на японской машине я могу или по-русски писать, или, выбрав
   японский шрифт вместо "Courier New" - по-японски
6. Вертикальные блоки поддерживаются
7. Поддерживается - всё время пользуюсь - нажатием кнопки W
   переключаюсь в режим "Wrapping" (перенос строк).
   Это 'логический' метод, а можно насовсем - сделать длинно-строчный
  текст 'текстом для e-mail' - строки длиной 72 - в меню есть для этого
   опция "W--->CR+LF", где можно указать нужную длину.
 
 
 
 

Всего записей: 631 | Зарегистр. 05-04-2002 | Отправлено: 02:34 23-04-2003 | Исправлено: PaulGor, 02:41 23-04-2003
o22



Developer
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
PaulGor

Цитата:
Автоопределения кодировки нет (он нерусский), но я честно говоря не люблю  
автоопределения и в ИЕ - накой оно?  

А "русскость" здесь не при чем. Просто есть определенный круг кодировок, с которыми ты работаешь и которые для себя настраиваешь, и он должен их распознавать. Так, например, реализовано в RulNote (а он мультиязычный) и EmEditor (а этот вообще не наш).
 

Цитата:
да и IMHO, не дело для текстового редактора быть одновременно и  
перекодировщиком - есть отдельные перекодировщики, и т.к. они на это и заточены,  
то удобнее ими пользоваться, а в Windows-редакторе писать 'родной' кодировкой  
Windows-1251...

 
Насчет перекодировки это необязательно, согласен, но иногда очень удобно. А вот насчет распознавания кодировки и записи только в 1251 категорически не согласен.  
Я уже раньше писал, что у меня, например, часто бывает нужно открыть файл в ДОС-кодировке и записать его в ней-же. Причем текст должен быть не перекодирован и не искажен (вследствие временного перекодирования на время работы в редакторе). Очень часто после редактирования в некоторых редакторах происходит искажение спецсимволов (псевдографики или национальных символов).

Цитата:
Национальные алфавиты легко настраиваются.  
   Для работы выбирается многоязычный шрифт, например, "Courier New" и:  
     - надо писать по-немецки, в windows-1252:  
        выбираю "Western" в списке Scripts для этого шрифта  
     - надо писать по-русски, в windows-1251:  
        выбираю "Cyrillic" в списке Scripts для этого шрифта  
     

С учетом вышесказанного, это все теряет смысл. Мне не всегда нужно писать в какой-то определенной кодировке (с нуля), мне нужно, чтобы редактор эту кодировку сам распознал (пусть это будет польская, немецкая, как ты предлагал, или украинская ДОС-овсая, как нужно мне), и после редактирования в ней-же записал (причем корректно). Я могу даже не обратить внимания, в какой кодировке был файл, тем более что-то выбирать вручную.
Так вот упоминаемый UltraEdit этого ничего не делает. Может я плохо искал, но ты сам подтвердил, что распознавания в нем нет, а отсюда все и вытекает...

Всего записей: 2536 | Зарегистр. 03-10-2002 | Отправлено: 11:49 23-04-2003
urodec



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Прошу прощения за мою тупость но скажите пожалуйста что такое
Цитата:
5. Настройка своих кодировок (например национальные алфавиты)  
6. Вертикальные блоки.  
???
Может пример

Всего записей: 711 | Зарегистр. 17-01-2003 | Отправлено: 18:13 23-04-2003
albel



Moderator
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
urodec

Цитата:
6. Вертикальные блоки.  

   

Цитата:
5. Настройка своих кодировок (например национальные алфавиты)

imho, не столь критично. Это очень специфические настройки.

----------
Я никогда не спорю. Я никогда не противоречу. Я иногда забываю. / © Б.Дизраэли/

Всего записей: 11003 | Зарегистр. 30-08-2002 | Отправлено: 18:28 23-04-2003
gera serg

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Свои кодировки
код и правильное отображение его экране для ё в русском алфавите или u с такими же двумя точками в немецком
 
Вертикальный блок  
например 10х10 клеток символов начиная в любом месте страницы (например так удобно выбрать содержание ячейки таблицы сделанной в псевдографике)  
 
Добавлено
верт. блок см выше

Всего записей: 788 | Зарегистр. 24-07-2002 | Отправлено: 18:44 23-04-2003
o22



Developer
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
urodec

Цитата:
Прошу прощения за мою тупость но скажите пожалуйста что такое  

Насчет вертикальных блоков albel, надеюсь, наглядно объяснил.
Про кодировки gera serg правильно отметил.
Я немного добавлю.
 
albel

Цитата:
imho, не столь критично. Это очень специфические настройки.

Наличие этой возможности действительно не может быть абсолютным критерием выбора для всех пользователей, но мне, например, очень помагает и наличие такой возможности в RulNote. Более того, стало пока определяющим фактором в выборе редактора.
Вот пример. Есть стандартная 866 кодировка (DOS). В ней нет украинской буквы "i"
Есть альтернативная 866, где этот символ есть, более того остальные украинские символы там на других  местах. Естественно, такую кодировку ни один редактор специально поддерживать не будет. Но у RulNote есть возможность описать свою кодировку, что я за 10 минут и сделал. Более того, редактор ее и распознает.  
Теперь она (эта кодировка) входит в стандартную поставку редактора.
 

Всего записей: 2536 | Зарегистр. 03-10-2002 | Отправлено: 19:53 23-04-2003
PaulGor



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
o22

Цитата:
Вот пример. Есть стандартная 866 кодировка (DOS). В ней нет украинской буквы "i"  
Есть альтернативная 866, где этот символ есть, более того остальные украинские символы там на других  местах. Естественно, такую кодировку ни один редактор специально поддерживать не будет. Но у RulNote есть возможность описать свою кодировку, что я за 10 минут и сделал. Более того, редактор ее и распознает.  

 
Непонятно... Что, этот редактор не использует шрифты операцонки, а
работает со своим, что-ли?
Обычно ведь возможность увидеть символ НИКАК не связана с редактором, а  
только с наличием шрифта, установленного под Windows, то есть, если я где-то
нашёл шрифт кодировки DOS-866, и выбираю его в редакторе, то могу нормально
видеть загруженный в редактор текст (книгу, например), если он в кодировке
DOS-866.
 

Всего записей: 631 | Зарегистр. 05-04-2002 | Отправлено: 20:39 23-04-2003
urodec



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Так товарищи  
Может подскажите как эти " Вертикальные блоки." проверить можно?
Может файл скинете и объясните что будет если прога не поддерживает " Вертикальные блоки"

Всего записей: 711 | Зарегистр. 17-01-2003 | Отправлено: 09:34 24-04-2003
albel



Moderator
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
urodec
Либо ты сможешь выделить вертикальный блок, либо нет . Обычно соотв. настройка сидит в меню Edit или Select.

----------
Я никогда не спорю. Я никогда не противоречу. Я иногда забываю. / © Б.Дизраэли/

Всего записей: 11003 | Зарегистр. 30-08-2002 | Отправлено: 09:39 24-04-2003
o22



Developer
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
PaulGor

Цитата:
Непонятно... Что, этот редактор не использует шрифты операцонки, а  
работает со своим, что-ли?  

Нет, конечно, он использует Courier New (почему его, чуть ниже).
Я может не совсем правильно выразился. В 866 кодировке не то, что нет такой буквы, ей просто не "отведено отдельное знакоместо" или по-простому код, для этого используется английская "i", что весьма нехорошо при перекодировках. (Мы-же для русской и английской "a" один и тот-же символ не используем лишь на основании схожести в написании). Но это не значит, что этой буквы (i) нет в остальных кодировках, а тем более в юникоде, где есть все (как в Одессе )
 
Для решения этой проблемы ничто не мешает мне:
1. сделать свой шрифт (или достать готовый) и установить  его в системе. А при отображении текстов именно в этой кодировке представлять его с помощью этого шрифта. Надеюсь понятно пока ?
Так можно сделать с помощью всем известного Бреда и EmEditor.  
 
2. RulNote (RN) делает более интересно и на мой взгляд правильно и универсально.
Дело в том, что RN выводит текст исключительно в юникоде и исключительно шрифтом Courier New - единственным стандартным юникодовым моноширинным шрифтом.  
Я описываю свою нестандартную раскладку, где указываю, что символу с кодом 247 (F7), коим в 866ukr и является украинская "i" будет соответствовать юникодовый 0456
Ну и по остальным символам аналогично. В итоге на экране я вижу все символы "как родные"
На основании этого и по этому-же принципу идет и автораспознавание кодировки. По юникоду однозначно определяется "джентельменский набор" символов, входящих в текст, и далее выбирается из установленных в редакторе кодировок наиболее приемлемая.
Объясняю я, скорее всего, не совсем профессионально, но смысл идеи постарался передать...  
 
Добавлено
urodec

Цитата:
Может подскажите как эти " Вертикальные блоки." проверить можно?  

Часто движение мыши по тексту с нажатой левой клавишей и кнопкой Alt на клавиатуре дают выделить вертикальный блок.
Проверь как это работает в Ворде, чтобы увидеть и понять.

Всего записей: 2536 | Зарегистр. 03-10-2002 | Отправлено: 11:25 24-04-2003
urodec



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
o22
Всегда сочетание alt + мышь?

Всего записей: 711 | Зарегистр. 17-01-2003 | Отправлено: 21:42 24-04-2003
o22



Developer
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
urodec

Цитата:
Всегда сочетание alt + мышь?  

Ну я во всех редакторах не проверял, но это общепринятое, по-моему, сочетание.
Как, например,  Ctrl-C и Ctrl-V

Всего записей: 2536 | Зарегистр. 03-10-2002 | Отправлено: 11:06 25-04-2003
PaulGor



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
o22

Цитата:
Для решения этой проблемы ничто не мешает мне:  
1. сделать свой шрифт (или достать готовый) и установить  его в системе. А при отображении текстов именно в этой кодировке представлять его с помощью этого шрифта. Надеюсь понятно пока ?  
Так можно сделать с помощью всем известного Бреда и EmEditor

 
Да, это старый способ, но тогда писать-то как? Надо тогда 866 раскладку
клавиатуры делать...
 

Цитата:
2. RulNote (RN) делает более интересно и на мой взгляд правильно и универсально.  

То есть, ты в нём используешь его, только его раскладку клавиатуры и вводишь
все нужные буквы, верно? Не используешь стандартную "RU" на панели задач, да?
 
А если потом надо в MS Word или в ИЕ чего-то написать, то стандартную используешь?
Немного тяжеловесно...
 
 
 
Добавлено
urodec

Цитата:
Всегда сочетание alt + мышь?  

 
Нет, от редактора зависит. В UltraEdit выделение блоков называется  
'Column Mode' и переключается по Alt/C.

Всего записей: 631 | Зарегистр. 05-04-2002 | Отправлено: 00:21 26-04-2003
MorSe

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
У меня вопрос: какой шрифт нужно указывать в установках редактора (Bred2, EmEditor...), чтобы тот правильно понимал русскую кодировку OEM (866)?

Всего записей: 8887 | Зарегистр. 29-09-2002 | Отправлено: 19:20 26-04-2003
albel



Moderator
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
MorSe
Terminal содержит досовский набор.
А в EmEditor вообще-то помогает Reload in different Encoding->Cyrillic (Dos866).


----------
Я никогда не спорю. Я никогда не противоречу. Я иногда забываю. / © Б.Дизраэли/

Всего записей: 11003 | Зарегистр. 30-08-2002 | Отправлено: 23:07 26-04-2003
PaulGor



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
o22

Цитата:
PaulGor
Цитата:да и IMHO, не дело для текстового редактора быть одновременно и  
перекодировщиком - есть отдельные перекодировщики, и т.к. они на это и заточены,  
то удобнее ими пользоваться, а в Windows-редакторе писать 'родной' кодировкой  
Windows-1251...

 
Насчет перекодировки это необязательно, согласен, но иногда очень удобно. А вот насчет распознавания кодировки и записи только в 1251 категорически не согласен.  
Я уже раньше писал, что у меня, например, часто бывает нужно открыть файл в ДОС-кодировке и записать его в ней-же. Причем текст должен быть не перекодирован и не искажен (вследствие временного перекодирования на время работы в редакторе). Очень часто после редактирования в некоторых редакторах происходит искажение спецсимволов (псевдографики или национальных символов).  
 

Тут, конечно, UltraEdit совсем не подходит. Правда, это довольно специфическая  
вещь - в настоящее время мало кто работает с файлами в
кодировке DOS-866.
В любом случае - для твоей задачи UltraEdit не подходит, а для моих -
программирование, HTML, тексты в кодировке win-1251 -
полностью подходит, т.к. в нём поддерживаются все вещи, перечисленные людьми недавно, и о котoрых я писал в предыдущем сообщении:
http://forum.ru-board.com/topic.cgi?forum=5&topic=0602&start=346 [?]
плюс ещё и поиск удобный (и если нужно - с регулярными выражениями).
Например, у меня на сайте - множество HTML файлов (все, кстати, сделаны в UltraEdit),
и я хочу найти или заменить устаревшую ссылку во всех, где она есть (точно не знаю,
в каких файлах есть такая ссылка). Сайт MS очень часто меняется, ссылки устаревают...
В UltraEdit это легко - вызвал его, выбрал опцию поиска в файлах, и все файлы, где
текст найден, показаны списком в нижней рамке, могу на каждый щёлкать и
мне в новом окне загрузиться тот файл, причём та часть, где строка найдена - как в VC++ Dev Studio
( могу этого не делать а просто сделать глобальную замену во всех своих файлах
одной ссылки на другую).
   
А вот EmEditor для моих целей совсем не подходит, особенно то, что он не многооконный, что например, ужасно неудобно для поиска/замены, описанной выше.
       
Так что под каждую задачу всё же получается свой редактор, нет универсально хорошего...

Цитата:
 
PaulGor
Национальные алфавиты легко настраиваются.  
   Для работы выбирается многоязычный шрифт, например, "Courier New" и:  
     - надо писать по-немецки, в windows-1252:  
        выбираю "Western" в списке Scripts для этого шрифта  
     - надо писать по-русски, в windows-1251:  
        выбираю "Cyrillic" в списке Scripts для этого шрифта  
   
 
 
С учетом вышесказанного, это все теряет смысл. Мне не всегда нужно писать в какой-то определенной кодировке (с нуля), мне нужно, чтобы редактор эту кодировку сам распознал (пусть это будет польская, немецкая, как ты предлагал, или украинская ДОС-овсая, как нужно мне), и после редактирования в ней-же записал (причем корректно). Я могу даже не обратить внимания, в какой кодировке был файл, тем более что-то выбирать вручную.  
Так вот упоминаемый UltraEdit этого ничего не делает. Может я плохо искал, но ты сам подтвердил, что распознавания в нем нет, а отсюда все и вытекает...  

 
Ты прав - UltraEdit этого не делает. А какой редактор это делает для разных языков?
По-моему это принципиально невозможно - 'д' в win1251 - это байт со значением
0xE4 (код буквы - 228).
Немецкая буква a-умляют - тоже 0xE4 (код буквы - 228) в кодировке 1252 -
в простом тексте это просто байт, как понять, немецкий он или русский?

Всего записей: 631 | Зарегистр. 05-04-2002 | Отправлено: 00:40 28-04-2003 | Исправлено: PaulGor, 07:04 28-04-2003
o22



Developer
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
PaulGor

Цитата:
Тут, конечно, UltraEdit совсем не подходит. Правда, это довольно специфическая  
вещь - в настоящее время мало кто работает с файлами в  
кодировке DOS-866.  

Да тут дело не совсем именно в 866 кодировке.  
Речь, скорее, о возможности поддержки любой кодировки, даже пользовательской.
 

Цитата:
По-моему это принципиально невозможно - 'д' в win1251 - это байт со значением  
0xE4 (код буквы - 228).  
Немецкая буква a-умляют - тоже 0xE4 (код буквы - 228) в кодировке 1252 -  
в простом тексте это просто байт, как понять, немецкий он или русский?  

Да ты прав, для отдельно взятого символа (если это не юникод), никак.
Вот тут и переплетается возможность (на первый взгляд вроде как не обязательная) автоопределения редактором кодировки и возможность редактором-же правильно отображать и записывать символы в этой кодировке.
Если мы имеем не один символ, а набор символов (коим является текст), то уже с большей долей вероятности можем сказать к какой кодировке (а вернее кодовой странице) этот набор символов принадлежит.
Например, если помимо того-же 228 кода, в тексте есть символы с 253 кодом (э), которого, например, нет в немецкой кодировке, то скорее всего текст все-таки, русский. Вероятность ошибки, конечно есть, если текст небольшой, но здесь все зависит от алгоритма автоопределения. Да если даже и кодировка не определилась, то выбрав ее вручную, мы однозначно укажем как редактору отображать и записывать текст, чтобы не испортить его.

Всего записей: 2536 | Зарегистр. 03-10-2002 | Отправлено: 13:12 29-04-2003
PaulGor



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
o22

Цитата:
Если мы имеем не один символ, а набор символов (коим является текст), то уже с большей долей вероятности можем сказать к какой кодировке (а вернее кодовой странице) этот набор символов принадлежит.  

 
Разве? Если на диске - простой текст, скажем a.TXT, то этот просто набор байтов
и никак нельзя узнать, из какой они кодовой таблицы - Western или Cyrillic,
ведь во всех кодовых таблицах позиции 128-255 заняты, вот они все здесь
нарисованы для всех наборов символов:
http://czyborra.com/charsets/iso8859.html
Поэтому мне кажется нельзя авто-определить, кириллический ли текст - или
ты знаешь редактор, ктороый умеет это делать?
 

Цитата:
Например, если помимо того-же 228 кода, в тексте есть символы с 253 кодом (э), которого, например, нет в немецкой кодировке, то скорее всего текст все-таки, русский. Вероятность ошибки, конечно есть, если текст небольшой, но здесь все зависит от алгоритма автоопределения.  

 
Почему это ты думаешь, что в Western (нет кодировки 'немецкой', есть Western)
нет символа с кодом 253 (hex 0хFD)? Нет, в любой кодировке все позиции 128-255
обычно заняты, вот, например, картинка "Western":
http://czyborra.com/charsets/codepages.html#CP1252
 
Какой может быть 'алгоритм автоопределения' для набора байтов со значениями
128-255, если мы говорим о разных языках??? Никак нельзя сказать,
принадлежит ли данный набор байтов из a.TXT  кодировке Western или Cyrillic или
Greek, и т.п.
 

Цитата:
Да если даже и кодировка не определилась, то выбрав ее вручную, мы однозначно укажем как редактору отображать и записывать текст, чтобы не испортить его.

 
Естественно, именно так и работает UltraEdit и большинство других простых текстовых редакторов -
вручную выбрав скрипт шрифта в UltraEdit - "Western" или Cyrillic или Greek,
я получаю правильное отображение тех самых байтов из a.TXT - то есть
это и есть ручной выбор кодировки данного текста.
 
И, как и большинство других неюникодовых простых текстовых редакторов,
UltraEdit не портит текст, записывая его - по определению!
Ведь такие редакторы, в отличие от юникодовых,  
НЕ трогают байты - ни при загрузке, ни при отображении, ни при записи на диск.  
 
Только юникодовые редакторы могут испортить текст, потому что они 'трогают' байты -
пытаются их интерпретировать, т.к. им надо всё время конвертировать текст
Unicode <--->не-Unicode при работе с .TXT (если только не делать юникодового .TXT).

Всего записей: 631 | Зарегистр. 05-04-2002 | Отправлено: 22:18 29-04-2003 | Исправлено: PaulGor, 22:19 29-04-2003
YUNGA



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
RulNote 1.2.4
hxxp://www.rulnote.udmlink.ru/DownloadFiles/RN_Setup.zip

Всего записей: 154 | Зарегистр. 19-07-2002 | Отправлено: 13:28 30-04-2003
o22



Developer
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
PaulGor

Цитата:
Разве? Если на диске - простой текст, скажем a.TXT, то этот просто набор байтов  
и никак нельзя узнать, из какой они кодовой таблицы - Western или Cyrillic,  
ведь во всех кодовых таблицах позиции 128-255 заняты, вот они все здесь  

 
Заняты все, это точно. Но все-ли используются ?
Возьмем Cyrrilic.
В каком русском тексте используются символы ЂЃѓ†‡€‰ЉЊЌЋЏђљњќћџ, которые в Cyrrilic присутствуют ? А на этих знакоместах в другой кодировке (пусть и Western) могут быть "рабочие", или другими словами, используемые в языке символы. Ладно, не буду говорить за Western, мне лениво смотреть какие там символы в ней на этих знакоместах, но в ДОС-овской кодировке на этих знакоместах псевдографика, что с большой долей вероятности может говорить о том, что этот текст может быть ДОСовским.  
 

Цитата:
Почему это ты думаешь, что в Western (нет кодировки 'немецкой', есть Western)  
нет символа с кодом 253 (hex 0хFD)? Нет, в любой кодировке все позиции 128-255  
обычно заняты, вот, например, картинка "Western":  

Да пофиг, хоть немецкой, хоть турецкой, подход везде един. 253 код я привел только для примера (см. мое сообщение), а тем более, что в немецком языке символа, находящегося на 253 знакоместе как раз и нет.
В алфавите может быть  от 25  до 35 букв, а в кодовой странице их 256, диапазоне 128-255 соответсвенно 128. Остальное забито "возможно используемыми" или неиспользуемыми символами. На этом и основываются все алгоритмы автоопределения кодировки.
 
Здесь я еще ничего не говорю о методе основанном на "характерных сочетаниях символов", который еще более интеллектуален и позволяет определить кодировку почти на 100%

Цитата:
Поэтому мне кажется нельзя авто-определить, кириллический ли текст - или  
ты знаешь редактор, ктороый умеет это делать?  

Ты не прав, во многих редакторах это рядовая фича.
Тот-же всем известный простенький Bred это делает легко.
Или редактор RulNote, на который вон ссылку дал YUNGA и которым я пользуюсь.
Да чего далеко ходить. В своих программах я применяю функцию определения кодировки dbf-файлов, написанную собственноручно. Правда определяется только DOS и Win-1251 кодировки, но этого для меня достаточно.

Цитата:
Только юникодовые редакторы могут испортить текст, потому что они 'трогают' байты - пытаются их интерпретировать, т.к. им надо всё время конвертировать текст  
Unicode <--->не-Unicode при работе с .TXT (если только не делать юникодового .TXT).  

А это уже полный бред. Даже объяснять неохота.
Посмотри, если не влом, RulNote.
Почитай FAQ к нему и документацию.

Всего записей: 2536 | Зарегистр. 03-10-2002 | Отправлено: 14:40 30-04-2003
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59

Компьютерный форум Ru.Board » Компьютеры » Программы » Текстовый редактор | Text editor


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2025

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru