История изменений

«Просто текст» сейчас редкость.

Наоборот, большая часть текста в памяти это latin-1, думаю что остальная часть это местная кодировка.

Или взять html. Там текст заключён в тэги. Одни теги вложены в другие. Где ставить маркер?

Система кодировки не зависит от формата который ее использует, ты что то не так понимаешь. Вообще в CP-1251 есть английские буквы, поэтому для html переключать кодировку вообще не надо.

И, кстати, ещё один момент. Предположим, текст промаркирован где-то там, выше. А ты выделил и скопировал в середине. Что ты скопировал?

Что значит текст в середине? Через GUI? Он уже разбил текст по отображаемым символам, у него такой проблемы не будет. Я не знаю как оно на самом деле работает, но привязывать строки или символы к индексам хорошая идея.

И ещё. Работа программиста со строками будет просто адской. Берём часть одной строки и часть другой. Что это за строки? Что за кодировки? Это нужно будет постоянно искать маркер, который где-то там. Сколько этих маркеров программа не знает. Всё усложняется драматически.

Что значит часть другой строки? Это архивация? Тогда нам все равно, запакуем, при распаковке сделается как было, потому что работаем с потоком байтов, не важно что там внутри текст или изображение.

Если ты мешаешь строки, то ты и в UTF-* не может взять рандомные слайсы и миксовать их, даже просто взять не можешь, иначе обрубишь многобайтовые символы. А до них может быть еще что нибудь, например: https://unicode-explorer.com/c/200F

Новых проблем по сравнению с UTF-* это не добавит. Зато можно будет убрать зависимость от локали, в Unicode некоторые символы отображаются по другому в зависимости от локали пользователя.

«Просто текст» сейчас редкость.

Наоборот, большая часть текста в памяти это latin-1, думаю что остальная часть это местная кодировка.

Или взять html. Там текст заключён в тэги. Одни теги вложены в другие. Где ставить маркер?

Система кодировки не зависит от формата который ее использует, ты что то не так понимаешь. Вообще в CP-1251 есть английские буквы, поэтому для html переключать кодировку вообще не надо.

И, кстати, ещё один момент. Предположим, текст промаркирован где-то там, выше. А ты выделил и скопировал в середине. Что ты скопировал?

Что значит текст в середине? Через GUI? Он уже разбил текст по отображаемым символам, у него такой проблемы не будет. Я не знаю как оно на самом деле работает, но привязывать строки или символы к индексам хорошая идея.

И ещё. Работа программиста со строками будет просто адской. Берём часть одной строки и часть другой. Что это за строки? Что за кодировки? Это нужно будет постоянно искать маркер, который где-то там. Сколько этих маркеров программа не знает. Всё усложняется драматически.

Что значит часть другой строки? Это архивация? Тогда нам все равно, запакуем, при распаковке сделается как было, потому что работаем с потоком байтов, не важно что там внутри текст или изображение.

Если ты мешаешь строки, то ты и в UTF-* не может взять рандомные слайсы и миксовать их, даже просто взять не можешь, иначе обрубишь многобайтовые символы. А до них может быть еще что нибудь, например: https://unicode-explorer.com/c/200F

«Просто текст» сейчас редкость.

Наоборот, большая часть текста в памяти это latin-1, думаю что остальная часть это местная кодировка.

Или взять html. Там текст заключён в тэги. Одни теги вложены в другие. Где ставить маркер?

Система кодировки не зависит от формата который ее использует, ты что то не так понимаешь. Вообще в CP-1251 есть английские буквы, поэтому для html переключать кодировку вообще не надо.

И, кстати, ещё один момент. Предположим, текст промаркирован где-то там, выше. А ты выделил и скопировал в середине. Что ты скопировал?

Что значит текст в середине? Через GUI? Он уже разбил текст по отображаемым символам, у него такой проблемы не будет. Я не знаю как оно на самом деле работает, но привязывать строки или символы к индексам хорошая идея.

И ещё. Работа программиста со строками будет просто адской. Берём часть одной строки и часть другой. Что это за строки? Что за кодировки? Это нужно будет постоянно искать маркер, который где-то там. Сколько этих маркеров программа не знает. Всё усложняется драматически.

Что значит часть другой строки? Это архивация? Тогда нам все равно, запакуем, при распаковке сделается как было.

Если ты мешаешь строки, то ты и в UTF-* не может взять рандомные слайсы и миксовать их, даже просто взять не можешь, иначе обрубишь многобайтовые символы. А до них может быть еще что нибудь, например: https://unicode-explorer.com/c/200F

«Просто текст» сейчас редкость.

Наоборот, большая часть текста в памяти это latin-1, думаю что остальная часть это местная кодировка.

Или взять html. Там текст заключён в тэги. Одни теги вложены в другие. Где ставить маркер?

Система кодировки не зависит от формата который ее использует, ты что то не так понимаешь. Вообще в CP-1251 есть английские буквы, поэтому для html переключать кодировку вообще не надо.

И, кстати, ещё один момент. Предположим, текст промаркирован где-то там, выше. А ты выделил и скопировал в середине. Что ты скопировал?

Что значит текст в середине? Через GUI? Он уже разбил текст по отображаемым символам, у него такой проблемы не будет. Я не знаю как оно на самом деле работает, но привязывать строки или символы к индексам хорошая идея.

И ещё. Работа программиста со строками будет просто адской. Берём часть одной строки и часть другой. Что это за строки? Что за кодировки? Это нужно будет постоянно искать маркер, который где-то там. Сколько этих маркеров программа не знает. Всё усложняется драматически.

Что значит часть другой строки? Это архивация? Тогда нам все равно, запакуем, при распаковке сделается как надо.

Если ты мешаешь строки, то ты и в UTF-* не может взять рандомные слайсы и миксовать их, даже просто взять не можешь, иначе обрубишь многобайтовые символы. А до них может быть еще что нибудь, например: https://unicode-explorer.com/c/200F

«Просто текст» сейчас редкость.

Наоборот, большая часть текста в памяти это latin-1, думаю что остальная часть это местная кодировка.

Или взять html. Там текст заключён в тэги. Одни теги вложены в другие. Где ставить маркер?

Система кодировки не зависит от формата который ее использует, ты что то не так понимаешь. Вообще в CP-1251 есть английские буквы, поэтому для html переключать кодировку вообще не надо.

И, кстати, ещё один момент. Предположим, текст промаркирован где-то там, выше. А ты выделил и скопировал в середине. Что ты скопировал?

Что значит текст в середине? Через GUI? Он уже разбил текст по отображаемым символам.

И ещё. Работа программиста со строками будет просто адской. Берём часть одной строки и часть другой. Что это за строки? Что за кодировки? Это нужно будет постоянно искать маркер, который где-то там. Сколько этих маркеров программа не знает. Всё усложняется драматически.

Что значит часть другой строки? Это архивация? Тогда нам все равно, запакуем, при распаковке сделается как надо.

Если ты мешаешь строки, то ты и в UTF-* не может взять рандомные слайсы и миксовать их, даже просто взять не можешь, иначе обрубишь многобайтовые символы. А до них может быть еще что нибудь, например: https://unicode-explorer.com/c/200F

«Просто текст» сейчас редкость.

Наоборот, большая часть текста в программе это latin-1, думаю что остальная часть это местная кодировка.

Или взять html. Там текст заключён в тэги. Одни теги вложены в другие. Где ставить маркер?

Система кодировки не зависит от формата который ее использует, ты что то не так понимаешь. Вообще в CP-1251 есть английские буквы, поэтому для html переключать кодировку вообще не надо.

И, кстати, ещё один момент. Предположим, текст промаркирован где-то там, выше. А ты выделил и скопировал в середине. Что ты скопировал?

Что значит текст в середине? Через GUI? Он уже разбил текст по отображаемым символам.

И ещё. Работа программиста со строками будет просто адской. Берём часть одной строки и часть другой. Что это за строки? Что за кодировки? Это нужно будет постоянно искать маркер, который где-то там. Сколько этих маркеров программа не знает. Всё усложняется драматически.

Что значит часть другой строки? Это архивация? Тогда нам все равно, запакуем, при распаковке сделается как надо.

Если ты мешаешь строки, то ты и в UTF-* не может взять рандомные слайсы и миксовать их, даже просто взять не можешь, иначе обрубишь многобайтовые символы. А до них может быть еще что нибудь, например: https://unicode-explorer.com/c/200F