Що таке кодування UTF-8?

UTF-8 – це універсальна кодова сторінка для інтернаціоналізації та здатна кодувати весь набір символів Unicode. Він широко використовується в Інтернеті та є типовим для платформ на базі *nix.20 серпня 2024 р.

UTF-8 — це стандарт кодування символів змінної довжини, який використовується для електронного зв’язку. Назва, визначена стандартом Unicode, походить від формату перетворення Unicode – 8-біт. UTF-8 є здатний кодувати всі 1 112 064 дійсних кодових точок Unicode за допомогою одного-чотирьох однобайтових (8-бітних) одиниць коду.

Формат перетворення Юнікоду UTF-8 система кодування для Unicode. Він може перетворити будь-який символ Unicode у відповідний унікальний двійковий рядок, а також може перетворити двійковий рядок назад у символ Unicode. Це значення «UTF» або «Формат перетворення Юнікоду».

UTF-8 є кодування Unicode змінної ширини, яке кодує кожну дійсну кодову точку Unicode за допомогою одного-чотирьох 8-бітних байтів. UTF-8 має багато бажаних властивостей, у тому числі те, що він зворотно сумісний з ASCII, часто забезпечує більш компактне представлення даних Unicode, ніж UTF-16, і не залежить від порядку кінців.

В UTF-8, символи кодуються за допомогою послідовностей від 1 до 6 октетів. Єдиний октет «послідовності» одиниці має біт вищого порядку, встановлений на 0, решта 7 бітів використовуються для кодування значення символу. У послідовності з n октетів, n>1, початковий октет має n бітів вищого порядку, встановлених на 1, за якими слідує біт, встановлений на 0.

Нормальним способом читання потоку символів UTF-8 було б читання файлу рядок за рядком і декодування кожного рядка за допомогою ітератора «utf-8», який дає символи UTF-8 у вигляді рядків (один за одним) або використання « руни» ітератор, який повертає символи UTF-8 як руни (один за одним).