КомпјутериПрограмирање

УТФ-8 - кодирање знакова

Уницоде подржава готово све постојеће скупове знакова. Најбољи облик кодира Уницоде скуп знакова је УТФ-8 кодирању. Он подржава компатибилност са АСЦИИ, отпорност на дисторзије података, ефикасности и лакоће прераде. Али прво ствари прво.

кодирање форм

Компјутери раде не само као бројеве апстрактне математичке објекте, као и комбинације јединица складиштења и руковања податке фиксне величине - Бајт и 32-битне речи. Кодирање стандард мора узети у обзир приликом одређивања како представити број карактера.

У рачунарским системима су цели бројеви чувају у меморијским ћелијама 8 битова (1 бајт), 16 или 32 бита. Свака форма дефинише Уницоде кодирање, који је редослед меморијских ћелија цео број одговара одређеном симболу. У стандарду постоје три различите форме кодирања Уницоде карактере 8, 16 и 32-битне блокове. Сходно томе, они су познати као УТФ-8, УТФ-16 и УТФ-32. Име виндовс означава Уницоде Трансформатион Формат. Сваки од три облика која енкодира средстава је једнака заступљеност Уницоде лик има предности у различитим апликацијама.

Шифровање података може да се користи за представљање свих знакова у Уницоде стандарду. Стога, они су потпуно компатибилни са решењима из разних разлога, користећи различите форме кодирање. Сваки кодирање може недвосмислено да се конвертују у неки од друга два без губитка података.

неналозхенииа принцип

Сваки од облика Уникод кодирањем развијен у погледу забране делимичне преклапања. На пример, Виндовс-932 представља ликове са једним или два бајта кода. Дужина Секвенца зависи од првог бајта, па су водећи бајтова вредности у низу двобајтних и једнобајтни раздвојени. Међутим, вредност једног бајта и пратећи бите секуенце могу подударати. То значи, на пример да је потрага карактер Год (код 44) може пронаћи грешком улази у други део секвенце двобајтних карактера "Д" (код 84 44). Да бисте сазнали који је редослед је исправан, програм треба да узме у обзир претходне бајтова.

Ситуација је компликована, ако се водећи и заостаје бајтова меч. То значи да би се уклониле нејасноће ће бити Обрнуто пре достизања почетак текста, односно јединственог кода секвенце. Ово није само неефикасан, али није заштићен од евентуалних грешака, јер само један погрешан бајт у пуном тексту постао нечитљив.

Формат конверзија Цириллиц избегава овај проблем, јер је вредност од водећих, последњи, и једна јединица складиштења нису исте информације. Ово обезбеђује да сви Уницоде за претраживање и поређење, никада даје погрешне резултате, јер је случајности различитих делова кода карактера. Чињеница да су ови облици кодирања поштује принцип неналозхенииа, да их разликује од других Источне Азије вишебајтном кодирања.

Други аспект нонинтерсецтион Уникод кодирања је да сваки лик има јасно дефинисану границу. Ово елиминише потребу да скенира неодређеном броју ранијих симбола. Ова функција се понекад назива себе такта кодирање. Дисторзија кода јединица ће увести дисторзију само једног карактера, и околна ликови су још увек нетакнут. У формату конверзије у 8-битни, ако се показивач указује на бајт, почев од 10кккккк (у бинарном коду) да пронађе почетак симбола је потребно за једну до три обрнутих прелаза.

доследност

Уницоде Конзорцијум у потпуности подржава све 3 облике кодирања. Важно је да се не супротстављају УТФ-8 и Уникод, као свих формата конверзија - једнако вриједни облике решењу Уницоде карактера кодира стандарду.

Бајт-оријентација

Да представљају УТФ-32 знакове ће бити потребан код јединица 32-битни, што се поклапа са Уницоде кодом. Виндовс-16 - један до два 16-битна јединица. УТФ-8 користи до 4 бајта.

УТФ-8 кодирање је дизајниран да буде компатибилан са системима АСЦИИ-басед бајтова оријентисане. Већи део постојећег софтвера и праксе информационе технологије за дуго ослањао на представљању знакова у низу бајтова. Више протокола зависи од сталности АСЦИИ кодирања и користи или избегава специјалне знакове контроле. Једноставан начин да се прилагоди ситуацији Цириллиц може, користећи 8-битни кодирање за заступање Уницоде карактере, неки други еквивалентни АСЦИИ карактер или контролни карактер. У том циљу, а то је УТФ-8 кодирању.

променљива дужина

УТФ-8 - кодирања променљиве дужине, који се састоји од 8-битних складишних јединица, виши битови који указују на који део секвенце сваког појединачног бајт припада. Један опсег вредности додељено на први елемент код секвенце, други - за следећу. Ово обезбеђује дисјоинтнесс кодирање.

АСЦИИ

УТФ-8 кодирање потпуности подржан АСЦИИ кодови (0к00-0к7Ф). То значи да уникод знакова У + 0000-У + 007Ф се конвертују у једнобајтни 0к00-0к7Ф УТФ-8 и тако постала не разликује од АСЦИИ. Поред тога, да би се избегло двосмисленост, вредност 0к00-0к7Ф ни у једном представљању бајт Уникод знакова користи више. За кодирање симбола неидеографицхеских осим АСЦИИ, користећи низ два бајта. Симболи у распону У + 0800-У + ФФФФ представљају три бајтовима, а додатни кодови са више од У + ФФФФ потребна четири бајта.

сфера примене

УТФ-8 кодирање обично даје предност у ХТМЛ протокола, и слично.

КСМЛ-постао је први стандард са пуном подршком за УТФ-8 кодирања. Организације за стандардизацију и то препоручио. Проблем подршка у УРЛ адресу која се разликује од АСЦИИ-карактера, је решен када је конзорцијум В3Ц је и Радна група је инжењеринг група дошла до договора о кодирање свих УРЛ адреса искључиво у УТФ-8.

Компатибилност са АСЦИИ олакшава прелазак на нови софтвер. Са УТФ-8 ради највише текст едитора, укључујући јЕдит, Емацсу, ББЕдит, Ецлипсе, и "Бележница" оперативног система Виндовс. Ниједна друга облик кодирања Уницоде не могу похвалити такве подршке алата.

кодирање предност је да се састоји од низа бајтова. Са УТФ-8 стринг је лако радити у Ц и другим програмским језицима. Ово је једини облик кодирања, наредба не захтева етикете тект БОМ или декларација кодирање у КСМЛ.

само-синхронизација

У окружењу које користи 8-битне симболе прераде у поређењу са осталим сетовима вишебајтне карактера, у УТФ-8 има следеће предности:

  • Први бајт код секвенца садржи информације о његовој дужини. То повећава ефикасност директна претрага.
  • Поједностављена проналажење почетак симбола као полазна бајт ограничен на фиксни опсег вредности.
  • Но раскрсница бите вредности.

Упоредите предности

УТФ-8 кодирање је компактан. Али, када се користи за кодирање Источне Азије знакова (кинески, јапански, корејски, кинески писање помоћу знакова) који се користи 3-бајта секвенце. Такођер УТФ-8 кодирање инфериоран у односу на друге облике кодирање брзину обраде. А линије бинарни сортирање даје исти резултат као и бинарног сортирање Уницоде.

Кодирање знакова схема

Шема кодирање знакова садржи енцодинг симбола облик и поступак за једнобајтни локацију кода јединица. Да бисте утврдили кодирање схему Уницоде стандард обезбеђује употребу неког иницијалног бите реда марка (БОМ, Бите ордер марк).

Када БОМ у УТФ-8 играног ознаком ограничена само позивањем на употребу облика кодирање. Проблеми у одређивању ендиан утф-8 имају, јер његова величина кодирање јединица је један бајт. Коришћење БОМ за овај облик кодирања није ни потребно нити препоручљиво. БОМ може доћи у тексту да се конвертују из других Цодингс помоћу Бите Ордер знак или потпис за УТФ-8 кодном распореду. Је низ од 3 бајтова ЕФ-ХБ 16 16 БФ 16.

Како подесити УТФ-8 кодирање

ХТМЛ-кодирање УТФ-8 је инсталиран са следећим кодом:

глава

Мета хттп-екуив = "цонтент-типе" цонтент = "текст / хтмл; = УТФ-8" ˃

У ПХП УТФ-8 је постављен користећи заглавља () функцију на почетку датотеке након постављања грешку излазни ниво вредности:

˂ ПХП

еррор_репортинг (-1);

заглавље ( "Кс-типе: тект / хтмл цхарсет = УТФ-8 ');

За повезивање са базом података МиСКЛ УТФ-8 кодирање сет:

˂ ПХП

мискл_сет_цхарсет ( 'утф8');

Кодирање ЦСС датотека је УТФ-8 цхарацтерс је наведено на следећи начин:

@цхарсет "утф-8";

Када сачувате фајлове свих врста изабрати УТФ-8 кодирање без БОМ, иначе сајт неће радити. Да би то урадили у ДреамВеаве треба да одаберете ставку менија "модификације - Паге Пропертиес - Наслов / Енцодинг" да промени кодирање на УТФ-8. Праћено претовар страницу, уклоните ознаку са "Повезивање Цириллиц потписа (БОМ)» и применили промене. Ако је уведена било који текст на страници или у бази података други облик кодирања, неопходно је да се поново уђе или поновно кодирање. Када радите са регуларним изразима, будите сигурни да користите модификатор у.

Такође можете да сачувате датотеку у УТФ-8 кодирања у "Бележница" оперативног система Виндовс. Након одабира ставке "Филе - Саве Ас ..." да инсталирате потребну форму кодирања и сачувајте датотеку у УТФ-8.

У текст едитор Нотепад ++, ако сет осим УТФ-8, преко менија "Претвори у УТФ-8 без БОМ» променити карактер и сачувати у УТФ-8.

не постоји алтернатива

У контексту глобализације, где нестају политичке и језичке границе, сетови знакова који имају локалне карактеристике, су од мале користи. Уницоде је један скуп карактера који подржава све локализације. УТФ-8 - пример правилног спровођења Уницоде, што је:

  • Он подржава широк спектар алата, укључујући компатибилност са АСЦИИ кодирање;
  • Отпоран је на дисторзију подацима;
  • једноставан и ефикасан у лечењу;
  • је независан од платформе.

Са појавом УТФ-8 расправа о томе шта облик кодирања или скупа знакова је боље, постаје бесмислено.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 sr.birmiss.com. Theme powered by WordPress.