久久99久久99精品免视看看,国内精品自线在拍,久久激情综合狠狠爱五月,巨乳人妻久久+av中文字幕

查字典logo
當(dāng)前位置:查字典>>實(shí)用附錄>>Unicode簡(jiǎn)介

Unicode簡(jiǎn)介

 

Unicode(統(tǒng)一碼、萬(wàn)國(guó)碼、單一碼)是一種在計(jì)算機(jī)上使用的字符編碼。它為每種語(yǔ)言中的每個(gè)字符設(shè)定了統(tǒng)一并且唯一的二進(jìn)制編碼,以滿(mǎn)足跨語(yǔ)言、跨平臺(tái)進(jìn)行文本轉(zhuǎn)換、處理的要求。1990年開(kāi)始研發(fā),1994年正式公布。隨著計(jì)算機(jī)工作能力的增強(qiáng),Unicode也在面世以來(lái)的十多年里得到普及。
Unicode 的編碼和實(shí)現(xiàn)
大概來(lái)說(shuō),Unicode 編碼系統(tǒng)可分為編碼方式和實(shí)現(xiàn)方式兩個(gè)層次。


編碼方式
Unicode 的編碼方式與 ISO 10646 的通用字符集(Universal Character Set,UCS)概念相對(duì)應(yīng),目前實(shí)際應(yīng)用的 Unicode 版本對(duì)應(yīng)于 UCS-2,使用16位的編碼空間。也就是每個(gè)字符占用2個(gè)字節(jié)。這樣理論上一共最多可以表示 216 即 65536 個(gè)字符。基本滿(mǎn)足各種語(yǔ)言的使用。實(shí)際上目前版本的 Unicode 尚未填充滿(mǎn)這16位編碼,保留了大量空間作為特殊使用或?qū)?lái)擴(kuò)展。

上述16位 Unicode 字符構(gòu)成基本多文種平面(Basic Multilingual Plane, 簡(jiǎn)稱(chēng) BMP)。最新(但未實(shí)際廣泛使用)的 Unicode 版本定義了16個(gè)輔助平面,兩者合起來(lái)至少需要占據(jù)21位的編碼空間,比3字節(jié)略少。但事實(shí)上輔助平面字符仍然占用4字節(jié)編碼空間,與 UCS-4 保持一致。未來(lái)版本會(huì)擴(kuò)充到 ISO 10646-1 實(shí)現(xiàn)級(jí)別3,即涵蓋 UCS-4 的所有字符。UCS-4 是一個(gè)更大的尚未填充完全的31位字符集,加上恒為0的首位,共需占據(jù)32位,即4字節(jié)。理論上最多能表示 231 個(gè)字符,完全可以涵蓋一切語(yǔ)言所用的符號(hào)。

BMP 字符的 Unicode 編碼表示為 U+hhhh,其中每個(gè) h 代表一個(gè)十六進(jìn)制數(shù)位。與 UCS-2 編碼完全相同。對(duì)應(yīng)的4字節(jié) UCS-4 編碼后兩個(gè)字節(jié)一致,前兩個(gè)字節(jié)的所有位均為0。

關(guān)于 Unicode 和 ISO 10646 及 UCS 的詳細(xì)關(guān)系 ,請(qǐng)參看通用字符集。


實(shí)現(xiàn)方式
Unicode 的實(shí)現(xiàn)方式不同于編碼方式。一個(gè)字符的 Unicode 編碼是確定的。但是在實(shí)際傳輸過(guò)程中,由于不同系統(tǒng)平臺(tái)的設(shè)計(jì)不一定一致,以及出于節(jié)省空間的目的,對(duì) Unicode 編碼的實(shí)現(xiàn)方式有所不同。Unicode 的實(shí)現(xiàn)方式稱(chēng)為Unicode轉(zhuǎn)換格式(Unicode Translation Format,簡(jiǎn)稱(chēng)為 UTF)。

例如,如果一個(gè)僅包含基本7位ASCII字符的 Unicode 文件,如果每個(gè)字符都使用2字節(jié)的原 Unicode 編碼傳輸,其第一字節(jié)的8位始終為0。這就造成了比較大的浪費(fèi)。對(duì)于這種情況,可以使用 UTF-8 編碼,這是一種變長(zhǎng)編碼,它將基本7位ASCII字符仍用7位編碼表示,占用一個(gè)字節(jié)(首位補(bǔ)0)。而遇到與其他 Unicode 字符混合的情況,將按一定算法轉(zhuǎn)換,每個(gè)字符使用1-3個(gè)字節(jié)編碼,并利用首位為0或1進(jìn)行識(shí)別。這樣對(duì)以7位ASCII字符為主的西文文檔就大大節(jié)省了編碼長(zhǎng)度(具體方案參見(jiàn)UTF-8)。類(lèi)似的,對(duì)未來(lái)會(huì)出現(xiàn)的需要4個(gè)字節(jié)的輔助平面字符和其他 UCS-4 擴(kuò)充字符,2字節(jié)編碼的 UTF-16 也需要通過(guò)一定的算法進(jìn)行轉(zhuǎn)換。

再如,如果直接使用與 Unicode 編碼一致(僅限于 BMP 字符)的 UTF-16 編碼,由于每個(gè)字符占用了兩個(gè)字節(jié),在Macintosh機(jī)和PC機(jī)上對(duì)字節(jié)順序的理解是不一致的。這時(shí)同一字節(jié)流可能會(huì)被解釋為不同內(nèi)容,如編碼為 U+594E 的字符“奎”同編碼為 U+4E59 的“乙”就可能發(fā)生混淆。于是在 UTF-16 編碼實(shí)現(xiàn)方式中使用了大尾序(big-endian)、小尾序(little-endian)的概念,以及BOM(Byte Order Mark)解決方案。(具體方案參見(jiàn)UTF-16)

此外 Unicode 的實(shí)現(xiàn)方式還包括 UTF-7、Punycode、CESU-8、SCSU、UTF-32等,這些實(shí)現(xiàn)方式有些僅在一定的國(guó)家和地區(qū)使用,有些則屬于未來(lái)的規(guī)劃方式。目前通用的實(shí)現(xiàn)方式是 UTF-16小尾序(BOM)、UTF-16大尾序(BOM)和 UTF-8。在微軟公司W(wǎng)indows XP操作系統(tǒng)附帶的記事本中,“另存為”對(duì)話(huà)框可以選擇的四種編碼方式除去非 Unicode 編碼的 ANSI 外,其余三種“Unicode”、“Unicode big endian”和“UTF-8”即分別對(duì)應(yīng)這三種實(shí)現(xiàn)方式。

目前輔助平面的工作主要集中在第二和第三平面的中日韓統(tǒng)一表意文字中,因此包括GBK、GB18030、Big5等簡(jiǎn)體中文、正體中文、日文、韓文以及越南喃字的各種編碼與 Unicode 的協(xié)調(diào)性被重點(diǎn)關(guān)注。考慮到 Unicode 最終要涵蓋所有的字符,從某種意義而言,這些編碼方式也可視作 Unicode 的出現(xiàn)于其之前的既成事實(shí)的實(shí)現(xiàn)方式,如同ASCII及其擴(kuò)展Latin-1一樣,后兩者的字符在16位 Unicode 編碼空間中的編碼第一字節(jié)各位全為0,第二字節(jié)編碼與原編碼完全一致。但上述東亞語(yǔ)言編碼與 Unicode 編碼的對(duì)應(yīng)關(guān)系要復(fù)雜得多。

網(wǎng)友關(guān)注

主站蜘蛛池模板: 亚洲va欧美va天堂v国产综合| 日本边添边摸边做边爱的网站| 激情综合一区二区三区| 国产永久免费观看视频| 尤物yw193无码点击进入| 亚洲欧洲美色一区二区三区| 又色又污又爽又黄的网站| 加勒比色老久久爱综合网| 无套内谢的新婚少妇国语播放| av永久天堂一区二区三区| 中文字幕av无码一区二区三区| 蜜芽亚洲av无码精品色午夜| 日本真人边吃奶边做爽电影| 鲁鲁夜夜天天综合视频| 久久综合九色综合欧美婷婷| 色视频www在线播放国产人成| 亚洲欧美国产成人综合不卡| 国产在线拍揄自揄视频网站| 精品久久伊人99热超碰| 国产精品国产高清国产av| 免费无码成人av在线播| 色欲蜜桃av无码中文字幕| 人人妻人人爽人人澡av| 欧洲美妇乱人伦视频网站| 国产裸拍裸体视频在线观看| 欧美精品国产综合久久| 国产对白叫床清晰在线播放| 成人做受视频试看60秒| 好紧好爽好深再快点av在线| 国产h视频在线观看| 麻豆成人精品国产免费| 久久人妻av一区二区软件| 人妻丝袜无码专区视频网站| 成人特级毛片www免费版| 亚洲熟女中文字幕男人总站| 久久久噜噜噜www成人网| 日本免费一区二区三区最新vr| 国产自偷亚洲精品页65页| 久久精品亚洲日本波多野结衣| 成人影片麻豆国产影片免费观看| 国精产品推荐视频|