(三)通用編碼字符集(UCS)與Unicode
1.通用編碼字符集(UCS)
ISO/IEC10646,即“通用編碼字符集”(Universal Coded Character Set,即UCS),及等同采用該國際標準的中國國家標準GB13000的設計目標,就是實現(xiàn)所有字符在同一字符集中等長編碼、同等使用的真正多文種信息處理。UCS規(guī)定了全世界現(xiàn)代書面語言文字所使用的所有字符的標準編碼。
2.Unicode
通用編碼字符集是一個由各種大小字符集組成的編碼體系。能容納足夠多的各種字符集,四字節(jié)的編碼(UCS-4)可以安排13億個字符。
但是,四字節(jié)的字符編碼太浪費存儲空間了,它也給處理和傳輸帶來了很大不便。因此,在UCS編碼空間中把00組的00平面稱為基本多文種平面(Basic Multilingual Plane,BMP),并規(guī)定,當組編碼、平面編碼均為00H時可以省略,因此安排在基本多文種平面上的字符只需要使用兩個字節(jié)來表示,這就形成了一個雙字節(jié)編碼的字符集,它是UCS的子集,記做UCS-2,又稱做Unicode(統(tǒng)一碼,或聯(lián)合碼)。
3.中日韓統(tǒng)一漢字編碼字符集(CJK編碼)
UCS(Unicode)中的表意文字部分采用的是中日韓統(tǒng)一漢字編碼(稱為CJK編碼)。所謂漢字的統(tǒng)一編碼是指,不論國家和地區(qū),不論漢字的字義有無區(qū)別,只要字形相同,該漢字就只有一個代碼。
4.GB18030-2000編碼
GB18030-2000編碼標準在原來的GB2312-1980編碼標準和GBK編碼標準的基礎上進行了擴充,增加了四字節(jié)部分的編碼。它可以完全映射國際標準ISO10646(UCS)的基本平面和所有輔助平面,共有160多萬個碼位。
(四)文本
1.簡單文本(純文本)
最簡單的文本除了可顯示/打印的ASCII字符(漢字)及“回車”、“換行”、“制表”等用于格式控制的有限幾個ASCII字符之外,幾乎不包含任何其他信息。這種文本常常稱為純文本或ASII文本,文件的后綴名是.txt。
2.豐富格式文本
為了使文本能以整齊、醒目、美觀、大方的形式展現(xiàn)給用戶閱讀,人們需要對純文本進行必要的加工,這個過程稱為文本的格式化,或者稱為排版。經(jīng)過上述處理后的文本一般稱為“豐富格式文本”(Rich Text Format)。由于屬性標志和控制命令并不統(tǒng)一,因此不同的文本處理軟件得到的豐富格式文本互不兼容。為了便于不同的豐富格式文本能在不同的軟件和系統(tǒng)中互相交換使用,特地提出了一種中間格式,稱為RTF格式,所有在PC機上流行的文字處理軟件,都可以輸入和輸出RTF文件,從而達到了文件交換的目的。
超文本(Hypertext)采用一種網(wǎng)狀結構(非線性結構)來組織信息。采用這種網(wǎng)狀結構,各信息塊很容易按照其內(nèi)容的關系加以組織。它由若干文本塊(或其他信息)組成,這些文本塊可以是計算機的一個文件或文件的一部分,它們稱為“節(jié)點”。每個節(jié)點都有若干指向其他節(jié)點或從其他節(jié)點指向該節(jié)點的指針,這些指針稱為“鏈”。每個鏈連接著兩個節(jié)點,它是有向的,從一個節(jié)點(稱之為源節(jié)點)指向另一個節(jié)點(稱之為目的節(jié)點。鏈的數(shù)量與節(jié)點的內(nèi)容有關,有些節(jié)點與其他節(jié)點有許多關聯(lián),因此它就有許多鏈;有些節(jié)點沒有啟程鏈,只能作為目的節(jié)點。
節(jié)點中的數(shù)據(jù)不僅可以是文字,而且可以是圖形、圖像、聲音、動畫或動態(tài)視頻,這就把超文本的節(jié)點推廣到了多媒體的形式,這種基于多媒體信息節(jié)點的超文本,有時稱為“超媒體”(Hyˉpermedia)。
相關推薦:計算機等級考試三級PC技術常見系統(tǒng)命令行北京 | 天津 | 上海 | 江蘇 | 山東 |
安徽 | 浙江 | 江西 | 福建 | 深圳 |
廣東 | 河北 | 湖南 | 廣西 | 河南 |
海南 | 湖北 | 四川 | 重慶 | 云南 |
貴州 | 西藏 | 新疆 | 陜西 | 山西 |
寧夏 | 甘肅 | 青海 | 遼寧 | 吉林 |
黑龍江 | 內(nèi)蒙古 |