查看匯總:2014計算機三級《PC技術(shù)》章節(jié)考試要點匯總
第三節(jié) 字符和文本的表示
(一)西文字符的編碼
西文是由拉丁字母、數(shù)字、標點符號及一些特殊符號所組成的,它們統(tǒng)稱為“字符”(Characˉter)。所有字符的集合叫做“字符集”。字符集中每一個字符各有一個代碼(即字符的二進制表示),它們互相區(qū)別,構(gòu)成了該字符集的代碼表,簡稱碼表。
目前計算機中使用得最廣泛的西文字符集及其編碼是ASCII碼,即美國標準信息交換碼(American Standard Code for Information Interchange)。它已被國際標準化組織(ISO)批準為國際標準,稱為ISO-646標準,它適用于所有拉丁文字字母,已在全世界通用。我國相應的國家標準是GB1988(稱為《信息處理交換用的七位編碼字符集》標準)。
(二)漢字的編碼1.GB2312-80漢字編碼
1981年我國頒布了《信息交換用漢字編碼字符集·基本集》(GB2312-80)。該標準選出6763個常用漢字和682個非漢字字符,為每個字符規(guī)定了標準代碼,以供這7445個字符在不同計算機系統(tǒng)之間進行信息交換使用。這個標準所收集的字符及其編碼稱為國際碼,又叫做國際交換碼。
2.BIG5漢字編碼
BIG5漢字編碼是我國臺灣地區(qū)計算機系統(tǒng)中使用的漢字編碼字符。它包含了420個圖形符號和13070個漢字(不使用簡化漢字)。
3.漢字的輸入/輸出
(1)漢字的輸入
漢字輸入編碼方法大體分成4類。①數(shù)字編碼,這是一類用一串數(shù)字來表示漢字的編碼方法,例如電報碼、區(qū)位碼等,它們難以記憶,不易推廣。②字音編碼,這是一種基于漢語拼音的編碼方法,簡單易學,適合于非專業(yè)人員。缺點是同音字引起的重碼多,需增加選擇操作。③字形編碼,這是將漢字的字形分解歸類而給出的編碼方法,重碼少、輸入速度快,但編碼規(guī)則不易掌握,五筆字形法和表形碼就是這類編碼。④形音編碼,它吸取了字音編碼和字形編碼的優(yōu)點,使編碼規(guī)則簡化、重碼減少,但掌握起來也不容易。
漢字輸入編碼與漢字內(nèi)碼、漢字交換碼完全是不同范疇的概念,不能把它們混淆起來。
(2)漢字的輸出
每一個漢字的字形都必須預先存放在計算機內(nèi),一套漢字(例如GB2312國標漢字字符集)的所有字符的形狀描述信息集合在一起稱為字形信息庫,簡稱字庫(font)。不同的字體(如宋體、仿宋、楷體、黑體等)對應著不同的字庫。在輸出每一個漢字的時假,計算機都要先到字庫中去找到它的字形描述信息,然后把字形信息送去輸出。
在計算機內(nèi)漢字的字形主要有兩種描述的方法:點陣字形和輪廓字形。
Windows中使用的TrueType字庫采用的就是典型的輪廓字形表示方法。點陣字形和輪廓字形這兩種類型的字庫目前都廣泛使用。
(三)通用編碼字符集(UCS)與Unicode
1.通用編碼字符集(UCS)
ISO/IEC10646,即“通用編碼字符集”(Universal Coded Character Set,即UCS),及等同采用該國際標準的中國國家標準GB13000的設(shè)計目標,就是實現(xiàn)所有字符在同一字符集中等長編碼、同等使用的真正多文種信息處理。UCS規(guī)定了全世界現(xiàn)代書面語言文字所使用的所有字符的標準編碼。
2.Unicode
通用編碼字符集是一個由各種大小字符集組成的編碼體系。能容納足夠多的各種字符集,四字節(jié)的編碼(UCS-4)可以安排13億個字符。
但是,四字節(jié)的字符編碼太浪費存儲空間了,它也給處理和傳輸帶來了很大不便。因此,在UCS編碼空間中把00組的00平面稱為基本多文種平面(Basic Multilingual Plane,BMP),并規(guī)定,當組編碼、平面編碼均為00H時可以省略,因此安排在基本多文種平面上的字符只需要使用兩個字節(jié)來表示,這就形成了一個雙字節(jié)編碼的字符集,它是UCS的子集,記做UCS-2,又稱做Unicode(統(tǒng)一碼,或聯(lián)合碼)。
3.中日韓統(tǒng)一漢字編碼字符集(CJK編碼)
UCS(Unicode)中的表意文字部分采用的是中日韓統(tǒng)一漢字編碼(稱為CJK編碼)。所謂漢字的統(tǒng)一編碼是指,不論國家和地區(qū),不論漢字的字義有無區(qū)別,只要字形相同,該漢字就只有一個代碼。
4.GB18030-2000編碼
GB18030-2000編碼標準在原來的GB2312-1980編碼標準和GBK編碼標準的基礎(chǔ)上進行了擴充,增加了四字節(jié)部分的編碼。它可以完全映射國際標準ISO10646(UCS)的基本平面和所有輔助平面,共有160多萬個碼位。
(四)文本1.簡單文本(純文本)
最簡單的文本除了可顯示/打印的ASCII字符(漢字)及“回車”、“換行”、“制表”等用于格式控制的有限幾個ASCII字符之外,幾乎不包含任何其他信息。這種文本常常稱為純文本或ASII文本,文件的后綴名是.txt。
2.豐富格式文本
為了使文本能以整齊、醒目、美觀、大方的形式展現(xiàn)給用戶閱讀,人們需要對純文本進行必要的加工,這個過程稱為文本的格式化,或者稱為排版。經(jīng)過上述處理后的文本一般稱為“豐富格式文本”(Rich Text Format)。由于屬性標志和控制命令并不統(tǒng)一,因此不同的文本處理軟件得到的豐富格式文本互不兼容。為了便于不同的豐富格式文本能在不同的軟件和系統(tǒng)中互相交換使用,特地提出了一種中間格式,稱為RTF格式,所有在PC機上流行的文字處理軟件,都可以輸入和輸出RTF文件,從而達到了文件交換的目的。
超文本(Hypertext)采用一種網(wǎng)狀結(jié)構(gòu)(非線性結(jié)構(gòu))來組織信息。采用這種網(wǎng)狀結(jié)構(gòu),各信息塊很容易按照其內(nèi)容的關(guān)系加以組織。它由若干文本塊(或其他信息)組成,這些文本塊可以是計算機的一個文件或文件的一部分,它們稱為“節(jié)點”。每個節(jié)點都有若干指向其他節(jié)點或從其他節(jié)點指向該節(jié)點的指針,這些指針稱為“鏈”。每個鏈連接著兩個節(jié)點,它是有向的,從一個節(jié)點(稱之為源節(jié)點)指向另一個節(jié)點(稱之為目的節(jié)點。鏈的數(shù)量與節(jié)點的內(nèi)容有關(guān),有些節(jié)點與其他節(jié)點有許多關(guān)聯(lián),因此它就有許多鏈;有些節(jié)點沒有啟程鏈,只能作為目的節(jié)點。
節(jié)點中的數(shù)據(jù)不僅可以是文字,而且可以是圖形、圖像、聲音、動畫或動態(tài)視頻,這就把超文本的節(jié)點推廣到了多媒體的形式,這種基于多媒體信息節(jié)點的超文本,有時稱為“超媒體”(Hyˉpermedia)。
相關(guān)推薦:
北京 | 天津 | 上海 | 江蘇 | 山東 |
安徽 | 浙江 | 江西 | 福建 | 深圳 |
廣東 | 河北 | 湖南 | 廣西 | 河南 |
海南 | 湖北 | 四川 | 重慶 | 云南 |
貴州 | 西藏 | 新疆 | 陜西 | 山西 |
寧夏 | 甘肅 | 青海 | 遼寧 | 吉林 |
黑龍江 | 內(nèi)蒙古 |