三、字符和文本的表示
(一)西文字符的編碼
西文是由拉丁字母、數(shù)字、標(biāo)點符號及一些特殊符號所組成的,它們統(tǒng)稱為“字符”(Characˉter)。所有字符的集合叫做“字符集”。字符集中每一個字符各有一個代碼(即字符的二進制表示),它們互相區(qū)別,構(gòu)成了該字符集的代碼表,簡稱碼表。
目前計算機中使用得最廣泛的西文字符集及其編碼是ASCII碼,即美國標(biāo)準(zhǔn)信息交換碼(American Standard Code for Information Interchange)。它已被國際標(biāo)準(zhǔn)化組織(ISO)批準(zhǔn)為國際標(biāo)準(zhǔn),稱為ISO-646標(biāo)準(zhǔn),它適用于所有拉丁文字字母,已在全世界通用。我國相應(yīng)的國家標(biāo)準(zhǔn)是GB1988(稱為《信息處理交換用的七位編碼字符集》標(biāo)準(zhǔn))。
(二)漢字的編碼
1.GB2312-80漢字編碼
1981年我國頒布了《信息交換用漢字編碼字符集·基本集》(GB2312-80)。該標(biāo)準(zhǔn)選出6763個常用漢字和682個非漢字字符,為每個字符規(guī)定了標(biāo)準(zhǔn)代碼,以供這7445個字符在不同計算機系統(tǒng)之間進行信息交換使用。這個標(biāo)準(zhǔn)所收集的字符及其編碼稱為國際碼,又叫做國際交換碼。
2.BIG5漢字編碼
BIG5漢字編碼是我國臺灣地區(qū)計算機系統(tǒng)中使用的漢字編碼字符。它包含了420個圖形符號和13070個漢字(不使用簡化漢字)。
3.漢字的輸入/輸出
(1)漢字的輸入
漢字輸入編碼方法大體分成4類。①數(shù)字編碼,這是一類用一串?dāng)?shù)字來表示漢字的編碼方法,例如電報碼、區(qū)位碼等,它們難以記憶,不易推廣。②字音編碼,這是一種基于漢語拼音的編碼方法,簡單易學(xué),適合于非專業(yè)人員。缺點是同音字引起的重碼多,需增加選擇操作。③字形編碼,這是將漢字的字形分解歸類而給出的編碼方法,重碼少、輸入速度快,但編碼規(guī)則不易掌握,五筆字形法和表形碼就是這類編碼。④形音編碼,它吸取了字音編碼和字形編碼的優(yōu)點,使編碼規(guī)則簡化、重碼減少,但掌握起來也不容易。
漢字輸入編碼與漢字內(nèi)碼、漢字交換碼完全是不同范疇的概念,不能把它們混淆起來。
(2)漢字的輸出
每一個漢字的字形都必須預(yù)先存放在計算機內(nèi),一套漢字(例如GB2312國標(biāo)漢字字符集)的所有字符的形狀描述信息集合在一起稱為字形信息庫,簡稱字庫(font)。不同的字體(如宋體、仿宋、楷體、黑體等)對應(yīng)著不同的字庫。在輸出每一個漢字的時假,計算機都要先到字庫中去找到它的字形描述信息,然后把字形信息送去輸出。
在計算機內(nèi)漢字的字形主要有兩種描述的方法:點陣字形和輪廓字形。
Windows中使用的TrueType字庫采用的就是典型的輪廓字形表示方法。點陣字形和輪廓字形這兩種類型的字庫目前都廣泛使用。
相關(guān)推薦:計算機等級考試三級PC技術(shù)常見系統(tǒng)命令行北京 | 天津 | 上海 | 江蘇 | 山東 |
安徽 | 浙江 | 江西 | 福建 | 深圳 |
廣東 | 河北 | 湖南 | 廣西 | 河南 |
海南 | 湖北 | 四川 | 重慶 | 云南 |
貴州 | 西藏 | 新疆 | 陜西 | 山西 |
寧夏 | 甘肅 | 青海 | 遼寧 | 吉林 |
黑龍江 | 內(nèi)蒙古 |