2.XML的主要特點(diǎn)
正是XML的特點(diǎn)決定了其卓越的性能表現(xiàn)。XML作為一種標(biāo)記語言,有許多特點(diǎn):
(1)簡單。XML經(jīng)過精心設(shè)計(jì),整個(gè)規(guī)范簡單明了,它由若干規(guī)則組成,這些規(guī)則可用于創(chuàng)建標(biāo)記語言,并能用一種常常稱作分析程序的簡明程序處理所有新創(chuàng)建的標(biāo)記語言。XML能創(chuàng)建一種任何人都能讀出和寫入的世界語,這種創(chuàng)建世界語的功能叫做統(tǒng)一性功能。如XML創(chuàng)建的標(biāo)記總是成對出現(xiàn),以及依靠稱作統(tǒng)一代碼的新的編碼標(biāo)準(zhǔn)。
(2)開放。XML是SGML在市場上有許多成熟的軟件可用來幫助編寫、管理等,開放式標(biāo)準(zhǔn)XML的基礎(chǔ)是經(jīng)過驗(yàn)證的標(biāo)準(zhǔn)技術(shù),并針對網(wǎng)絡(luò)做最佳化。眾多業(yè)界頂尖公司,與W3C的工作群組并肩合作,協(xié)助確保交互作業(yè)性,支持各式系統(tǒng)和瀏覽器上的開發(fā)人員、作者和使用者,以及改進(jìn)XML標(biāo)準(zhǔn)。XML解釋器可以使用編程的方法來載入一個(gè)XML的文檔,當(dāng)這個(gè)文檔被載入以后,用戶就可以通過XML文件對象模型來獲取和操縱整個(gè)文檔的信息,加快了網(wǎng)絡(luò)運(yùn)行速度。
(3)高效且可擴(kuò)充。支持復(fù)用文檔片斷,使用者可以發(fā)明和使用自己的標(biāo)簽,也可與他人共享,可延伸性大,在XML中,可以定義無限量的一組標(biāo)注。XML提供了一個(gè)標(biāo)示結(jié)構(gòu)化資料的架構(gòu)。一個(gè)XML組件可以宣告與其相關(guān)的資料為零售價(jià)、營業(yè)稅、書名、數(shù)量或其它任何數(shù)據(jù)元素。隨著世界范圍內(nèi)的許多機(jī)構(gòu)逐漸采用XML標(biāo)準(zhǔn),將會(huì)有更多的相關(guān)功能出現(xiàn):一旦鎖定資料,便可以使用任何方式透過電纜線傳遞,并在瀏覽器中呈現(xiàn),或者轉(zhuǎn)交到其他應(yīng)用程序做進(jìn)一步的處理。XML提供了一個(gè)獨(dú)立的運(yùn)用程序的方法來共享數(shù)據(jù),使用DTD,不同的組中的人就能夠使用共同的DTD來交換數(shù)據(jù)。你的應(yīng)用程序可以使用這個(gè)標(biāo)準(zhǔn)的DTD來驗(yàn)證你接受到的數(shù)據(jù)是否有效,你也可以使用一個(gè)DTD來驗(yàn)證你自己的數(shù)據(jù)。
(4)國際化。標(biāo)準(zhǔn)國際化,且支持世界上大多數(shù)文字。這源于依靠它的統(tǒng)一代碼的新的編碼標(biāo)準(zhǔn),這種編碼標(biāo)準(zhǔn)支持世界上所有以主要語言編寫的混合文本。在HTML中,就大多數(shù)字處理而言,一個(gè)文檔一般是用一種特殊語言寫成的,不管是英語,還是日語或阿拉伯語,如果用戶的軟件不能閱讀特殊語言的字符,那么他就不能使用該文檔。但是能閱讀XML語言的軟件就能順利處理這些不同語言字符的任意組合。因此,XML不僅能在不同的計(jì)算機(jī)系統(tǒng)之間交換信息,而且能跨國界和超越不同文化疆界交換信息。
3.XML在Web數(shù)據(jù)挖掘中的應(yīng)用
XML已經(jīng)成為正式的規(guī)范,開發(fā)人員能夠用XML的格式標(biāo)記和交換數(shù)據(jù)。XML在三層架構(gòu)上為數(shù)據(jù)處理提供了很好的方法。使用可升級(jí)的三層模型,XML可以從存在的數(shù)據(jù)中產(chǎn)生出來,使用XML結(jié)構(gòu)化的數(shù)據(jù)可以從商業(yè)規(guī)范和表現(xiàn)形式中分離出來。數(shù)據(jù)的集成、發(fā)送、處理和顯示是下面過程中的每一個(gè)步驟:
促進(jìn)XML應(yīng)用的是那些用標(biāo)準(zhǔn)的HTML無法完成的Web應(yīng)用。這些應(yīng)用從大的方面講可以被分成以下四類:需要Web客戶端在兩個(gè)或更多異質(zhì)數(shù)據(jù)庫之間進(jìn)行通信的應(yīng)用;試圖將大部分處理負(fù)載從Web服務(wù)器轉(zhuǎn)到Web客戶端的應(yīng)用;需要Web客戶端將同樣的數(shù)據(jù)以不同的瀏覽形式提供給不同的用戶的應(yīng)用;需要智能Web代理根據(jù)個(gè)人用戶的需要裁減信息內(nèi)容的應(yīng)用。顯而易見,這些應(yīng)用和Web的數(shù)據(jù)挖掘技術(shù)有著重要的聯(lián)系,基于Web的數(shù)據(jù)挖掘必須依靠它們來實(shí)現(xiàn)。
XML給基于Web的應(yīng)用軟件賦予了強(qiáng)大的功能和靈活性,因此它給開發(fā)者和用戶帶來了許多好處。比如進(jìn)行更有意義的搜索,并且Web數(shù)據(jù)可被XML唯一地標(biāo)識(shí)。沒有XML,搜索軟件必須了解每個(gè)數(shù)據(jù)庫是如何構(gòu)建的,但這實(shí)際上是不可能的,因?yàn)槊總(gè)數(shù)據(jù)庫描述數(shù)據(jù)的格式幾乎都是不同的。由于不同來源數(shù)據(jù)的集成問題的存在,現(xiàn)在搜索多樣的不兼容的數(shù)據(jù)庫實(shí)際上是不可能的。XML能夠使不同來源的結(jié)構(gòu)化的數(shù)據(jù)很容易地結(jié)合在一起。軟件代理商可以在中間層的服務(wù)器上對從后端數(shù)據(jù)庫和其它應(yīng)用處來的數(shù)據(jù)進(jìn)行集成。然后,數(shù)據(jù)就能被發(fā)送到客戶或其他服務(wù)器做進(jìn)一步的集合、處理和分發(fā)。XML的擴(kuò)展性和靈活性允許它描述不同種類應(yīng)用軟件中的數(shù)據(jù),從描述搜集的Web頁到數(shù)據(jù)記錄,從而通過多種應(yīng)用得到數(shù)據(jù)。同時(shí),由于基于XML的數(shù)據(jù)是自我描述的,數(shù)據(jù)不需要有內(nèi)部描述就能被交換和處理。利用XML,用戶可以方便地進(jìn)行本地計(jì)算和處理,XML格式的數(shù)據(jù)發(fā)送給客戶后,客戶可以用應(yīng)用軟件解析數(shù)據(jù)并對數(shù)據(jù)進(jìn)行編輯和處理。使用者可以用不同的方法處理數(shù)據(jù),而不僅僅是顯示它。XML文檔對象模式(DOM)允許用腳本或其他編程語言處理數(shù)據(jù),數(shù)據(jù)計(jì)算不需要回到服務(wù)器就能進(jìn)行。XML可以被利用來分離使用者觀看數(shù)據(jù)的界面,使用簡單靈活開放的格式,可以給Web創(chuàng)建功能強(qiáng)大的應(yīng)用軟件,而原來這些軟件只能建立在高端數(shù)據(jù)庫上。另外,數(shù)據(jù)發(fā)到桌面后,能夠用多種方式顯示。
希望與其他軟考考生進(jìn)行交流?點(diǎn)擊進(jìn)入軟考論壇>>>
進(jìn)入考試吧博客記錄下自己的備考?xì)v程吧
更多信息請?jiān)L問:考試吧軟件水平考試欄目