XML與面向Web的數(shù)據(jù)挖掘技術(shù)
面向Web的數(shù)據(jù)挖掘
Web上有海量的數(shù)據(jù)信息,怎樣對(duì)這些數(shù)據(jù)進(jìn)行復(fù)雜的應(yīng)用成了現(xiàn)今數(shù)據(jù)庫(kù)技術(shù)的研究熱點(diǎn)。數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中發(fā)現(xiàn)隱含的規(guī)律性的內(nèi)容,解決數(shù)據(jù)的應(yīng)用質(zhì)量問題。充分利用有用的數(shù)據(jù),廢棄虛偽無用的數(shù)據(jù),是數(shù)據(jù)挖掘技術(shù)的最重要的應(yīng)用。相對(duì)于Web的數(shù)據(jù)而言,傳統(tǒng)的數(shù)據(jù)庫(kù)中的數(shù)據(jù)結(jié)構(gòu)性很強(qiáng),即其中的數(shù)據(jù)為完全結(jié)構(gòu)化的數(shù)據(jù),而Web上的數(shù)據(jù)最大特點(diǎn)就是半結(jié)構(gòu)化。所謂半結(jié)構(gòu)化是相對(duì)于完全結(jié)構(gòu)化的傳統(tǒng)數(shù)據(jù)庫(kù)的數(shù)據(jù)而言。顯然,面向Web的數(shù)據(jù)挖掘比面向單個(gè)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘要復(fù)雜得多。
1.異構(gòu)數(shù)據(jù)庫(kù)環(huán)境
從數(shù)據(jù)庫(kù)研究的角度出發(fā),Web網(wǎng)站上的信息也可以看作一個(gè)數(shù)據(jù)庫(kù),一個(gè)更大、更復(fù)雜的數(shù)據(jù)庫(kù)。Web上的每一個(gè)站點(diǎn)就是一個(gè)數(shù)據(jù)源,每個(gè)數(shù)據(jù)源都是異構(gòu)的,因而每一站點(diǎn)之間的信息和組織都不一樣,這就構(gòu)成了一個(gè)巨大的異構(gòu)數(shù)據(jù)庫(kù)環(huán)境。如果想要利用這些數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,首先,必須要研究站點(diǎn)之間異構(gòu)數(shù)據(jù)的集成問題,只有將這些站點(diǎn)的數(shù)據(jù)都集成起來,提供給用戶一個(gè)統(tǒng)一的視圖,才有可能從巨大的數(shù)據(jù)資源中獲取所需的東西。其次,還要解決Web上的數(shù)據(jù)查詢問題,因?yàn)槿绻璧臄?shù)據(jù)不能很有效地得到,對(duì)這些數(shù)據(jù)進(jìn)行分析、集成、處理就無從談起。
2.半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)
Web上的數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)庫(kù)中的數(shù)據(jù)不同,傳統(tǒng)的數(shù)據(jù)庫(kù)都有一定的數(shù)據(jù)模型,可以根據(jù)模型來具體描述特定的數(shù)據(jù)。而Web上的數(shù)據(jù)非常復(fù)雜,沒有特定的模型描述,每一站點(diǎn)的數(shù)據(jù)都各自獨(dú)立設(shè)計(jì),并且數(shù)據(jù)本身具有自述性和動(dòng)態(tài)可變性。因而,Web上的數(shù)據(jù)具有一定的結(jié)構(gòu)性,但因自述層次的存在,從而是一種非完全結(jié)構(gòu)化的數(shù)據(jù),這也被稱之為半結(jié)構(gòu)化數(shù)據(jù)。半結(jié)構(gòu)化是Web上數(shù)據(jù)的最大特點(diǎn)。
3.解決半結(jié)構(gòu)化的數(shù)據(jù)源問題
Web數(shù)據(jù)挖掘技術(shù)首要解決半結(jié)構(gòu)化數(shù)據(jù)源模型和半結(jié)構(gòu)化數(shù)據(jù)模型的查詢與集成問題。解決Web上的異構(gòu)數(shù)據(jù)的集成與查詢問題,就必須要有一個(gè)模型來清晰地描述Web上的數(shù)據(jù)。針對(duì)Web上的數(shù)據(jù)半結(jié)構(gòu)化的特點(diǎn),尋找一個(gè)半結(jié)構(gòu)化的數(shù)據(jù)模型是解決問題的關(guān)鍵所在。除了要定義一個(gè)半結(jié)構(gòu)化數(shù)據(jù)模型外,還需要一種半結(jié)構(gòu)化模型抽取技術(shù),即自動(dòng)地從現(xiàn)有數(shù)據(jù)中抽取半結(jié)構(gòu)化模型的技術(shù)。面向Web的數(shù)據(jù)挖掘必須以半結(jié)構(gòu)化模型和半結(jié)構(gòu)化數(shù)據(jù)模型抽取技術(shù)為前提。
XML與Web數(shù)據(jù)挖掘技術(shù)
以XML為基礎(chǔ)的新一代WWW環(huán)境是直接面對(duì)Web數(shù)據(jù)的,不僅可以很好地兼容原有的Web應(yīng)用,而且可以更好地實(shí)現(xiàn)Web中的信息共享與交換。XML可看作一種半結(jié)構(gòu)化的數(shù)據(jù)模型,可以很容易地將XML的文檔描述與關(guān)系數(shù)據(jù)庫(kù)中的屬性一對(duì)應(yīng)起來,實(shí)施精確地查詢與模型抽取。
1.XML的產(chǎn)生與發(fā)展
XML(eXtensibleMarkupLanguage)是由萬維網(wǎng)協(xié)會(huì)(W3C)設(shè)計(jì),特別為Web應(yīng)用服務(wù)的SGML(StandardGeneralMarkupLanguage)的一個(gè)重要分支?偟膩碚f,XML是一種中介標(biāo)示語(yǔ)言(Meta-markupLanguage),可提供描述結(jié)構(gòu)化資料的格式,詳細(xì)來說,XML是一種類似于HTML,被設(shè)計(jì)用來描述數(shù)據(jù)的語(yǔ)言。XML提供了一種獨(dú)立的運(yùn)行程序的方法來共享數(shù)據(jù),它是用來自動(dòng)描述信息的一種新的標(biāo)準(zhǔn)語(yǔ)言,它能使計(jì)算機(jī)通信把Internet的功能由信息傳遞擴(kuò)大到人類其他多種多樣的活動(dòng)中去。XML由若干規(guī)則組成,這些規(guī)則可用于創(chuàng)建標(biāo)記語(yǔ)言,并能用一種被稱作分析程序的簡(jiǎn)明程序處理所有新創(chuàng)建的標(biāo)記語(yǔ)言,正如HTML為第一個(gè)計(jì)算機(jī)用戶閱讀Internet文檔提供一種顯示方式一樣,XML也創(chuàng)建了一種任何人都能讀出和寫入的世界語(yǔ)。XML解決了HTML不能解決的兩個(gè)Web問題,即Internet發(fā)展速度快而接入速度慢的問題,以及可利用的信息多,但難以找到自己需要的那部分信息的問題。XML能增加結(jié)構(gòu)和語(yǔ)義信息,可使計(jì)算機(jī)和服務(wù)器即時(shí)處理多種形式的信息。因此,運(yùn)用XML的擴(kuò)展功能不僅能從Web服務(wù)器下載大量的信息,還能大大減少網(wǎng)絡(luò)業(yè)務(wù)量。
XML中的標(biāo)志(TAG)是沒有預(yù)先定義的,使用者必須要自定義需要的標(biāo)志,XML是能夠進(jìn)行自解釋(SelfDescribing)的語(yǔ)言。XML使用DTD(DocumentTypeDefinition文檔類型定義)來顯示這些數(shù)據(jù),XSL(eXtensibleStyleSheetLanguage)是一種來描述這些文檔如何顯示的機(jī)制,它是XML的樣式表描述語(yǔ)言。XSL的歷史比HTML用的CSS(層疊式樣式表CascadingStyleSheets)還要悠久,XSL包括兩部分:一個(gè)用來轉(zhuǎn)換XML文檔的方法;一個(gè)用來格式化XML文檔的方法。XLL(eXtensibleLinkLanguage)是XML連接語(yǔ)言,它提供XML中的連接,與HTML中的類似,但功能更強(qiáng)大。使用XLL,可以多方向連接,且連接可以存在于對(duì)象層級(jí),而不僅僅是頁(yè)面層級(jí)。由于XML能夠標(biāo)記更多的信息,所以它就能使用戶很輕松地找到他們需要的信息。利用XML,Web設(shè)計(jì)人員不僅能創(chuàng)建文字和圖形,而且還能構(gòu)建文檔類型定義的多層次、相互依存的系統(tǒng)、數(shù)據(jù)樹、元數(shù)據(jù)、超鏈接結(jié)構(gòu)和樣式表。
希望與其他軟考考生進(jìn)行交流?點(diǎn)擊進(jìn)入軟考論壇>>>
更多信息請(qǐng)?jiān)L問:考試吧軟件水平考試欄目
北京 | 天津 | 上海 | 江蘇 | 山東 |
安徽 | 浙江 | 江西 | 福建 | 深圳 |
廣東 | 河北 | 湖南 | 廣西 | 河南 |
海南 | 湖北 | 四川 | 重慶 | 云南 |
貴州 | 西藏 | 新疆 | 陜西 | 山西 |
寧夏 | 甘肅 | 青海 | 遼寧 | 吉林 |
黑龍江 | 內(nèi)蒙古 |