說到數(shù)據(jù)庫,我就不由地想到同步數(shù)據(jù),如何盡可能地減少每次的同步數(shù)據(jù)量,以此來提高同步效率,降低對網(wǎng)絡(luò)帶寬的消耗是我們使用者所關(guān)心的。對于大批量的數(shù)據(jù)同步,這一點是應(yīng)引起重視的。獲取差異數(shù)據(jù)是解決這個問題的關(guān)鍵點,即我們僅僅同步變化了的數(shù)據(jù),至于沒有變化的,就不再同步。對于減少每次同步數(shù)據(jù)量,以下提供了6個方法:
1、日期欄位(時間戳)
一般情況下,在設(shè)計表的時候,添加兩個日期欄位,createdOn, ChangedOn, 分別記錄數(shù)據(jù)產(chǎn)生時間和變更時間。同步程序可以根據(jù)兩個欄位來獲取差異的數(shù)據(jù)。
2、Trigger
它可以實時獲取差異數(shù)據(jù), Trigger使用較為容易,不需要改變原表的結(jié)構(gòu),可以只監(jiān)視部分的欄位變更,以獲取你需要的變化數(shù)據(jù),并對數(shù)據(jù)做二次處理。Trigger需要你對源表的維護狀況比較了解,否則可能產(chǎn)生一些意想不到的影響。
3、SQLServer本身的復(fù)制服務(wù)
本身支持多種數(shù)據(jù)同步方式,功能很強大,但是使用上會比較復(fù)雜,而且如果在同步過程中,需要對差異數(shù)據(jù)做二次處理,似乎無路可走。
這種方法可以保證隨時獲取某個時間段內(nèi)新增(變化)的數(shù)據(jù),同時對于追蹤問題也大有裨益。但是缺陷也不少,其一是這兩個欄位完全由開發(fā)人員控制,切實保證這兩個欄位每次都得到正確的維護比較困難,其二是不容易確定你下一次取差異數(shù)據(jù)的基準(zhǔn)時間。
4、timestamp欄位
timestamp可以理解為行的版本號,每次插入或更新包含 timestamp 列的行時,timestamp 列中的值均會更新。利用這一特性,建立一個包含源表ID和timestamp值的基準(zhǔn)表,就可以找到哪些數(shù)據(jù)發(fā)生變化了,每次同步成功后,再更新該基準(zhǔn)表。
5、監(jiān)控并記錄基于某數(shù)據(jù)對象的所有DML語句
這種方法,我沒有具體嘗試過,但是一個很不錯的思路,如果網(wǎng)絡(luò)狀況糟糕,而且對數(shù)據(jù)實時性要求不高,可以采用。具體做法是每天定時獲取你需要同步表的所有update, delete語句,然后定點打包發(fā)送到另外一臺服務(wù)器執(zhí)行。
6、使用BINARY_CHECKSUM
這個是我認(rèn)為最簡單的方法。BINARY_CHECKSUM是SQLServer內(nèi)置的一個聚合函數(shù),它可以針對一行,或者某些列計算出一個值,如果它計算的那些列中的任何一個值發(fā)生變化,那么那個計算值就會發(fā)生變化。這樣我只要建立一個包含源表ID和最初計算值的基準(zhǔn)表,就可以找到哪些數(shù)據(jù)發(fā)生變化了,每次同步成功后,再更新該基準(zhǔn)表。與方法4不同的是,BINARY_CHECKSUM可以只監(jiān)視部分變化的欄位,這一點又類似于Trigger了。
使用BINARY_CHECKSUM有些限制,因為它在計算中會忽略具有不可比數(shù)據(jù)類型的列(不可比數(shù)據(jù)類型是 text、ntext、image、cursor 以及基本類型為前4個數(shù)據(jù)類型之一的 sql_variant),所以如果要監(jiān)控這些列變化,這種方法是不起作用的。
北京 | 天津 | 上海 | 江蘇 | 山東 |
安徽 | 浙江 | 江西 | 福建 | 深圳 |
廣東 | 河北 | 湖南 | 廣西 | 河南 |
海南 | 湖北 | 四川 | 重慶 | 云南 |
貴州 | 西藏 | 新疆 | 陜西 | 山西 |
寧夏 | 甘肅 | 青海 | 遼寧 | 吉林 |
黑龍江 | 內(nèi)蒙古 |