數據倉庫中重復記錄清理算法研究 | |
所屬分類:技術論文 | |
上傳者:aet | |
文檔大小:967 K | |
所需積分:0分積分不夠怎么辦? | |
文檔介紹:針對重復記錄清理中的“排序、識別、合并”算法存在的問題進行了改進。改進后的重復記錄清理算法在保證記錄匹配率的情況下有效地提高了記錄排序的效率;在重復記錄識別時,考慮了匹配字段的文字數量、在2 個字段中出現的頻率、在記錄中各字段的重要性( 權重) 、中文字段的語義和語義重點偏后等5 個因素;合并重復記錄時采用了聚類和實用算法并用的策略,有效地提高了數據倉庫中重復記錄清理算法的準確性和健壯性。 | |
現在下載 | |
VIP會員,AET專家下載不扣分;重復下載不扣分,本人上傳資源不扣分。 |
Copyright ? 2005-2024 華北計算機系統工程研究所版權所有 京ICP備10017138號-2