《電子技術應用》
您所在的位置:首頁 > 其他 > 設計應用 > 一種基于Simhash算法的重復域名數據去重方法
一種基于Simhash算法的重復域名數據去重方法
信息技術與網絡安全 4期
侯開茂,韓慶敏,吳云峰,黃 兵,張久發,柴處處
(中國電子信息產業集團有限公司第六研究所,北京100083)
摘要: 隨著數字科學技術的發展,各領域需要傳輸和存儲的數據量急劇上升。然而傳輸和存儲的數據中重復數量占據了很大的比例,這不僅會增加使用數據的成本,也會影響處理數據的效率。域名是一種存儲量大而且對處理速率有極高要求的數據,為了節約域名解析系統的存儲成本,提高傳輸效率,本文在原有數據去重技術的基礎上,引入了Simhash算法,結合域名數據的結構特征,改進數據分詞和指紋值計算方式,提出了一種基于Simhash算法的重復域名數據去重方法。實驗結果表明,相比于傳統的數據去重技術,該方法對刪除重復域名數據效率更高,具有較好的實際應用價值。
中圖分類號: TP391
文獻標識碼: A
DOI: 10.19358/j.issn.2096-5133.2022.04.011
引用格式: 侯開茂,韓慶敏,吳云峰,等. 一種基于Simhash算法的重復域名數據去重方法[J].信息技術與網絡安全,2022,41(4):71-76.
Method for deleting duplicate domain name data based on Simhash algorithm
Hou Kaimao,Han Qingmin,Wu Yunfeng,Huang Bing,Zhang Jiufa,Chai Chuchu
(The 6th Research Institute of China Electronics Corporation,Beijing 100083,China)
Abstract: With the development of digital science and technology, the amount of data that needs to be transmitted and stored in various fields has risen sharply. However, the number of repetitions in these data occupies a large proportion. This not only increases the cost of using data, but also reduces the efficiency of data processing. Domain name is a kind of data with large storage capacity and extremely high requirements for processing speed. In order to save storage cost and improve transmission efficiency, this paper proposes a method for deleting duplicate domain name data based on Simhash algorithm. Compared with the traditional data deduplication technology, this method combines the structural characteristics of the domain name data, and introduces the Simhash algorithm to design a deduplication method for the domain name data. The experimental results show that compared with the traditional data deduplication technology, this method is more efficient in deleting duplicate domain name data and has better practical application value.
Key words : data deduplication;domain name;Simhash;data block

0 引言

隨著電子信息技術的發展,各行各業都產生了大量的數據信息,根據國際數據公司(International Data Corporation,IDC)的最新預測:到2023年,中國的數據量將達到40 ZB,并且隨著5G技術的普及,數據量增長將會迎來又一個新的高潮[1]。有研究發現,這些數據中超過60%都是重復冗余數據[2],傳輸和存儲這些冗余數據不僅造成了存儲資源和網絡資源的嚴重浪費,也降低了使用數據的效率。并且隨著時間推移,這些數據帶來的冗余問題會越來越嚴重。域名[3](Domain Name)作為互聯網中頻繁使用的數據類型之一,是一種特殊的數據形式,其對字符的變化敏感度極高,一個字符的變化往往會對使用結果產生嚴重的影響。因此,處理重復域名數據需要采用精確而且高效的去重技術。

已有重復數據處理技術中,完全文件檢測(Whole File Detection,WFD)技術[4]無法對內容進行查重處理,固定分塊(Fixed-Sized Partition,FSP)檢測技術、可變分塊檢測技術和滑動塊檢測技術都是針對數據共有特征的粗粒度去重,直接用于重復域名的處理效果并不理想。因此,本文在已有重復數據檢測技術的基礎上,引入Simhash算法,結合域名數據的結構特征,改進計算文本特征值的方式,提出了一種基于Simhash算法的重復域名數據去重方法。經過實驗對比看出,該方法對于處理重復域名數據效果更好,同時在時間開銷上也和原有技術差別不大,對于處理重復域名數據具有比傳統去重技術更好的實用價值。






本文詳細內容請下載:http://www.jysgc.com/resource/share/2000004102






作者信息:

侯開茂,韓慶敏,吳云峰,黃  兵,張久發,柴處處

(中國電子信息產業集團有限公司第六研究所,北京100083)




微信圖片_20210517164139.jpg

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 欧美日韩视频在线成人| 久久中文字幕久久久久91| 色婷婷精品免费视频| 天堂电影在线免费观看| 丰满少妇人妻无码专区| 日韩精品久久久肉伦网站| 亚洲国产美女福利直播秀一区二区 | 一级做a爱片特黄在线观看yy| 日本免费xxx| 久久精品国产亚洲AV蜜臀色欲| 欧美一区二区三区在观看| 亚洲日韩国产精品无码av| 波多野结衣电车痴汉| 免费无码又爽又刺激毛片| 美女吸乳羞羞漫画| 国产三级久久久精品麻豆三级 | 久久伊人精品一区二区三区| 最近中文字幕高清2019中文字幕 | 亚洲精品456人成在线| 第一次h圆房细致前戏| 四虎影视在线观看永久地址| 蜜芽.768.忘忧草二区老狼| 国产高清一级毛片| a级毛片免费全部播放| 宝贝过来趴好张开腿让我看看| 中文字幕久久久久一区| 日日噜狠狠噜天天噜av| 亚洲日韩欧美一区二区三区| 热久久99影院| 四虎www成人影院免费观看| 草草影院永久在线观看| 国产亚洲精品2021自在线| 398av影院视频在线| 性调教室高h学校| 久久精品视频6| 最新浮力影院地址第一页| 亚洲码欧美码一区二区三区| 激情内射日本一区二区三区| 亚洲色欲久久久综合网东京热| 美女黄网站人色视频免费国产| 国产欧美日韩一区二区加勒比|