《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 基于抽樣路徑的K-匿名隱私保護算法
基于抽樣路徑的K-匿名隱私保護算法
2016年電子技術應用第12期
吳 響,臧 昊,俞 嘯
徐州醫科大學 醫學信息學院,江蘇 徐州221116
摘要: K-匿名是信息隱私保護的一種常用技術,而使用K-匿名技術不可避免會造成發布數據的信息損失,因此,如何提高K-匿名化后數據集的可用性一直以來都是K-匿名隱私保護的研究重點。對此提出了一種基于抽樣路徑的局域泛化算法——SPOLG算法。該算法基于泛化格尋找信息損失較小的泛化路徑,為減少尋徑時間,引入等概率抽樣的思想,選用等概率抽樣中的系統抽樣方法進行取樣,利用樣本代替數據集在泛化格上尋找目標泛化路徑,最后在該路徑上對數據集進行泛化。同時,本算法使用局域泛化技術,能夠降低信息損失量,提高發布數據集的可用性。實驗結果證明,本算法匿名化的數據集信息損失度低,數據可用性高。
中圖分類號: TP391
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.2016.12.030
中文引用格式: 吳響,臧昊,俞嘯. 基于抽樣路徑的K-匿名隱私保護算法[J].電子技術應用,2016,42(12):115-118.
英文引用格式: Wu Xiang,Zang Hao,Yu Xiao. K-anonymous privacy protection algorithm based on the sampling path[J].Application of Electronic Technique,2016,42(12):115-118.
K-anonymous privacy protection algorithm based on the sampling path
Wu Xiang,Zang Hao,Yu Xiao
School of Medical Informatics,Xuzhou Medical University,Xuzhou 221116,China
Abstract: K-anonymity is a common technique of information privacy protection. But K-anonymity must cause the information loss and how to improve the usability of anonymizing tables is the emphasis of K-anonymity. To solve the problem, this paper puts forward a kind of anonymous privacy protection algorithm based on generalized path —SPOLG algorithm. It introduces sampling with equal probabilities to find the generalized path whose information loss is little and raise the efficiency of data processing. Experimental results show that the algorithm could satisfy the anonymous requirement, at the same time, it is more efficient than Incognito algorithm to reduce the information loss of data released.
Key words : privacy preservation;path;information loss;sample;K-anonymity

0 引言

    K-匿名[1]是一種簡單而有效的隱私保護模型,實施K-匿名要考慮兩個方面:(1)確保數據發布過程中隱私不泄露;(2)發布的匿名數據具有實用性。

    基于以上兩個要求,眾多學者提出了許多匿名算法。但大體上可以分為全域泛化算法[2]和局域泛化算法[3]。相比之下,局域泛化算法不僅可以實現K-匿名,而且一定程度上降低了匿名表的信息損失,使得泛化后的數據集更具有可用性。

    然而,在局域泛化中想要尋找最優K-匿名已經被證明是NP難問題[4],如何優化K-匿名算法、盡可能提高數據的可用性成為亟待解決的問題。因此,本文提出了一種基于抽樣路徑的局域K-匿名算法——SPOLG(Sampling Path Optimization Local Generalization)算法。

    SPOLG算法將等概率抽樣的思想引入其中,選取足夠的樣本代替總體尋找泛化路徑,在已經尋找到的路徑基礎上對數據集進行局域泛化。等概率抽樣選擇的樣本能夠代表數據集總體的分布情況,通過樣本尋徑快速找到信息損失較小的泛化路徑,極大地提高了算法效率。同時,該算法采用的局域泛化技術保證了發布的數據集具有較高的可用性。

1 基本符號和定義

1.1 K-匿名相關定義

    在實現SPOLG算法的過程中,以表1為例對基于抽樣泛化路徑的K-匿名算法進行相關定義。假設數據發布者所持有的數據表為T(A1,A2,…,An),表中每條元組指明一個特定實體的相關信息,如年齡、工作、種族、性別、工作時長、工資(敏感屬性)等。

jsj3-b1.gif

jsj3-b1-x.gif

jsj3-b2.gif

1.2 SPOLG算法相關定義

    定義2  系統抽樣:將數據集中的元組按照ID排序,隨機選取一條元組作為起點,每隔一定的間隔抽取一個元組,直至樣本數量滿足事先給定的抽樣率。

    定義3  抽樣泛化路徑:以泛化格的根節點為起點,計算其子節點對樣本泛化后的信息損失量,將信息損失量最小子節點插入路徑,自底向上,直至泛化格葉子節點。

    例如:圖1中,若用<W1,R0>這個節點泛化樣本比<W0,R1>泛化樣本信息損失小,則選取<W1,R0>為路徑的第2個節點,以此類推。如<W0,R0>→<W1,R0>→<W1,R1>→<W2,R1>這條路線是一條可能的抽樣泛化路徑。

jsj3-t1.gif

    定義4  抽樣尋徑時間占比:由抽樣數據產生抽樣泛化路徑所花費的時間SP在整個算法流程中的百分比。假設整個算法花費的時間為SA,則其計算公式為:

    jsj3-gs1.gif

2 算法實現

2.1 算法實現

    本文提出的一個基于抽樣路徑的局域泛化算法——SPOLG算法,引進了等概率抽樣的思想,以系統抽樣樣本代替數據集尋找泛化路徑,具體算法如下:

輸入:輸入表T,準標識符集合QI,等價類約束k以及抽樣率α。

輸出:滿足K-匿名的數據集T″。

    (1)抽取樣本

jsj3-2.1-x1.gif

    (2)尋找抽樣泛化路徑

       函數:path(QI,T′)

       /*QI為準標識符集,T′表示抽樣數據集*/

       Begin

       ①通過QI形成泛化格G;

       ②將泛化格G的第0層節點n0作為路徑P的起點P0;

       ③通過泛化格找到n1直接泛化的節點,計算這些節點泛化T′所得到的信息損失量,選出泛化數據集T′信息損失量最小的節點n2作為路徑P的第二個節點P1;

       ④重復步驟②直至到達泛化格G的頂點ni作為路徑的終點Pi得到路徑P;

       ⑤返回路徑P;

       End

    (3)匿名化數據表

jsj3-2.1-x2.gif

    移除T中滿足K-匿名的元組;

    結束循環;

       ⑤返回數據表;

    End

    由以上步驟可知,該算法主要包括系統抽樣、尋找路徑、 匿名化數據集3個主要環節,利用系統抽樣選取樣本,在已選擇的樣本中尋找信息損失較低的泛化路徑,由已選路徑對數據集進行局域泛化。從路徑起點開始,自底向上對不滿足K-匿名的元組進行泛化,直到所有元組滿足K-匿名。

2.2 算法合理性分析

    本文算法使用系統抽樣,能夠保證每個元組被抽取概率相同,通過等概率抽樣樣本快速尋找到信息損失較低的泛化路徑,使得數據集整體泛化后的信息損失較小。同時,局域泛化進一步保證了匿名后的數據集信息損失小,因此本算法是可行的。

3 實驗驗證及結果分析

3.1 實驗環境

    本文使用了UCI Machine Learning Repository中的Adults數據集作為實驗數據集,Adult數據集是由美國人口普查數據構成,采用數據集中的訓練集,并去除缺省值記錄,共有30 162條記錄,本文選取7個屬性作為準標識符屬性,包括性別、種族、婚姻狀況、教育程度、工作、國籍、年齡,各屬性預定義的泛化規則參考文獻[5]。實驗平臺配置為:Core 2.50 GHz/8 GB,Windows 7,所涉代碼均由Java實現,并在Eclipse Mars.2 Release(4.5.2)上運行。實驗數據都是在實驗運行5次所得到的實驗數據基礎上取得的平均值。

3.2 實驗結果分析

    實驗主要從信息損失度及執行時間方面對本文算法進行衡量。本實驗選用Incognito算法作為對比算法,比較了在不同個數的準標識符和不同k值條件下信息損失度和執行時間的變化。其中信息損失度采用文獻[6]的計算方法。

    元組的信息損失量:

jsj3-gs2-3.gif

3.2.1 數據抽樣分析

    尋徑時間占比通過式(1)進行計算,信息損失量依據公式(2)、(3)來度量,由圖2、圖3可知,當|QI|一定時,隨著采樣率的增加,抽樣尋徑時間占比均有大幅度上升,然而信息損失量的波動幅度較小,故可使用較小的采樣率;同時因抽樣率越大越符合數據集的分布,故要使用足夠數量的樣本代表數據集。綜合以上所述,本文以下實驗均采用1%的抽樣率。

jsj3-t2-3.gif

3.2.2 信息損失量分析

    圖4為準標識符屬性個數|QI|=7,k取5/10/15/20/25/50時,SPOLG算法和Incognito算法匿名化數據集信息損失量的比較。由圖4知,執行SPOLG算法和Incognito算法產生的信息損失量隨k值的增加而增加,這是由于k值變大時,每個等價類所含元組數量增多,數據集泛化程度變大,故IL增大。但隨k值的變大,SPOLG算法信息損失IL增加幅度較小。其原因在表3中可以清晰看出,元組前三步泛化比例達50%以上,由此可知數據集中的大部分元組都只經過一次泛化,因此泛化后的數據集信息損失IL小,隨著k值的變大IL增加較小。圖5表示當k=10時,|QL|取3/4/5/6/7,SPOLG算法與Incognito算法匿名化數據信息損失量的比較。從圖5可以看出,Incognito算法產生的信息損失IL呈明顯上升趨勢,本文算法隨著準標識符屬性的|QI|增多信息損失IL無明顯波動。表4中數據表明,|QI|增大時,前三步泛化比例均達到60%。由此可見,數據集中的大部分元組都只經過一次泛化,因此泛化后的數據集信息損失IL小,隨著|QI|的增加IL無明顯波動。綜合以上所述:本文算法在信息損失方面具有明顯的優勢,發布的數據信息失真較少,可用性高。

jsj3-t4-5.gif

jsj3-b3.gif

jsj3-b4.gif

3.2.3 時間效率分析

    圖6、圖8分別表示運行時間、k和|QI|的關系。由圖6知,當|QI|一定時,由于k值增大,泛化程度變大,產生的等價類數量變少,每個元組尋找等價類的時間大幅度降低。由圖7知,當k值一定時,隨著|QI|的增加,約束條件變多,等價類數量增多,每個元組尋找等價類的時間變大,所以本算法運行時間有所增加。綜合圖6、圖7可知,本文算法在時間效率上比Incognito算法略差,但是由于信息損失量的大幅度降低,因此本算法的綜合優勢明顯。

jsj3-t6-7.gif

4 總結

    本文提出一種基于準標識符屬性泛化路徑的K-匿名化算法——SPOLG算法,該算法采用等概率抽樣的方法快速尋找泛化路徑,在已找到泛化路徑的基礎上進行數據集的局域泛化。實驗結果表明,該算法泛化的數據表信息損失較小,可用性高。

參考文獻

[1] SWEENEY L.A model for protecting privacy[J].International Journal on Uncertainty Fuzziness and Knowledge-Based Systems,2002,10(5):557-570.

[2] SWEENY L.Achieving k-anonymity privacy protection using generalization and suppression[J].International Journal of Uncertainty,Fuzziness and Knowledge-Based Systems:IJUFKS,2002,10(5):571-588.

[3] SWEENY L.Guaranteeing anonymity when sharing medical data:the datafly system[C].Proceedings of the 1997 AMIA Annual Fall Symposium,Journal of the American Medial Informatis,Association,AMIA,1997,4(suppl):51-55.

[4] MACHANAVAJJHALA A,GEHRKE J,KIFER D.L-diversity:Privacy beyond k-anonymity[C].Proc of the 22nd In  Conference on Data Engineering.Piscataway,NJ:IEEE,2006:24-36.

[5] LI J Y,WONG C W,FU W C,et al.Achieving k-anonymity by clustering in attribute hierarchical structures[C].Data Warehousing and Knowledge Discovery.Springer Berlin Heidelberg,2006:405-416.

[6] 任向民.基于K-匿名的隱私保護方法研究[D].哈爾濱:哈爾濱工業大學,2012.

此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
国产精品国产三级国产专区53| 亚洲观看高清完整版在线观看| 蜜桃伊人久久| 久久国产精品黑丝| 性做久久久久久久免费看| 亚洲天堂网在线观看| 日韩亚洲国产欧美| 99国产精品久久久久久久久久 | 亚洲欧美日韩国产一区二区三区| 中文av一区二区| 中国av一区| 亚洲一区二区在线免费观看| 亚洲视频在线视频| 亚洲视频第一页| 亚洲一区在线观看免费观看电影高清 | 亚洲激情视频在线| 亚洲精品视频二区| 日韩亚洲欧美一区| 亚洲视频第一页| 亚洲欧美在线另类| 久久精品av麻豆的观看方式| 亚洲国产精品久久久久婷婷884 | 午夜精品视频在线| 欧美在线亚洲| 亚洲国产精品成人精品| 亚洲另类在线一区| 亚洲视频在线一区| 欧美一区二区观看视频| 久久久国产精品一区二区中文| 裸体一区二区| 欧美日韩性视频在线| 国产精品麻豆成人av电影艾秋| 国产麻豆综合| 一区二区三区在线不卡| 亚洲精品视频一区| 亚洲性夜色噜噜噜7777| 久久成人精品| 日韩一二三区视频| 午夜电影亚洲| 久久午夜视频| 欧美日韩网址| 国产在线不卡精品| 亚洲精品久久久久久下一站| 亚洲网站视频福利| 久久精品91久久久久久再现| 日韩视频永久免费观看| 午夜老司机精品| 麻豆av一区二区三区| 欧美日韩亚洲系列| 国产亚洲毛片| 亚洲人成在线观看网站高清| 亚洲制服少妇| 亚洲精品影院在线观看| 欧美一区二区福利在线| 欧美成人黑人xx视频免费观看| 欧美日韩亚洲一区二区三区在线观看| 国产欧美视频一区二区三区| 91久久久国产精品| 性视频1819p久久| 亚洲免费观看高清完整版在线观看熊 | 中国日韩欧美久久久久久久久| 久久岛国电影| 欧美黄色aaaa| 国产性天天综合网| 亚洲精品在线观看免费| 西瓜成人精品人成网站| 亚洲另类自拍| 久久精品免费播放| 欧美日韩免费观看一区| 国产三级欧美三级| 亚洲精品孕妇| 亚洲国产精品va在线观看黑人| 亚洲综合色视频| 欧美 日韩 国产精品免费观看| 国产精品乱看| 亚洲精品美女免费| 久久精品亚洲乱码伦伦中文 | 国产欧美日韩一区| 日韩视频精品在线| 亚洲国产免费看| 欧美一区二区三区视频在线观看 | 一区二区在线免费观看| 亚洲资源av| 一本色道**综合亚洲精品蜜桃冫 | 欧美精品v日韩精品v国产精品| 国产午夜精品全部视频播放| 一本一本久久a久久精品综合麻豆| 亚洲黄网站在线观看| 欧美综合77777色婷婷| 欧美视频免费在线观看| 亚洲国产精品va| 亚洲第一区在线| 久久国产精品亚洲77777| 国产精品女同互慰在线看| 亚洲精品影视| 亚洲毛片播放| 欧美国产欧美综合 | 国产精品夜夜夜| 中文国产成人精品久久一| 亚洲免费av片| 欧美成人午夜激情在线| 激情成人综合| 久久疯狂做爰流白浆xx| 久久精品国产一区二区三区免费看| 国产精品亚发布| 亚洲小少妇裸体bbw| 亚洲视频1区2区| 欧美日韩精品一区二区在线播放 | 亚洲视频网在线直播| 亚洲图色在线| 欧美日韩国产一区二区| 亚洲精品一区二区三区四区高清| 亚洲免费av观看| 欧美激情自拍| 日韩午夜激情电影| 在线一区二区日韩| 欧美日韩精品一本二本三本| 亚洲美女精品久久| 亚洲一区二区毛片| 国产精品wwwwww| 亚洲一区二区三区免费观看| 欧美亚洲在线播放| 国产精品影视天天线| 欧美亚洲系列| 久久久福利视频| 尤物精品国产第一福利三区| 亚洲精品免费在线播放| 欧美激情一区二区三区高清视频 | 亚洲欧洲日产国码二区| 亚洲美女在线看| 欧美日韩精选| 一本色道久久| 欧美伊人久久| 极品av少妇一区二区| 亚洲精品国产精品国自产观看| 欧美精品成人一区二区在线观看| 亚洲精品视频一区| 亚洲小少妇裸体bbw| 国产精品www色诱视频| 午夜激情综合网| 久久亚洲色图| 亚洲日韩成人| 亚洲欧美在线视频观看| 国产一区二区三区久久久| 亚洲黄色毛片| 欧美日韩精品一区二区三区| 国产精品99久久久久久久久| 久久国产成人| 激情欧美国产欧美| 一本不卡影院| 国产欧美日韩精品a在线观看| 亚洲国产va精品久久久不卡综合| 欧美激情aⅴ一区二区三区| 亚洲少妇在线| 久久久午夜电影| 亚洲欧洲偷拍精品| 性做久久久久久久久| 尤物九九久久国产精品的特点 | 午夜精品久久久久久久久久久久久| 久久夜色精品亚洲噜噜国产mv| 亚洲欧洲偷拍精品| 欧美亚洲综合网| 亚洲电影免费| 亚洲欧美综合| 亚洲二区视频在线| 亚洲欧美国内爽妇网| 黄色精品一区二区| 亚洲一区在线视频| 精品成人a区在线观看| 亚洲私拍自拍| 伊人成人在线视频| 亚洲欧美精品在线| **网站欧美大片在线观看| 亚洲免费在线观看视频| 黄色资源网久久资源365| 亚洲天堂第二页| 在线观看日韩精品| 午夜在线视频一区二区区别| 在线成人激情视频| 午夜精品久久久久久久久久久久| 雨宫琴音一区二区在线| 亚洲一区二区三区精品动漫| 影音先锋中文字幕一区| 亚洲欧美清纯在线制服| 亚洲国产一区二区在线| 欧美影院一区| 99精品欧美一区| 免费久久99精品国产| 亚洲综合成人婷婷小说| 欧美日本一区二区视频在线观看 | 欧美精品福利视频| 欧美一区二区精品| 国产精品电影网站| 99精品热6080yy久久| 国产主播喷水一区二区| 亚洲欧美日韩区| 亚洲国产日韩欧美综合久久| 久久成人亚洲| 亚洲一区制服诱惑| 欧美揉bbbbb揉bbbbb|