《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 面向數(shù)據(jù)挖掘的匿名化隱私數(shù)據(jù)發(fā)布系統(tǒng)設計
面向數(shù)據(jù)挖掘的匿名化隱私數(shù)據(jù)發(fā)布系統(tǒng)設計
2016年電子技術應用第11期
吳 響,俞 嘯,王換換
徐州醫(yī)科大學 醫(yī)學信息學院,江蘇 徐州230026
摘要: 為了最大限度地保證隱私數(shù)據(jù)不被泄漏,設計并研發(fā)了面向數(shù)據(jù)挖掘技術的匿名化隱私數(shù)據(jù)發(fā)布系統(tǒng)。系統(tǒng)以Exynos 4412為主處理器,同時搭載μClinux操作系統(tǒng),在處理數(shù)據(jù)的過程中實現(xiàn)并優(yōu)化了多種經(jīng)典匿名算法(如Incognito算法、Samariti算法、Datafly算法等),通過內置嵌入式Web服務器實現(xiàn)瀏覽器遠程連接配置系統(tǒng)運行信息,并獲取運行結果。同時,系統(tǒng)可以通過數(shù)據(jù)庫的自定義配置及上傳新增算法來實現(xiàn)數(shù)據(jù)的定制化發(fā)布。實驗表明,系統(tǒng)算法執(zhí)行效率高,能夠有效地對發(fā)布數(shù)據(jù)進行隱私保護,為數(shù)據(jù)挖掘過程中的隱私泄漏問題提供了便捷可靠的解決方案。
中圖分類號: TP274
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.2016.11.016
中文引用格式: 吳響,俞嘯,王換換. 面向數(shù)據(jù)挖掘的匿名化隱私數(shù)據(jù)發(fā)布系統(tǒng)設計[J].電子技術應用,2016,42(11):62-65.
英文引用格式: Wu Xiang,Yu Xiao,Wang Huanhuan. Design of anonymous privacy data publishing system for data mining[J].Application of Electronic Technique,2016,42(11):62-65.
Design of anonymous privacy data publishing system for data mining
Wu Xiang,Yu Xiao,Wang Huanhuan
School of Medical Informatics,Xuzhou Medical University,Xuzhou 230026,China
Abstract: In order to ensure that the privacy data is not compromised, the anonymous privacy data publishing system is designed and developed for data mining. The system uses Exynos 4412 as the main processor and is equipped with μClinux operating system. It realizes and optimizes many classical anonymity algorithm(like Incognito algorithm,Samariti algorithm,Datafly algorithm and so on) in the process of handling data, realizes the browser connect and deploys the information of system operation remotely by the Built-in embedded server and the results. At the same time, the system can achieve customized data release requirement of the user by setting custom configuration of database and uploading the new algorithm. Experiment shows that the system has high efficiency and it can protect the privacy of publish data effectively, which provides a convenient and reliable solution for data mining.
Key words : embedded Web server;μClinux;privacy protect;data release

0 引言

    隨著信息技術及數(shù)據(jù)挖掘技術的飛速發(fā)展,越來越多的數(shù)據(jù)為人們所共享使用。如何保護發(fā)布數(shù)據(jù)中的隱私信息不被攻擊者惡意獲取,同時又使數(shù)據(jù)接收者充分利用數(shù)據(jù)信息進行有效的探索和科學研究,已成為一個重要的信息安全問題。

    目前,學術界對隱私保護技術開展了較為深入的研究[1-2],相關技術大致可以分為3 類:基于數(shù)據(jù)失真的技術[3-4]、基于數(shù)據(jù)加密的技術[5-6]和基于限制發(fā)布的技術[7-8]。其中,基于限制發(fā)布技術中的k-匿名得到廣泛的應用[9]。k-匿名方法又可以分為精確求解方法和近似求解方法。前者能保證找到最優(yōu)k-匿名方案,但其時間復雜度為指數(shù)級,只適用于小規(guī)模數(shù)據(jù);后者只能找到近似最優(yōu)k-匿名方案,但其時間復雜度為線性或近似線性,可應用于大規(guī)模數(shù)據(jù)。同時近似求解方法通過采用多種啟發(fā)策略,可以在多項式時間內找到滿足特定目標函數(shù)的局部最優(yōu)方案,但不能保證找到全局最優(yōu)方案。不同的匿名算法應用場景不同,數(shù)據(jù)匿名效果也各不相同,因此,需要根據(jù)發(fā)布者的需求進行定制數(shù)據(jù)匿名化。

    本文針對不同應用場景及不同的用戶需求,對匿名化隱私數(shù)據(jù)發(fā)布系統(tǒng)進行了研究。該系統(tǒng)在保證發(fā)布數(shù)據(jù)滿足k-匿名的基礎上,設計了自定義匿名算法的功能,實現(xiàn)用戶數(shù)據(jù)定制化發(fā)布;同時結合嵌入式Web服務器技術打破傳統(tǒng)硬件的限制,用戶在能夠訪問Internet的地方即可進行數(shù)據(jù)發(fā)布的相關操作。通過測試實驗對系統(tǒng)性能進行評估,結果表明該系統(tǒng)具有良好的匿名性、移動性和可擴展性,同時具有很好的服務選擇性。

1 系統(tǒng)總體設計

    系統(tǒng)主要由遠程數(shù)據(jù)庫、數(shù)據(jù)發(fā)布終端及遠程瀏覽器3部分構成,實現(xiàn)數(shù)據(jù)的獲取、處理、發(fā)送及顯示,圖1所示為系統(tǒng)的總體結構圖。

ck3-t1.gif

    系統(tǒng)流程:用戶通過瀏覽器連接終端內的嵌入式Web服務器對數(shù)據(jù)發(fā)布過程中的數(shù)據(jù)庫連接、算法選擇、數(shù)據(jù)加密方式及要求等相關信息進行配置,同時通過遠程瀏覽器實現(xiàn)任務開啟、結果顯示、數(shù)據(jù)導出等功能;數(shù)據(jù)發(fā)布終端在收到Web服務器的開始任務請求后讀取系統(tǒng)配置信息,通過Internet獲取遠程數(shù)據(jù)庫的數(shù)據(jù)源,并使用相關算法將數(shù)據(jù)進行匿名化操作;最后,終端將處理完成的數(shù)據(jù)集通過Web服務器呈現(xiàn)給遠程瀏覽器,并提供文件導出、數(shù)據(jù)庫轉存等多種數(shù)據(jù)導出方式。

2 系統(tǒng)硬件設計

    為了使數(shù)據(jù)發(fā)布終端既作為數(shù)據(jù)處理單元又作為嵌入式Web服務器單元,實現(xiàn)用戶通過瀏覽器對終端進行遠程配置、任務執(zhí)行和結果輸出等操作,將系統(tǒng)硬件分為電源管理模塊、處理器模塊、數(shù)據(jù)存儲模塊、網(wǎng)絡通信模塊和顯示器模塊5個部分,硬件系統(tǒng)總體結構如圖2所示。

ck3-t2.gif

    系統(tǒng)選用三星公司ARM Cortex系列中最新推出的Exynos 4412芯片為主處理器,是32 nm HKMG(High-K Metal Gate,HKMG)工藝的4核處理器,主頻高達1.5 GHz,具有高性能、低功耗的優(yōu)點。終端同時配備2G DDR3(Double Data Rate SDRAM 3,DDR3)內存及4 GB高速閃存。系統(tǒng)選用由Davicom公司生產(chǎn)的DM9000A作為以太網(wǎng)控制器芯片,它有1個10/100 Mb/s的自適應物理層與4 KB雙字節(jié)大小的靜態(tài)隨機存儲器,支持8 bit和16 bit的接口,可以支持不同類型的處理器,從而為終端執(zhí)行數(shù)據(jù)加密處理過程提供可靠、高效的執(zhí)行環(huán)境和硬件支持。

3 系統(tǒng)軟件設計

3.1 數(shù)據(jù)發(fā)布終端軟件設計

    數(shù)據(jù)發(fā)布終端結合嵌入式Web服務器技術[10]實現(xiàn),用戶通過PC端的瀏覽器,使用圖形界面來直接地訪問嵌入式系統(tǒng)。這種基于Internet的方式使用戶端可以在世界任何一個可連接Internet的地方訪問Web服務器,根據(jù)用戶需求隨時隨地進行數(shù)據(jù)匿名發(fā)布操作,極大地方便了用戶進行的數(shù)據(jù)發(fā)布、系統(tǒng)管理和科研工作。

    為實現(xiàn)用戶通過遠程瀏覽器與嵌入式Web服務器進行通信,系統(tǒng)中數(shù)據(jù)發(fā)布終端既作為數(shù)據(jù)處理單元又作為嵌入式Web服務器單元。嵌入式Web服務器在μClinux操作系統(tǒng)基礎上,利用操作系統(tǒng)自帶的TCP/IP協(xié)議棧提供的Socket編程接口進行通信。Web服務器由Http引擎及應用程序接口組成,通過CGI程序調用嵌入式應用程序模塊,從而實現(xiàn)用戶驗證、系統(tǒng)配置、任務執(zhí)行和數(shù)據(jù)導出等功能。嵌入式Web服務器總體結構框架如圖3所示。

ck3-t3.gif

    數(shù)據(jù)發(fā)布終端Web服務器采用多進程偵聽模式,允許多個用戶的同時連接。在Socket通信套接字創(chuàng)建完成后,終端偵聽的過程是一個無限循環(huán),當偵聽到合法連接后便進行連接操作并解析Http報文請求。首先判斷用戶的合法性,若用戶身份認證通過則繼續(xù)解析,否則返回登錄提示W(wǎng)eb界面。

    CGI(Common Gateway Interface,CGI)是一種動態(tài)Web網(wǎng)頁技術,通過CGI程序定義的接口標準與其他應用程序模塊之間進行交互。在Web服務器對客戶端瀏覽器發(fā)送的請求報文進行判斷時,若為靜態(tài)頁面則直接返回相應頁面,若為CGI動態(tài)請求則將報文數(shù)據(jù)傳遞到CGI程序中處理,進行相關操作并將執(zhí)行的結果封裝成Html形式發(fā)送到客戶端瀏覽器,從而展現(xiàn)給用戶。 具體的軟件流程如圖4所示。

ck3-t4.gif

3.2 算法介紹

    為了適應數(shù)據(jù)挖掘中不同應用場景下的隱私保護匿名化需求,系統(tǒng)內置10種匿名化隱私保護算法。算法主要分為全域泛化算法[11]和局域泛化算法[12]兩類,其中全域泛化算法包含Incognito算法、Datafly算法、Samarati算法、Classfly 算法和Classfly+算法;局域泛化算法包含TDS(Top-Down Specialization)算法、Mondrian算法、MDAV算法、KACA算法和Filter K-匿名算法。

    本系統(tǒng)的內置算法在其原文獻中均需消耗大量時間進行訪問I/O接口的操作,使得算法處理數(shù)據(jù)集效率較差。針對這一問題本系統(tǒng)進行了算法優(yōu)化,使系統(tǒng)在處理數(shù)據(jù)集時除讀取數(shù)據(jù)和導出匿名后的數(shù)據(jù)外,其余操作均在內存中完成。這種優(yōu)化方式雖然消耗了內存資源,但大幅度縮短了處理數(shù)據(jù)集的時間,提高了系統(tǒng)對數(shù)據(jù)匿名化處理的效率。

    以Incognito算法為例,在文獻[11]中,該算法在形成表Ei的過程是在數(shù)據(jù)庫中進行的,需要多次訪問I/O接口,造成時間的損耗。以下是文獻[11]形成Ei的SQL語句:

INSERT INTO Ei (start, end) WITH CandidateEdges (start, end) AS (SELECT p.ID, q.ID FROM Ci p, Ci q, Ei-1 e, Ei-1 f WHERE (e.start = p.parent1 ∧ e.end = q.parent1 ∧ f.start = p.parent2 ∧ f.end = q.parent2) ∨ (e.start = p.parent1 ∧ e.end = q.parent1 ∧ p.parent2 = q.parent2) ∨ (e.start = p.parent2 ∧ e.end = q.parent2 ∧ p.parent1 = q.parent1) ) SELECT D.start, D.end FROM CandidateEdges D EXCEPT SELECT D1.start, D2.end FROM CandidateEdges D1, CandidateEdges D2 WHERE D1.end = D2.start

    這段代碼多次訪問I/O接口,占用該算法運行的大部分時間,本系統(tǒng)內置的Incognito算法對本部分優(yōu)化的偽代碼如下:

ck3-cx1.gif

ck3-cx2.gif

    其中Ei包含Start和End兩個字段,Ci包含ID、屬性名和各屬性泛化級別字段。以上代碼均在內存中執(zhí)行,減少了原算法的I/O接口的訪問次數(shù),極大地縮短了算法處理數(shù)據(jù)集的時間。

4 測試結果

    為驗證面向數(shù)據(jù)挖掘的匿名化隱私數(shù)據(jù)發(fā)布系統(tǒng)的實用性,測試選取了來自公共數(shù)據(jù)庫UC Irvine Machine Learning Repsditory的Adult數(shù)據(jù)集中的訓練集(大小:30 162條記錄)作為系統(tǒng)數(shù)據(jù)源并對其進行匿名化測試,準標識符屬性為age、workclass、education、marital_status、race、sex、native_country,敏感屬性為salary。

4.1 功能測試

    在功能測試中,設置匿名隱私約束k等于10。測試時,在瀏覽器地址欄下輸入嵌入式Web服務器的IP地址,服務器對瀏覽器的請求作出響應,進行相應操作并將結果發(fā)給瀏覽器。在瀏覽器中進行對數(shù)據(jù)清洗,配置k-匿名隱私約束、準標識符屬性、泛化規(guī)則以及敏感屬性操作,并根據(jù)不同的需求選用相應的匿名化隱私保護算法,最后執(zhí)行k-匿名處理。源數(shù)據(jù)表經(jīng)過泛化后均滿足k-匿名,且匿名表信息損失量較小。

4.2 性能測試

    在性能測試中,以Incognito算法為例進行了不同k值約束條件下文獻算法與系統(tǒng)優(yōu)化內置算法執(zhí)行時間的對比,具體時間對比如表1所示。

ck3-b1.gif

5 結論

    本文描述了面向數(shù)據(jù)挖掘的匿名化隱私數(shù)據(jù)發(fā)布系統(tǒng)的設計與實現(xiàn),該系統(tǒng)通過內置算法匿名化數(shù)據(jù)集的準標識符屬性,從而避免個人信息泄漏。測試結果證明,本系統(tǒng)可以有效地實現(xiàn)數(shù)據(jù)集的匿名,保護了個人隱私信息,并且其內置的優(yōu)化算法大幅度地提高了處理數(shù)據(jù)的效率。同時,系統(tǒng)提供的可配置數(shù)據(jù)庫及自定義算法功能使數(shù)據(jù)發(fā)布得以定制化,具有較好的移動性、可擴展性和服務選擇性,為數(shù)據(jù)挖掘科研工作的開展提供較大的參考價值。

參考文獻

[1] 周水庚,李豐,陶宇飛,等.面向數(shù)據(jù)庫應用的隱私保護研究綜述(四)[J].計算機學報,2009,32(5):847-861.

[2] 朱青,趙桐,王珊.面向查詢服務的數(shù)據(jù)隱私保護算法[J].計算機學報,2010,33(8):1315-1323.

[3] SAYGIN Y,VERYKIOS V S,ELMAGARMID A K.Privacy preserving association rule mining[A].Proceedings of the 12th International Workshop on Research Issues in Data Engineering(RIDE)[C].USA:San Jose,2002:151-158.

[4] AGGARWAL C C,YU P S.A condensation approach to privacy preserving data mining[A].Proceedings of the 9th International Conference on Extending Database Technology (EDBT)[C].Greece:Heraklion,2004:183-199.

[5] YAO A C.How to generate and exchange secrets[A].Proceedings of the 27th IEEE Symposium on Foundations of Computer Science(FOCS)[C].Canada:Toronto,1986:162-167.

[6] CLIFTON C,KANTARCIOGLOU M,LIN X,et a1.Tools for privacy preserving distributed data mining[J].ACM SIGKDD Explorations,2002,4(2):28-34.

[7] 韓建民,于娟,虞惹群.面向敏感值的個性化隱私保護[J].電子學報,2010,38(7):1723-1728.

[8] 楊靜,王超,張鍵沛.基于敏感屬性熵的微聚集算法[J].電子學報,2014,42(7):1327-1337.

[9] SWEENEY L.Achieving k-anonymity privacy protection using generalization and suppression[J].International Journal of Uncertainty,F(xiàn)uzziness and Knowledge-Based System,2002,10(5):571-588.

[10] 王莉,周偉.基于ARM的嵌入式Web服務器設計[J].計算機工程與應用,2012,48(14):90-93.

[11] LEFEVRE K,DEWITT D J,RAMAKRISHNAN R.Incognito:efficient full-domain K-anonymity[C].ACM SIGMOD International Conference on Management of Data,USA:Maryland,2005:49-60.

[12] LEFEVRE K,DEWITT D J,RAMAKRISHNAN R.Mondrian multi-mensional K-anonymity[C].Proc.of the 22nd International Conference on Data Engineering,2006.

此內容為AET網(wǎng)站原創(chuàng),未經(jīng)授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
久久精品成人| 亚洲精品一二区| 亚洲国产日韩欧美综合久久| 国产日产精品一区二区三区四区的观看方式| 欧美激情视频网站| 欧美不卡视频一区| 久久综合九色综合欧美狠狠| 久久久久久亚洲精品杨幂换脸| 欧美一区二区成人| 欧美一级免费视频| 欧美一级电影久久| 久久精品免费看| 久久久精品一品道一区| 久久久久国产一区二区| 久久久亚洲高清| 久久视频这里只有精品| 久久深夜福利| 久久人人爽人人爽爽久久| 久久久中精品2020中文| 久久只精品国产| 蜜桃久久精品一区二区| 欧美fxxxxxx另类| 欧美激情视频在线播放| 欧美久色视频| 欧美三级日本三级少妇99| 欧美视频一区二区三区四区| 欧美日韩视频第一区| 欧美一级视频| 欧美在线观看www| 久久国产精品亚洲va麻豆| 亚洲第一网站| 亚洲精品视频在线播放| 99精品热6080yy久久| 亚洲午夜精品| 午夜日韩视频| 久久久亚洲成人| 欧美黄色小视频| 欧美日韩一区在线视频| 国产精品毛片| 国模精品一区二区三区| 亚洲第一区中文99精品| 亚洲美女中出| 亚洲综合日韩在线| 久久狠狠亚洲综合| 亚洲精品视频啊美女在线直播| 一本一本久久a久久精品综合麻豆| 中文av一区特黄| 香蕉亚洲视频| 快播亚洲色图| 欧美日韩一区在线播放| 国产欧美日韩专区发布| 一区二区在线观看av| 亚洲精品一二三| 亚洲综合国产激情另类一区| 亚洲国产精品美女| 亚洲私人影院在线观看| 亚洲综合色在线| 久久在线免费| 欧美日韩另类在线| 国产欧美日韩一区| 亚洲国产精品久久久久婷婷老年 | 国产精品一区久久久| 狠狠色狠色综合曰曰| 日韩视频免费看| 午夜精品久久久久久| 亚洲欧洲视频| 先锋影音久久| 欧美高清视频在线观看| 国产精品日本一区二区| 在线欧美小视频| 亚洲深夜福利网站| 亚洲人成人一区二区三区| 亚洲在线一区二区| 美女精品在线观看| 国产精品区一区二区三区| 在线日韩中文| 亚洲欧美国产不卡| 99综合电影在线视频| 欧美日韩视频不卡| 亚洲视频碰碰| 亚洲高清激情| 午夜精品久久| 免费av成人在线| 国产精品一区二区三区久久| 91久久精品一区二区别| 欧美一区二区三区免费视频| 亚洲私人影院| 欧美激情精品久久久久久蜜臀| 国产欧美视频一区二区三区| 日韩视频―中文字幕| 亚洲国产高清一区二区三区| 新67194成人永久网站| 欧美精品一区二区三区久久久竹菊| 国产一区二区| 在线一区观看| 99国产精品久久久久久久| 久久综合久久综合久久综合| 国产农村妇女精品一区二区| 一本久道久久久| 亚洲精品网站在线播放gif| 久久久欧美精品sm网站| 国产精品一区二区久久| 日韩视频一区二区三区| 亚洲日本成人网| 久久综合色婷婷| 国产综合18久久久久久| 欧美一区不卡| 欧美一区二区三区免费视频| 国产精品进线69影院| 一本色道久久综合一区| 99国产精品视频免费观看| 欧美激情亚洲激情| 亚洲高清电影| 亚洲精品三级| 欧美成人精品福利| 在线视频成人| 亚洲欧洲在线播放| 亚洲欧洲av一区二区| 欧美一区国产二区| 国产精品自在欧美一区| 亚洲欧美在线一区| 欧美主播一区二区三区| 国产三级欧美三级日产三级99| 亚洲欧美日韩精品久久| 欧美在线观看一区二区| 国产欧美亚洲视频| 性欧美video另类hd性玩具| 久久成人18免费网站| 国产视频亚洲| 欧美在线国产| 久久三级视频| 在线观看的日韩av| 亚洲精品乱码久久久久久蜜桃麻豆| 蜜桃久久av一区| 亚洲人体影院| 亚洲无线观看| 国产精品日韩一区二区| 欧美诱惑福利视频| 久久麻豆一区二区| 亚洲高清久久| 9久re热视频在线精品| 欧美视频中文字幕| 亚洲一区图片| 久久久久久久一区| 在线日韩av| 99国产精品99久久久久久粉嫩| 欧美日韩国产综合新一区| 一本色道久久综合狠狠躁的推荐| 亚洲欧美视频一区二区三区| 国产欧美综合在线| 亚洲国产乱码最新视频| 欧美日韩的一区二区| 亚洲午夜一区二区三区| 久久精品人人做人人爽电影蜜月 | 狠狠88综合久久久久综合网| 亚洲激情校园春色| 欧美日韩一区二区免费视频| 亚洲午夜久久久久久尤物| 久久精品二区三区| 亚洲国产精品日韩| 亚洲在线观看视频网站| 国产亚洲欧美另类一区二区三区| 亚洲国产精品欧美一二99| 欧美日韩国产精品一区二区亚洲| 国产精品欧美一区二区三区奶水| 亚洲免费影院| 久久综合九色综合欧美就去吻| 亚洲精品久久在线| 欧美一级午夜免费电影| 在线免费观看视频一区| 亚洲伊人一本大道中文字幕| 国产日韩一区二区三区在线| 亚洲精品一区二区三区蜜桃久| 国产精品国产三级国产aⅴ入口| 性久久久久久久久| 欧美激情中文字幕一区二区| 亚洲一区免费网站| 欧美成ee人免费视频| 亚洲一级片在线看| 美日韩精品视频免费看| 亚洲视频久久| 欧美成年人在线观看| 亚洲一区二区成人| 欧美国产精品劲爆| 亚洲欧美在线磁力| 欧美日韩精品二区| 欧美中文在线视频| 欧美性猛交99久久久久99按摩| 亚洲国产经典视频| 国产精品亚洲成人| 亚洲乱码国产乱码精品精| 国产欧美日韩中文字幕在线| 一区二区三区成人| 一区二区三区自拍| 午夜精品久久久久久久男人的天堂| 亚洲激情视频在线观看| 久久久蜜桃精品| 亚洲免费在线播放| 欧美视频一区二区三区在线观看| 亚洲大片在线观看|