基于網頁聚類的Web信息自動抽取 | |
所屬分類:技術論文 | |
上傳者:aet | |
文檔大小:305 K | |
所需積分:0分積分不夠怎么辦? | |
文檔介紹:針對現今較流行的動態Web網頁數量巨大,數據價值高,并且網頁結構高度模板化的特點,設計了一個基于網頁聚類的Web信息自動抽取系統.在DOM抽取技術基礎上利用網頁聚類尋找高相似簇,并引入列相似度和全局自相似度計算方法,提高了聚類結果的準確性.抽取模板中應用了可選節點對模板的修正和調整,以提高內容節點的正確標識,實驗結果表明,該方法能夠自動尋找并抽取網頁主要信息,達到了較高的準確率和查全率. | |
現在下載 | |
VIP會員,AET專家下載不扣分;重復下載不扣分,本人上傳資源不扣分。 |
Copyright ? 2005-2024 華北計算機系統工程研究所版權所有 京ICP備10017138號-2