《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 基于DTS的Web日志分析系統
基于DTS的Web日志分析系統
焦文彬 及俊川 叢培民
北京中國科學院計算機網絡信息中心(100864)
摘要: 通過在Web日志分析系統中引入Microsoft SQL Server的DTS技術,解決了日志系統運行效率與數據結構化存儲之間的瓶頸問題。文中介紹了一種實際系統的架構設計方案,并給出了實現方法及應用效果。
Abstract:
Key words :

摘  要: 通過在Web日志分析系統中引入Microsoft SQL Server的DTS技術,解決了日志系統運行效率與數據結構化存儲之間的瓶頸問題。文中介紹了一種實際系統的架構設計方案,并給出了實現方法及應用效果。
關鍵詞:  Web日志  離散  數據轉換服務  數據挖掘  Java

  隨著Web站點規模的增大,所涉及的應用服務種類越來越多。因此需要有效地對各站點的訪問情況和服務性能進行監控和分析,包括訪問量的統計、流量的監控、資源利用的監測以及服務性能的評估等,從而為決策者和網站建設者提供管理和決策依據。站點的監控和統計分析已成為站點建設的一項重要內容。Web服務器的訪問日志文件記錄了客戶端每次請求的細節,如請求資源、請求時間、客戶IP、服務器IP、發送字節數和接收字節數等,因此,對Web站點訪問日志進行分析,已成為評估網站運行質量的一種常用方法。
  大型Web站點的日志文件的重要特征是數據量巨大,每日幾百兆甚至上千兆,并且隨著時間推移不斷增加。因此很多站點對日志文件進行按日分割(即每天產生1個文件),而這樣就帶來日志文件的離散性。傳統日志分析系統過多關注日志分析的效率問題,而忽略了對離散文件進行連續分析的研究及對每次分析結果的結構化保存問題。隨著數據挖掘技術逐漸由理論到實踐以及人們對海量數據的利用越來越關注,進行持續分析以及對分析結果進行結構化存儲甚至比效率顯得更加重要。近來的系統雖然重視了這方面的研究,在分析過程中引入了數據庫系統,但由于大數據量導入數據庫耗費了大量時間,因此系統并不實用。
  現代關系數據庫很重視原始數據的導入,一般都提供數據導入工具,如SQL-SERVER的數據轉換服務(Data Transformation Services,DTS),ORACLE的SQL?鄢LOADER等。本文就是通過在日志分析系統中嵌入SQL-SERVER的DTS,從而使系統既有較高的執行效率,又很好地解決了離散文件的連續性分析與存儲問題。
1  DTS介紹
  將不同數據源中的數據加以整合是進行數據分析和數據挖掘的前提和基礎。DTS是一組圖形化工具和可編程對象,可以將來自不同數據源的數據析取、轉換、合并到 DTS所支持的單個或多個數據載體中,以便做進一步的處理。Microsoft從SQL-SERVER 7.0開始提供該項服務,到了SQL-SERVER 2000 DTS得到了重大的發展,成為SQL-SERVER主要功能之一。
  要利用SQL-SERVER的這一強大功能,首先要建立DTS包。DTS包是數據轉換服務的可執行單元,每個包都包含1個或多個順序或并行執行的程序步驟。當包執行時,首先連接到正確的數據源,然后復制數據和數據庫對象,最后完成數據轉換工作。用戶可以對包進行編輯、密碼保護、調度以及按版本檢索等操作。SQL-SERVER提供了多種方式創建DTS包,如DTS導入/導出向導、DTS設計器等可視化工具。
  創建好DTS包后,便可在客戶端通過DTS執行實用工具(如dtsrun)進行調用,這樣就可將特定格式的數據從不同的數據源導入目的數據庫中。本文所討論的日志分析系統便是建立在這種方案之上的。由于DTS是系統提供的一種多線程數據遷移工具,因此具有很高的轉換效率。詳細的關于如何創建DTS包和dtsrun的調用方法請參考相關專著和SQL-SERVER聯機幫助。
2  系統設計
  通過上面的分析,本文認為運用DTS技術能夠很好地解決日志系統運行效率與數據結構化存儲之間的瓶頸問題。整個系統的架構設計如圖1所示。本設計基本實現了以下目標。

  (1)適合日志文件的多樣性
  現有多種流行的Web服務器,如Apache、IIS等。不同服務器的訪問日志文件所記錄的內容大同小異,如請求資源、請求時間、客戶IP、服務器IP、發送字節數和接收字節數等,然而記錄格式卻不盡相同。Apache和IIS的Web日志格式如表1所示。格式具體含義請參考聯機幫助。


  由此可見,日志文件屬于半結構化的文本文件。對于這樣的文件DTS是不能夠直接導入到數據庫中的。因此,在原始日志文件下載到本地后,應該對文件進行規范化處理,這里稱為日志文件的歸一化處理,即將不同的日志格式轉換成一種DTS可以直接操作的文件格式。這實際上是一種文本過濾技術,很多編程語言都能方便實現。
  (2)離散非結構數據的結構化存儲
  日志文件在進行歸一化處理后,便可使用DTS服務了。首先通過向導(Wizard)或數據轉換服務中的工具定義一個DTS包,其中數據源是經過歸一化處理的日志文件,導入目的庫是系統使用的數據庫。一切定義好之后,便可以將數據導入到數據庫表中。可以發現導入效率非常高,通常在2~5分鐘能完成100萬條記錄。
  (3)進行遠程離線統計
  分析系統應該盡量做到對Web服務器的無干擾操作,否則會影響Web服務器的正常工作。為此,分析系統應該在物理上與Web服務器隔離,使之位于另一臺服務器上,甚至另一個網絡中。這樣,系統應采用一定的技術手段將Web日志文件下載到本地。本系統采用FTP進行文件下載。
  (4)分析功能的定制性
  功能定制也稱為基于組件的軟插拔技術,是現代軟件所倡導的核心技術之一。因此,本系統的分析功能采用基于軟組件的方法,實現了系統功能的配置與定制。數據在導入數據庫系統之后,便可以利用關系數據庫和編程語言的強大功能進行數據挖掘和分析處理。
  (5)功能豐富的報表輸出B/S方式
  B/S方式已成為人機交互和信息表現的主流方式。本系統也是通過該方式顯示分析結果,通過豐富的報表、統計圖等直觀的手段,為網站管理者和決策者提供有價值的信息。
3  系統實現
  本系統由2部分組成,即后臺服務程序和前臺顯示程序。其中后臺服務程序負責完成日志文件下載、歸一化處理、DTS入庫、分析等功能,根據需要可以設置為自動運行和手動運行。現已實現了訪問統計功能、頻道統計功能、熱門頁面(HotPage)排行和用戶地域分析等功能。前臺顯示程序是基于B/S結構,通過統計表和統計圖方式直觀地展示分析結果。本系統采用Java語言開發,為系統移植和擴展提供了方便。利用本系統對某大型新聞類網站進行的一個月度訪問走勢對比分析如圖2所示。

4  結束語
  本文介紹了Web日志分析系統的特點和目前研究重點,并概要介紹了Microsoft SQL Server的DTS技術。在此基礎上開發的Web日志分析系統,較好地解決了日志系統運行效率與數據結構化存儲之間的瓶頸問題。該系統采用了主流的軟件技術,架構清晰,可擴展性較好。該系統操作簡單,功能實用,目前已在多個大型Web站點獲得了成功的應用,為網站管理者和決策者提供了大量有價值的信息。
參考文獻
1   張川.具有訪問時間完整性的Web日志方法.計算機應用與軟件,2004;21(2)
2   趙偉.Web日志挖掘中的數據預處理技術研究.計算機應用,2003;23(5)
3   張靜,田忠和.基于IIS和Web日志的關聯關系的挖掘.華中科技大學學報(自然科學版),2002;30(7)
4   章立民.SQL Server 2000完全實戰-數據轉換服務(DTS).  北京:中國鐵道出版社,2002
5   Bartolini C,Redpath R.Web Usage Mining and Discovery of Association Rules from Http Servers Logs.http://www.prato.linux.it/~gbartolini/en/view-a/2/pdf/wum.pdf,2001
 

此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
欧美三级日韩三级国产三级| 欧美一区深夜视频| 亚洲在线中文字幕| 国产亚洲午夜高清国产拍精品| 亚洲三级视频在线观看| 亚洲欧美日韩中文在线制服| 精品1区2区| 欧美一区影院| 久久电影一区| 欧美日韩国产区一| 亚洲第一福利社区| 国产欧美日韩亚洲| 亚洲视频大全| 亚洲国产99精品国自产| 久久激情综合网| 一区二区三区四区国产| 欧美大片专区| 久久精品欧洲| 国产视频一区二区在线观看 | 亚洲精品一区二区在线观看| 国产精品理论片在线观看| 一本色道久久| 亚洲国产精品电影| 国产精品久久激情| 亚洲自拍偷拍网址| 99在线精品视频在线观看| 欧美国产综合一区二区| 亚洲福利久久| 国产性猛交xxxx免费看久久| 欧美国产成人在线| 午夜一区二区三区不卡视频| 中文一区二区| 欧美午夜精品久久久久久久| 亚洲网站视频| 国产精品99久久不卡二区| 今天的高清视频免费播放成人| 欧美日韩在线视频一区| 中文成人激情娱乐网| 欧美一区观看| 韩国精品在线观看| 久久躁日日躁aaaaxxxx| 欧美在线视频观看免费网站| 亚洲麻豆一区| 欧美午夜激情视频| 美女露胸一区二区三区| 亚洲人成绝费网站色www| 亚洲电影免费| 欧美精选在线| 亚洲午夜国产一区99re久久| 久久精品一区蜜桃臀影院 | 亚洲在线1234| 亚洲免费观看高清完整版在线观看| 亚洲高清123| 国产香蕉97碰碰久久人人| 欧美色精品天天在线观看视频| 免费观看久久久4p| 久久国产88| 香蕉成人久久| 亚洲尤物在线| 亚洲综合三区| 亚洲一卡久久| 在线亚洲一区观看| 亚洲免费av观看| 亚洲精品久久久久| 亚洲高清在线| 欧美中文在线观看| 久久av资源网| 欧美主播一区二区三区| 午夜精品久久久久久久男人的天堂| 国产一区二区三区无遮挡| 国产精品都在这里| 国产精品av久久久久久麻豆网| 欧美日韩美女在线| 欧美日本中文| 欧美日韩第一页| 欧美日韩国产成人在线免费| 欧美极品在线观看| 亚洲欧美激情视频在线观看一区二区三区| 亚洲伦理在线| 亚洲欧美日韩综合国产aⅴ| 狠狠色狠狠色综合日日五 | 国产欧美日韩视频| 国产精品一区二区视频| 久久久久免费观看| 日韩视频免费观看| 亚洲精品综合| 在线亚洲成人| 亚洲综合精品四区| 午夜精品视频在线观看一区二区| 午夜欧美精品| 久久精品国产精品亚洲精品| 久久久www成人免费无遮挡大片| 亚洲国产精品久久久久秋霞不卡| 99精品欧美| 激情六月综合| 亚洲国产精品第一区二区| 91久久夜色精品国产九色| 国产欧美在线播放| 国产一区二区三区黄视频| 好吊妞**欧美| 亚洲国产精品综合| 一本色道婷婷久久欧美| 亚洲视频电影图片偷拍一区| 午夜精品福利在线观看| 久久精品国产96久久久香蕉| 亚洲麻豆av| 亚洲欧美中文在线视频| 久久久综合精品| 欧美国产在线视频| 国产精品久久久久久久一区探花| 国产日韩欧美精品| 怡红院精品视频| 国产精品二区在线| 国产日韩欧美亚洲| 在线观看欧美成人| 在线一区观看| 久久国产精品一区二区三区四区| 亚洲精华国产欧美| 欧美在线亚洲一区| 亚洲另类视频| 香蕉久久a毛片| 欧美高清你懂得| 国产精品久久久久影院亚瑟| 韩日欧美一区二区| 日韩视频在线观看| 欧美中文字幕久久| 亚洲视频精品在线| 久久婷婷综合激情| 欧美日韩中字| 激情久久久久久久久久久久久久久久| 亚洲精品视频一区| 欧美一区二区三区精品电影| 亚洲区欧美区| 性8sex亚洲区入口| 欧美国产乱视频| 国产午夜精品一区二区三区视频 | 在线观看亚洲精品视频| 亚洲私人影吧| 亚洲美女啪啪| 久久久久久久综合色一本| 欧美日韩一区高清| 激情综合亚洲| 亚洲一区在线看| 一区二区激情视频| 久久精品女人天堂| 亚洲欧美国产精品桃花| 暖暖成人免费视频| 麻豆乱码国产一区二区三区| 欧美视频在线一区二区三区| 一区在线免费| 亚洲在线成人| 亚洲视频axxx| 欧美福利网址| 国内精品久久久久国产盗摄免费观看完整版| 国产情侣一区| 一本久久综合亚洲鲁鲁| 亚洲国产乱码最新视频| 欧美中文字幕在线视频| 欧美中文在线观看| 欧美日韩在线视频首页| 亚洲第一综合天堂另类专| 新67194成人永久网站| 欧美一区二区三区免费观看视频 | 欧美一级播放| 欧美日韩亚洲综合| 亚洲国产一区二区视频| 亚洲欧洲偷拍精品| 亚洲第一在线综合网站| 午夜一级久久| 国产精品久久久久久影院8一贰佰| 亚洲欧洲日韩女同| 久久精彩视频| 久久精品盗摄| 国产在线精品成人一区二区三区 | 亚洲美女精品一区| 免费黄网站欧美| 国产在线视频不卡二| 亚洲欧美日韩在线一区| 午夜精品一区二区三区电影天堂 | 尤物精品在线| 久久精品人人做人人综合| 久久精品在这里| 国产色视频一区| 午夜精品国产精品大乳美女| 欧美亚洲在线观看| 国产精品一区一区三区| 亚洲一区黄色| 午夜视频精品| 欧美在线免费观看亚洲| 国产精品一区免费视频| 亚洲欧美日韩国产综合精品二区| 亚洲欧美日韩成人| 国产精品久久网| 亚洲自拍偷拍网址| 欧美一区在线视频| 国产一区二区主播在线| 欧美在线你懂的| 久久久国产精品一区二区中文 | 欧美精品aa| 一区二区成人精品|