亚洲一级免费看,特黄特色大片免费观看播放器,777毛片,久久久久国产一区二区三区四区,欧美三级一区二区,国产精品一区二区久久久久,人人澡人人草

等級(jí)考試

基于Web信息采集技術(shù)研究

時(shí)間:2025-05-07 16:50:59 等級(jí)考試 我要投稿
  • 相關(guān)推薦

基于Web信息采集技術(shù)研究

  隨著Web上信息的迅速擴(kuò)展,各項(xiàng)基于Web的服務(wù)也逐漸繁榮起來(lái)。作為這些信息服務(wù)的基礎(chǔ)和重要組成部分,Web信息采集正應(yīng)用于搜索引擎、站點(diǎn)結(jié)構(gòu)分析、頁(yè)面有效性分析、Web圖進(jìn)化、用戶興趣挖掘以及個(gè)性化信息獲取等多種應(yīng)用和研究中。然而,隨著人們對(duì)提供的各項(xiàng)信息服務(wù)要求越來(lái)越高,傳統(tǒng)的基于整個(gè)Web的信息采集也越來(lái)越力不從心,它無(wú)法及時(shí)地采集到足夠的Web信息,也不能滿足人們?nèi)找嬖鲩L(zhǎng)的個(gè)性化需求。為此,本文展開(kāi)了對(duì)Web上局部范圍內(nèi)信息的有效采集研究,也就是基于主題的Web信息采集研究。

基于Web信息采集技術(shù)研究

  根據(jù)我們?cè)谛畔⒉杉I(lǐng)域的長(zhǎng)期積累以及國(guó)內(nèi)外在基于主題的信息采集領(lǐng)域的發(fā)展,本文在綜述了基本情況后提出了一個(gè)基于主題的Web信息采集結(jié)構(gòu)模型,這包括主題與起始URL選擇、Spider采集、頁(yè)面分析、URL與主題的相關(guān)性判定、以及頁(yè)面與主題的相關(guān)性判定等一系列步驟。我們分別給出了相關(guān)的處理算法和流程以及相應(yīng)的數(shù)據(jù)結(jié)構(gòu),并針對(duì)研究過(guò)程中遇到的問(wèn)題,提出了多個(gè)新的算法、判定規(guī)則和規(guī)律:

  在Hub特性、Linkage/Sibling Locality特性、站點(diǎn)主題特性、Tunnel特性的基礎(chǔ)上,總結(jié)出了主題頁(yè)面在Web上的分布規(guī)律。

  在定義主題和提出分類主題的基礎(chǔ)上,給出了主題選擇的方法。

  采用Client/Server結(jié)構(gòu)的Spider系統(tǒng),允許多機(jī)同時(shí)采集,實(shí)現(xiàn)了全面、高效并且靈活的信息搜集。

  在分析了HTML語(yǔ)法的基礎(chǔ)上,給出了對(duì)html頁(yè)面的主題、鏈接、標(biāo)題的提取算法。

  在URL與主題的相關(guān)性判定中,在擴(kuò)展元數(shù)據(jù)方法RW、RWB和鏈接分析方法PageRank的基礎(chǔ)上提出了IPageRank算法。

  在頁(yè)面與主題的相關(guān)性判定中,應(yīng)用在自然語(yǔ)言處理中比較成熟的基于關(guān)鍵詞的向量空間模型計(jì)算頁(yè)面與主題的相似度。

  試驗(yàn)結(jié)果顯示,我們的工作是有效的,我們的系統(tǒng)有很強(qiáng)的實(shí)用價(jià)值,特別是URL與主題的相關(guān)性判定中的IPageRank算法,有較大的突破。
 

【基于Web信息采集技術(shù)研究】相關(guān)文章:

基于PHPQuery的PHP通用采集類10-17

全國(guó)學(xué)前教育管理信息采集表06-26

2016年普通高考報(bào)名信息采集的注意事項(xiàng)09-08

南昌市2017年小升初信息采集指南06-09

全國(guó)學(xué)前教育管理信息幼兒基本采集表08-06

2017年內(nèi)蒙古高考報(bào)名信息采集辦法10-29

2016年起自考采集筆跡信息 溧水報(bào)名工作已啟動(dòng)06-18

2017(新鄉(xiāng)考區(qū))國(guó)家司法考試現(xiàn)場(chǎng)個(gè)人指紋信息采集公告09-19

湖南2017年高考招生考生電子檔案信息采集方案10-04