從網站建設到網站優化再到網站安全監管一條龍服務,為客戶從專業角度進行規劃,讓建站和優化一次到位,專業的事交給專業的人來做,選擇點創讓您省錢又省力。

SEO外包
專業的SEO優化公司,8年經驗沉淀
為客戶提供全方位整合營銷方案

什么是倒排索引?它的原理是什么?

時間:2020-08-07
此索引表中的每個條目都包含屬性值以及具有該屬性值的每條記錄的地址。 不是由記錄決定屬性值,而是由屬性值決定記錄的位置,所以被稱為倒置索引(inverted  index  )。 具有倒排索引的文件稱為倒排索引文件,僅稱為倒排文件
一、倒置索引概述
倒排索引(Inverted  Index  )是全文檢索系統的單詞文檔映射結構中常用的索引方法。 現代搜索引擎的大部分索引都是根據倒排索引建立的。 這是因為在實際的應用程序中,用戶使用搜索引擎搜索信息時,大多只輸入信息中的某個屬性鍵。輸入節目內容,搜索該節目等。
對于龐大的信息數據,為了滿足用戶的需要,適應信息時代迅速獲得信息的潮流,聰明的開發者們在開發搜索引擎時將這些信息數據倒算,開發“關鍵詞——文件”形式的映射結構,在通過物品屬性信息來映射物品時,用戶倒置索引也稱為逆索引,是逆思維運算,是現代信息檢索領域最有效的索引結構。
二、關于倒排索引
搜索引擎通常檢索的場景是給予幾個關鍵字,找到包含這些關鍵字的文檔。
如何快速查找包含關鍵字的文檔是搜索的關鍵。 這里使用單詞——文檔矩陣模型
通過該模型,能夠容易地知道某文檔中包含哪個關鍵字,某關鍵字包含在哪個文檔中。
單詞-文檔矩陣的具體數據結構包括倒排索引、簽名文件和后綴樹。
倒排索引必須在實際應用程序中基于屬性值搜索記錄,而lucene是基于倒排索引實現的。
此索引表中的每個條目都包含屬性值以及具有該屬性值的每條記錄的地址。
不是由記錄決定屬性值,而是由屬性值決定記錄的位置,所以被稱為倒排索引(inverted  index  )。
具有倒排索引的文件稱為倒排索引文件,僅稱為“倒排文件”。
倒排索引通常表示為關鍵字,其頻率(出現次數)、位置(出現在哪個文章和頁面以及相關的日期、作者等信息)相當于對互聯網上的數千億頁面進行了索引,就像書的目錄和標簽一樣。 讀者想看哪個主題的章節,可以直接從目錄中找到相關的頁面。 不需要從書的第一頁到最后一頁,一頁一頁地搜索。
三、倒置索引概述:
在關系數據庫系統中,索引是檢索數據的最有效方法,但搜索引擎不能滿足特殊要求
1、龐大的數據:搜索引擎面臨的是龐大的數據,谷歌、百度這樣的大型商業搜索引擎索引都是億級到百億級的頁數,面臨這樣龐大的數據,很難有效地管理數據庫系統。
2、數據操作簡單:搜索引擎使用的數據操作簡單,一般只需添加、刪除、變更、檢索幾個功能,并且數據有特定的格式,可以為這些應用程序簡單高效地設定修改應用程序典型的數據庫系統支持大型、完整的功能,同時減少了速度和空間。 最后,搜索引擎面臨大量的用戶搜索要求,搜索引擎在搜索過程的設置修改上需要時刻爭奪,在索引時完成盡可能大的運算量工作,盡可能減少搜索運算。 在典型的數據庫系統中,難以承受這樣大量的用戶要求,在檢索響應時間和檢索同時性兩方面,都比不上我們設定的索引系統。
四、倒排索引由單詞詞典和倒排文件兩部分組成。
(1) .倒置文件
所有單詞的倒排表的順序存儲在有盤的文件中,該文件稱為倒排文件,倒排文件是存儲倒排索引的物理文件。
(2) .單詞詞典
單詞詞典是由文件集合中出現的所有單詞組成的字符串集合,按單詞詞典內的每個索引項目記載著單詞本身的信息和指向“倒置表”的指針。
單詞詞典是轉置索引中非常重要的組件,用于保存文檔集合中的所有單詞的信息,并且記載與某個單詞相對應的轉置表在轉置文件中的位置信息。 在支持檢索時,根據用戶的檢索詞,在單詞辭典中進行檢索,就可以得到對應的倒排列表。
大型文檔集合可能包含幾十萬到幾百萬個不同的單詞
為了快速識別某個單詞,直接決定檢索的反應速度,需要用高效的數據結構構筑單詞詞典進行檢索。
典型的數據結構包括散列鏈表和樹詞典結構。
在線客服
咨詢電話
029-89331578

微信客服
電話咨詢 在線咨詢
(*^▽^*)MG神龙碎片游戏说明 上海雀友麻将机专卖 广西快3人工计划网页 北京pk拾开奖现场直播 百赢棋牌官方下载一木 手机麻将哪个版本好玩 麻将机品牌前十名 新MG送彩金 广东十一选五的计算方法 福建快3走势一定牛 凤凰彩票app幸运赛车 白山松江河棋牌下载 甘肃天水麻将馆能开吗 北京麻将混是什么意思 捕鱼大师破解版 排列三独胆 体彩陕西十一选五开