为什么能支持任意的真值判断?
基于链接分析的排序算法有很多种,其中最有名的PageRank算法被谷歌广泛采用,是其核心排序算法。 来看下PageRank算法的基本思想: 网页的重要程度用PageRank值来衡量,网页的PageRank值体现在两个方面:引用该网页其他网页个数和引用该页面的其他页面的重要程度。 假定一个网页A被另一个网页B引用,网页B就将PageRank值分配给网页B所引用的网页,所以越多引用网页A则其PageRank值也就越高。 另外网页B越重要,它所引用的页面能分配到的PageRank值就越多,网页A的PageRank值也就越高越重要。
其实这个算法说起来非常简单:比如写公众号,有大V转载就相当于引用了,越多其他公众号转载,说明你的公众号内容质量越高。 6.2 网页排序的常见策略 网页排序策略是个不断优化和提升的演进过程,我们来一起看下都有哪些排序策略: 基于词频和位置权重的排序 这是早期搜索引擎常采取的方法,相对简单但是效果还不错。 简单来说就是根据网页中关键词的出现频率以及出现位置作为排序依据,因为普遍认为:检索词出现次数越多、位置越重要,网页的关联性越好,排名越靠前。 词频并不是单纯的统计次数,需要有全局观念来判断关键词的相对次数,这就是我们要说的TF-IDF逆文档频率,来看下百度百科的解释: TF-IDF (term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。 TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。 TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。 字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。 举个栗子: 网页中"吃饭"这个词出现了10次,虽然次数很多,但是"吃饭"这个词过于普通,因为在很多其他网页都出现了,因此"吃饭"这个检索词的重要性就相对下降了。 基于链接分析的排序
链接分析排序认为:网页被别的网页引用的次数越多或者越权威的网页引用,说明该网页质量越高。 5.5 本章小结 内容处理模块将抓取到的网页进行清洗、提前新URL给爬虫模块、内容分词、建立正排索引和倒排索引,是个承上启下的中间环节。 特别地,提一下正排索引和倒排索引,字面上并不直观,其实道理并不难理解: 正排索引:具体到一篇网页有多少关键词,特指属于该网页本身的内容集合,是一个网页。 倒排索引:一个检索关键词对应多少相关联的网页,也就是可备选网页集合,是一类网页。 6. 网页排序和用户模块 6.1 网页排序的必要性 由于存储的网页是百千亿级的,那么一个检索词可能对于几万、几十万甚至更多相关的网页。 网页排序需要综合考虑:相关性、权威性、时效性、丰富度等多个方面。 搜索引擎要展示优质的强关联网页给用户,并且放在靠前的位置,否则搜索效果将会很差,用户并不买账。 事实上也是如此,比如搜索引擎返回了10页结果,每页10条,总结100条,一般用户点击到1-3页之后的网页大概率就不再点击了,因此排序的头部内容对于搜索结果至关重要。
我们仍然以检索"隐秘的角落"为例,百度共计返回了10页,其中1-2页的内容是强关联的,是个比较不错的检索结果了: (编辑:江门站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |