蜘蛛识别原创文章研究

2011-4-26 作者:管理员 来源:西欧汽车用品信息网


   上发表的内容,以前没有出现过的内容。

  找来资料进行二次加工,二次修改之后的内容,如修改标题,修改内容,

  增加些文字或者减少一些文字等。

  那么

  一般来讲有以下几个方面的因素决定:

  1、快照日期。

  2、蜘蛛抓取日期。

  3、页面外链的多少。

  4、文章修改的程度。

  并且抓取到了这篇文章,放到数据库,并且在收录数据库中没有发现类似内容,那么就

  会被认为是

  1:文章必须被收录,如果没有被收录,肯定是在

  了。

  如果刚发表的一篇文章被其它转载了,那么谁是

  也就是更新周期的问题了。如果a站发表,b站转载,如果先抓取到a站,那么归a,如果

  就归b站了,所以不是说你先发表了,

  引擎什么时间收录了你的内容。

  2、如果B站转载的文章带了A站的原文章页面

  3、这就很明白了,刚收录的时候,如果,两条结果一起出现,有可能还是B站的

  好一点。

  当然,文章转载次数多了以后,A站的

  成A站在前面。

  如果另外转载的文章带的是B站页面的

  流行度的比赛了。

  ,并且相差不大,那么判断的规则应该回到原点,谁先被收录

  快照日期显示时间最早的,一般就是

  不一定,这个说法要在一个更新周期之内,比如说文章发表后一周内,快照时间越早的地址

  的可能。

  但如果文章都发表了几个月了,说不定引擎已经重新获取过快照了,快照的日期就变了!

  收录,他可能会有一个收录的数据库,经过过滤后,收录的内容才会到搜

  索结果里来。在这个期间就有一些问题了,比如A站首次发表,B站转载。蜘蛛先访问A

  站再访问B站。而后可能先把B站的结果放出来了,而A站还在数据库里。

  引擎蜘蛛没有访问过这些内容,也许在

  存里已经有记录了,只是你查的时间没有放出来而已,就像25号才放出来的内容,但是快

  的核心时间点。

  这种情况一般出现在新站与老站之间,A站发表,B站转载,但A站在

  并不高的时候。不过只要是A站先被访问到的,权还是A站的,这是最难分出来的情

  况,因为我们不知道蜘蛛先访问哪个站,除非你知道两个站的

  索引擎对两个页面的访问时间。

  引擎蜘蛛不能明确分别这些东西,因为它的思维太程式化了。如果

  你的标题改过,文章的段落改过,那么蜘蛛将很难确定这篇文章是否有过收录,也许它可以

  确定有部分内容是重复的,但它也不能因为这些而将这篇文章确认为是转载!当然,随着搜

  索引擎程式设计的提高,应该会有一个相似度的东西出来,比如文字内容相似度超过百分之

  几就会被认为是转载。

  这样分析下来,相信大家应该了解了吧。只是核桃自己的看法,希望大家吸收自己想要的东



精华推荐
友情链接:高低温试验箱 煤气氧分析仪 质量追溯 物流公司 面膜批发 货源 最新电影 博彩通 博彩通 水电开槽机 隧道炉 > 铝合金门窗价格 打火机散件批发 网络营销培训 香港电影 立体人面公仔
关于我们 | About Us | 服务条款 | 广告服务 | 商务洽谈 | 公司招聘 | 客服中心 | 版权所有
备案号: 浙ICP备09011568号
Copyright © 2007 - 2009 西欧汽车用品信息网. All Rights Reserved