se可以说一个是由全球顶尖的it工程师们开发出的超大型算法程序,远没有想象的那么简单。
判断文章相似度并不是简单的看一个页面
se判断相似度是一个综合指标,并不是简单的看你某页面是否与数据库里的某个页面相似,而是基于整站构架的考虑,如果你全是采集,目录构架和采集站一样的话,仍然能识别出你是重复内容,所以即使你每个页面都加一些例如转载信息类的文字来试图和原页面不同,如果正文还是采集回来的话,se仍然能识别出你是重复内容。
并不是说换了套不一样的模板就显得不相似了
se处理页面文字是将所有的html代码去掉看的,所以并不是说换个模板它就认为你和原页面不形似。
另外如果是已经做了一段时间的站建议不要换模板,因为换模板可能会把每个页面的内部链接变掉,有可能会影响搜索引擎收录,如果实在要换,建议保持原有页面的内部链接规则。
se会把每个元素分解开来处理
se判别相似度的因素很多,他会把页面的所有因素都劈开,如页面title,整体布局,文字信息,内部链接架构,url规律,再综合评判你是否相似。
所以除非你能把采集回来的东西把这些因素都和原站几乎所有的因素都不形似,但是如果你真能做到的话,那也就不叫采集了。