百度竟然采集搜狐的内容

文章来源:SEO.Myds.cn 当前位置:SEO优化首页 > SEO百度优化 发表日期:2010年04月21日 01:34

刘秀高今天在搜索的时候,无意中发现"小说"这个词排名第8的站,网站描述非常简单:“含各类小说作品,包括武侠、言情、玄幻等作品。

按常理来说,这种超级热门的词,站长应该懂点seo和简单的优化,不应该连网站的描述标签都写不好,这么简单。于是,我想是不是百度采用了DMOZ的网站描述,大家都知道Dmoz被多数主要搜索引擎所采用。但是到dmoz搜索了一下2100book.com,发现这个网站并没有被收录。

然后我打开这个网站看了下,其主要标签写法如下:

<meta name="ROBOTS" content="NOODP">
<title>世纪文学小说网-玄幻小说,言情小说,网游小说,修真小说,武侠小说,网络小说 www.2100book.com</title>
<meta name="keywords" content="小说,玄幻小说,言情小说,网游小说,,修真小说,都市小说,武侠小说,网络小说,世纪文学">
<meta name="description" content="世纪文学为国内最大的小说网站之一,提供,玄幻小说,言情小说,网游小说,修真小说,都市小说,武侠小说,网络小说等在线阅读,永做更新最快,小说最多的小说网!">

描述标签并不是百度采用描述那样,有<meta name="ROBOTS" content="NOODP">这个标签,说明站长也以为百度是采用的ODP描述,所以加了这个代码,但是事实上却不是。然后我查看源文件,搜索了下 含各类小说作品,包括武侠、言情、玄幻等作品 这句话,发现页面上并没有。

既然百度既没有采用网站写的描述,也没有抓取页面上的内容作描述,更不是dmoz的描述,那这句网站描述是怎么来的呢。

于是,我到技术最强大的google搜索,google了一把,搜索 "含各类小说作品,包括武侠、言情、玄幻等作品。",注意带双引号,意思是完整匹配,发现第一个结果就是小说文学搜狐分类目录,其他的就是一些小网站和个人博客了。百度当然不可能去采用哪些小网站的内容,唯一的可能就是采用了搜狐的分类目录。

我再从这里选取了一些网站来百度搜索网站名字,发现百度的描述果然用的搜狐的。有个别不一样的,我推测可能是这个原因,百度只是一次抓取了搜狐的分类目录内容,并没有随之更新,而搜狐的分类是不断添加内容的,也就是说,描述不相同的网站是百度抓取搜狐分类目录的时候,还没有登陆进来。

大家可以来测试下,看看我的推断是否准确。

刘秀高原创,首发于上海seo,转载必须以链接形式注明出处。

 
 
Valid XHTML 1.0 Transitional Valid CSS!