很多网站所有者并不希望自己在站点的内容建设上投入太多的精力和时间,于是他们
让技术人员编写了一套程序系统,通过该系统他们很容易把目标网站上的网页抓取到自己的
数据库里,让后在自己的站点网页上发布这些信息,这样的程序系统便是采集系统了。
通过以上讲解,我们可以得知,通过采集系统来获得其他站点信息的这种不劳而获行
为极其不道德。
1、采集系统有何弊端呢?
● 站点的页面都是按照同一程序规则来输入的,页面布局风格千篇一律,这样极有可
能会产生大量相似页面;
● 如果系统采集了 100 万条数据,那么接下来它会在某一短时间内输入 100 个采集
信息的承载网页,这样会让搜索引擎对该站点产生怀疑。如果 Google 察觉到这种行 为,该
站点极有可能会进入 Sandbox;
● 采集行为和文章转载的做法性质差不多,这种复制内容的行为会影响搜索引擎对原
始网页的权威性的正确判断;
● 采集数据失真,因为在采集的过程中丢失了原始网页中的 Html 标识,影响搜索用
户阅读体验。
2、搜索引擎如何看待网站数据采集行为?
从 05 年开始,大量的站点采用采集系统来架构,这些站点所产生的页面大量充斥着
搜索引擎的搜索结果,很多采集站点截取了原本属于原始网页的搜索流量,这极大地影响了
搜索引擎排名的公平公正性,同时也大大降低了互联网用户的搜索体验,所以网页数据采集
行为并不受搜索引擎的欢迎。
Google 官方博客曾发表一篇名为“Site content and use of web catalogues”的文
章,在该文章中有这么一句话:
与此同时,百度和雅虎中文搜索引擎也在其给网站管理员的帮助说明中指出,它们不
会对采集系统产生的页面进行收录。到目前为止,我们依然可以在各大搜索引擎的搜索结果
中看到很多采集系统输入的页面,至少网站所有者应该明白采集行为会增加网站在搜索引擎
中的风险。如果搜索引擎察觉你的站点有采集行为,就很可能会对你的收录页面数据进行删
除。
