DoNews.com
当前位置: IT写作社区周强SEO探索
众里寻她千百度,蓦然回首,却是一头笨猪
周强 | SEO探索 | 出处:原创-IT| 2008年09月27日 00:12 | 阅读
        

由于网站的历史遗留问题,网站存有大量动态url地址(如info_list.php?),而且参数非常混乱。动态url地址由于存在时间较长,已被搜索引擎大量收录,存于搜索引擎的索引数据库中,且有了很高的权重。
使用webtrends对日志进行了spider爬行分析得出,这些动态url地址有很高的排行优先权,多次都是spider通过这些动态url从数据库中直接爬行至网站,进行抓取。由于spider是通过如info_list.php?此类动态页面爬行至此,在抓取的过程中spider一直在动态网页中循环抓取(因为参数比较混乱,spider会根据参数排列逻辑自己排列组合进行抓取,且不是返回404,所以导致了动态页面无穷多,严重浪费了spider的抓取效率),无法抓取到网站的伪静态页面。
对此情况采取了以下措施:
1、对全站url进行静态化处理,限制不同参数的排列组合,固定参数非正确的排列组合返回404.
2、对静态化的页面进行META规则制定,每个页面拥有自己独立的META信息,避免造成这些页面被收录后,在索引数据库中本站关键词竞争,可以突出重点词。
3、制作静态化页面sitemap.xml ,且通过robots.txt屏蔽各个动态目录。
4、通过google管理员工具删除已存在于google索引数据库中的动态url地址,可以删除整个动态目录。
通过以上方法,经过约1个月时间,目前google.com索引数据库中动态url地址已全部删除。site:该目录以为0. 通过webtrends对日志spider爬行的分析,目前已经批量抓取静态页面。原有排名的动态url页面,已被静态页面取代。spider抓取、索引数据库中的静态页面排名已趋于正常。
通过此次操作,又再次体会出google.com比baidu.com智能的多,其中最重要一点包括google.com可以通过管理员工具很方便的与站长沟通,即能帮助站长解决问题又能节省自己的spider抓取资源。而百度呢?baiduspider根本就不能控制,乱抓。也不明白站长的意思。技术含量极低… … 排序规则、更新规则中又夹杂着n多人为因素。

众里寻她千百度,蓦然回首,却是一头笨猪.


发表评论| 收藏此页到365Key
相关讨论

    没有评论        

周强介绍

周强 周强 搜索引擎营销专家,DONEWS专栏作家,艾瑞专栏作家,点石互动版主,多年研究搜索引擎算法规律从事SEO SEM工作,熟悉PPC操作,熟练各种培训PPT撰写,产品设计.现在在慧聪B2B网站从事搜索引擎营销工作。 个人简介 先后为个人网站、行业门户提供过整站SEO优化服务、一直从事策划、运营、UE等多方面研究.

周强更新

本站更新

本站焦点

周强归档

>>More
关于我们 [English] | 合作联系 | 版权信息 | 聚会相册 | 友情连接 | 使用指南
Copyright (C) 2000-2005 DoNews.COM ( IT社区&媒体平台 )
All Rights reserved.