
抓站系统利弊谈
文/吴海菁
随着互联网的普及,一个个网站也如过江之鲫,在虚拟世界里充当最主要的角色。网络的兴起带来内容更新的需求,而内容建设又带动网站编辑队伍的繁荣。前不久网站编辑列入新兴职业行列之林,这也为网站编辑正本清源。然而尽管已经存在了几年之久,网站编辑的工作并没有脱离“Ctrl+C复制”和“Ctrl+V粘贴”的机械劳动,很多编辑也因此患上了“鼠标手”、“视窗脸”、“干眼症”和“颈椎病”。事实上,机械、单调和重复的劳动恰恰是计算机的专长,只不过软件技术还没有达到将编辑工作提炼,升华成程序化操作的地步。
那么,有没有一种方法来替代网站编辑的工作,或者设计出一种抓站系统(也叫软件机器人系统)自动完成内容入数据库之前的全部工作,而网站编辑只需对抓站系统的“劳动成果”进行简单的修改,就可实现快速发布?
要回答这个问题,就必须从网站编辑的工作流程入手分析。目前几乎所有的网站都是转载成风,不管是授权还是非授权,编辑的绝大部分精力都用于转载、编辑、排版与入库等操作。在这个过程之中,入库是最繁琐,也是最机械的工作。根据各个网站的发布系统不同,入库操作会略有差异,但是基本都是登陆入库系统、选择栏目、输入标题、输入作者名、输入正文、选择图片路径、提供相关文章链接,提供关键字链接等步骤。在这些过程中,最后两步稍微能体现出编辑的创造力,因为编辑也要揣摩读者对哪些相关内容有进一步阅读的兴趣,而有时关键字链接为吸引在线广告业主,而将他们公司的名称与公司的网址绑定。在转载过程中,真正能体现编辑的价值也仅仅在于应该选择哪些文章来发布。
如果用抓站系统来做网站编辑工作,那么需要有“搜索、提取、编辑、排版和入库”等五个步骤,最后可以由抓站系统直接发布,也可以由编辑自己来取舍,并实施发布。在这五个步骤中,搜索和提取是其中的关键所在。
随着搜索引擎技术的发展,在网络中搜寻内容并不是件很难的事情。搜索步骤最难的部分在于如何选择合适的信息源网站、合适的关键字以及更新时间等,为自身的网站提供源源不断的专业内容。合适的信息源网站首先应该是规范化的网站,它们提供的网站有固定而规范的格式,以便抓站系统在提取步骤获得发布系统需要的各个要素。合适的信息源网站还应该是各种权威的专业化网站,以便抓站系统获得有价值的有效内容。关键字的选取也很重要,这决定了抓站系统是否能找准、找到目标网站想要的内容。随着大量信息的聚合,抓站系统慢慢只需要获取其他网站的最新内容,利用RSS等技术,完全可以获得信息源网站的更新内容。
提取步骤是抓站系统的核心部分,对于规范的信息源网站而言,获取其中的要素(标题、作者、发布时间、来源、正文等),丢弃其中的糟粕(在线广告、垃圾链接、无用图片等)并不太难。但是对于一些并不正规的网站,如何从Web页面中提取有效的要素,还有不小的难度,必要时还需要加入智能化的分析算法,利用人工智能的手段保证信息的正确性和有效性。
抓站系统获得信息的基本要素之后,需要根据目标网站的需求对其进行简单的加工处理,这也称作编辑步骤。比如更换标题、加入编者按和内容简介等,这部分工作可以由人工来完成,也可以由抓站系统自动完成。
编辑步骤结束之后,则进入自动排版步骤。抓站系统要将已经得到的信息基本要素填入排版系统相关表格中,根据需要实现分页、添加图片、选择字体等工作。
排版结束之后,最后完成入库步骤。入库之前需要添加相关文章链接和关键字链接,这部分工作可以由抓站系统自动完成,也可以在网站编辑的干涉下最终完成。
经过上述五个步骤,抓站系统可以在网站编辑休息的情况下,自动将信息源网站的,与关键字相关联的最新信息“抓过来”,放入目标网站的数据库中,并根据不同的设置决定是否由抓站系统还是网站编辑最终发布。
从上述步骤来看,抓站系统并不是非常神秘的系统,其技术可行性很强。据笔者了解,有些门户网站和专业网站早就在做一些实验性的探索工作,只不过这种技术手段不能摆脱“版权”的困扰,因此一般都是低调处理。
随着技术的进步,抓站系统的出现只是时间早晚的问题,其最大的好处就是能够大大解放网站编辑的双手,真正从机械式的高强度劳动中解脱出来,而将主要精力放在内容建设或者内容的二次“开发”上,提升编辑素质的整体门槛。从网站的运营角度来说,抓站系统能够削减网站编辑人员数量,压缩相关投资,从而获得更加高效的产出比。
不过抓站系统的问题也很突出。与RSS和网摘等技术形式不同,抓站系统“攫取”文章内容的全部要素,而不是只获取标题、作者、摘要、链接。换句话说,RSS和网摘阅读最终都将文章的正文指向了信息源网站,从某种形式上是为信息源网站做出了推广和宣传的贡献,而抓站系统完完全全将信息占有,并将它改头换面,转换成目标网站的信息,不可避免会有版权上的纠纷。另外,在互联网中,抓站系统的泛滥必然导致更多重复的“垃圾信息”,这不仅会占据大量的互联网资源,而且也会对用户的视觉造成极大的污染。
在利与弊之间权衡,“利”永远会占据上风,因此抓站系统的风行难以避免。
当前位置: 