四步教会您制作discuz论坛采集器

互联网 | 编辑: 宋杰 2007-01-22 00:00:00转载-投稿 一键看全文

很多朋友在论坛上发贴询问采集器的制作方法和一些细节问题。为了使得更多的站长更加方便地使用SupeSite的采集功能,特作此教程。

教会您制作采集器(1)

很多朋友在论坛上发贴询问采集器的制作方法和一些细节问题。为了使得更多的站长更加方便地使用SupeSite的采集功能,特作此教程。

首先简单说一下制作采集器的基本原理和思路:

1、确定您要采集哪个页面的新闻,将这些页面的地址填入到“索引页面url地址”;

2、确定在这些页面您要采集的内容区域,因为不是一个网页所有的内容都要采集回来,而是采集一个网页的一部分内容,所以您必须告诉程序您要采集的区域,也就是“列表区域识别规则”;

3、第2步确定区域之后,还要告诉程序您要采集的文章链接,也就是“文章链接url识别规则”。

4、现在已经确定了大的采集框架,接下来要告诉程序在一个文章页面,文章的标题,文章的来源和作者分别是什么。然后就是一篇文章内容的范围,也就是说一个文章页面内,真正您需要采集的范围,就是“文章内容识别规则”。最后设置分页的区域和分页的链接地址。

5、以上4个步骤已经确定了采集的范围,如果您需要过滤标题和内容,请根据您的要求设置“内容页面整理设置”。

以上几个步骤确定范围都是通过查看页面源码,进行设置的,截取的方法需要一些经验,练习2~3次就可以领悟到了。

接下来介绍采集器的基本原理和步骤:

第一:打开后台的采集器,点击“添加新机器人”。(图1)

第二:填写基本设置:(图2)

这里需要特别指出的有两个地方:单次采集个数和采集页面编码。单次采集个数尽量设置较小的数字,以免超时。采集页面编码是您采集网页的编码,并不是您站点的编码。这里切记!!

查看采集页面编码的方法:点击网页头部的“查看”,然后点击“源文件”,然后找到类似“<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />” ,charset后面的就是这里需要填写的“采集页面编码”。(图3)

提示:试试键盘 “← →” 可以实现快速翻页 

总共 2 页12
一键看全文

本文导航

相关阅读

每日精选

点击查看更多

首页 手机 数码相机 笔记本 游戏 DIY硬件 硬件外设 办公中心 数字家电 平板电脑