技术宅

当前位置:首页 > 网站教程 > 帝国教程

帝国教程

帝国cms7.2后台采集规则编写教程

时间:07-20 作者:
第一步:我们首先要找一个采集用的目标站,找目标站是有要求的,目标站最好是一个稳定成熟的网站不然你好不容易写好规则了对方网站关闭不做了,还有目标站打开的速度内容质量。我们

第一步:我们首先要找一个采集用的目标站,找目标站是有要求的,目标站最好是一个稳定成熟的网站

不然你好不容易写好规则了对方网站关闭不做了,还有目标站打开的速度内容质量。

我们还要注意帝国后台自带的采集功能有限,有些网站做了防采集的设置等等是会影响正常采集的,还有一些网站内容模版有几十种,这些就无法统一去采集了,这样的站不要去选择。

第二步:后台点击栏目-采集管理-增加采集节点。

1.jpg

选择栏目

1.jpg

第三步:采集节点的基本信息设置

这里先写节点的名字和采集目标站栏目页面的地址。

1474364656619227.jpg

注意采集目标栏目分页比较多的情况下可以使用方式二

这个设置就是将栏目分页数字部分替换成[page],然后在页码的地方填写页数,这样就可以读出要采集栏目的所有信息页

这里提醒下如果页面一次读取太多会卡的。

1474364984131522.jpg

接着往下要填写的是内容页和附件的前缀地址,这个如果目标站的内容页是相对地址需要在这里添加前面地址

附件也是一样的道理。入库栏目就是说这个节点采集的信息发布到那个栏目去。

1474365372438709.jpg

第四步:填写选项部分

选项上半部分需要注意的只有远程保存这个个选择,其他默认就好。当需要图片下载到本地的时候勾选就行,但是注意入库的时候一次少选择几个在入库,不然整个后台都会卡住无法任何操作,甚至需要重启服务器才能正常。如果服务器性能不好的话还是不勾选盗链附件的好。

1.jpg

附加选项里要注意的是编码,一般默认正常编码,如果出现了采集乱码的现象,看下目标站的编码是什么,

比如:目标站是UTF8我们自己的是GBK的我们就选择UTF8->GB2312。

然后是过滤,如果采集的内容页内容里有广告或者div等可以在这里选择过滤

有些东西不能过滤的可以选择在下面使用整体替换。这些是整体写完才用的上的,也是针对真个页面的。

1.jpg

下面的过滤选项是针对内容部分的,使用方式和上面的一样,还有一个内容为空不采集的选择,建议勾选。

1474366807682139.jpg

第五步:采集内容正则

这里其实很简单就是选取目标站编码里要采集的部分,选取前后的两段代码中间使用帝国指定的标签就行

1.jpg

列表页

比如view-source:http://www.ituba.cc/stars/p3.html这个页面的编码里我们要采集的内容信息片段前面

只有<h1 class="arrowDown">美女明星</h1>这段是整个编码里唯一的我们就将他放到[!--smallurl--]标签前面

找到这些信息后面的一个唯一的代码<div class="pages">我们就放到[!--smallurl--]标签后面

信息页链接正则:

看下目标站内页的地址前后我们可以这样填写:<li class="Pic"><a href="[!--newsurl--]"

就是前面<li class="Pic"><a href=" 后面" 就可以了,这个地址是绝对地址我们前面的内页地址前缀也不需要填写。

2.jpg

标题图片正则:

这个栏目上可以采集标题图片我们就需要截取填写和内容地址道理一样,比如这里我们可以写<img src="[!--titlepic--]"

1.jpg

还有如果标题图片不在栏目也采集请留空这里,需要下载到本地要勾选

1.jpg

标题正则:在内容页编码中找到要采集的标题,一样的道理我们选择这个标题前后到代码,注意代码必须是唯一的。

2.jpg

找到后我们就可以这样的填写

1.jpg

下面的副标题一般不需要,如果你有一样的填写道理

发布时间不用管会默认系统时间,标题图片如果前面设置在栏目里采集了这里就不用填写了

如果需要这里采集可以上面的设置一样的。

还有一些可以填写绝对值的,比如我们设置作者

我们可以想其他的一样在采集页面里截取代码采集,也可以在下面的小框里直接填写一个名字,这样发布的时候作者就是你这个直接添加的名字。

1.jpg

下面是重点就是正文内容的采集了

1.jpg

我们先看下要采集的内容部分代码

1474368534540866.jpg

这段代码里前面能截取的唯一代码是<div class="ArticlePicBox AId9" id="ArticlePicBox1"> <p align="center">

结尾可以选择</div>,这样我们就将截取的前后代码填写到[!--newstext--]的前后就行了。

我这个是采集图片站,如果是文章站也一样的道理。

现在有个问题要处理,就是截取中间的部分有些多余的代码需要处理,比如<a href='42554_2.html' tt=''>这个

现在我们就要回头去看前面的过滤了

这个是<a>标签,我们这样填写就行不要带上后面的</a>不然中间的图片也被过滤了

1.jpg

那么后面的</a>也不是我们要的,那我们就在整体页面替换这样写就可以了

注意过滤选项里的替换是针对关键字之类的。我们这个代码替换使用上面的就行了。

1.jpg

写到这里如果目标站没有内容分页就已经结束了,后面的部分是分页的设置。道理和前面的一样。

1474369451746300.jpg

这里可以选择保留不保留目标站的分页,还有分页的形式。

分页显示为上一页和下一页的就是上下页导航式,如果全部分页都能在代码里看到那就是全部列出是。

我今天举例将的是上下页导航式这种比较常见。


1474369657210855.jpg

这段代码里我们能看到几个上面列出了几个分页地址,但是都不重要,我们要的是下一页前面的这个地址,

所以我们截取到他前面的唯一性代码<li id="nl">后面就只能是</li>安装规则我们就在上下页导航正则的分页区域填写<li id="nl">[!--smallpagezz--]</li>。然后链接的规则<a href='[!--pagezz--]'

现在我们就正式的写完代码了。


第六步:预览

写完了所有规则我们就要预览下看看效果,预览在管理节点的地方。

1.jpg

预览首先会显示目标站的栏目地址

1474370165102290.jpg

接着点地址后面的预览,这样就可以看到内容页地址了,之前我们设置了在栏目页采集标题图片,所以还看到了图片地址。

1474370227117119.jpg

接着点预览就可以看到内容页的情况了

1474370461386425.jpg

在预览的过程中有任何问题都要回头去修改规则,找出错误的原因。

第七步:采集

如果预览没有问题就可以采集了,直接点开始采集。

1.jpg

帝国cms后台采集的使用不会的可以看我写的说明:http://www.ps288.com/wangluojishu/1249.html