帝国CMS采集教程

作者:Davidszhou   来源:Davidszhou博客   时间:2014-06-21 15:36:44   点击:

        想要了解采集规则如何写,我们应该先了解一下经常见的HTML以及DIV的写法,这样在写帝国CMS采集规则的时候看开始与结束标签的时候才能更加明白,更加好选取,这里制作最简单的说明一下,详细的可以看其他HTML教程

        最简单的超链接<a href="#' target="_blank" 其他属性>****</a>,这个算是一个最简单的超链接,其他属性还可以有title=“*****”,这个在采集分页的时候,可能用处比较大一点,后面再讲。

       下一个<div 选择符> **</div>, div里面可以放其他的内容也可以在套用一个div,<div> <div></div></div>,<div>开始标签</div>结束标签,<ul><li></li></ul> 无序列表,

<dl>

<dt></dt>

<dd></dd>

</dl>同样是列表标签。见的最多的也就这几个,以后再见到其他标签再添加。

       我们来分析页面,这里我建议用浏览器自带的开发者工具快捷键F12,调用

帝国CMS采集规则

(点击可以看大图)

开发者工具鼠标移到内容这里可以看到内容页面的代码,也可以直接查看源代码找到相应的位置,这里只做分析作用(然后在源码里面查找检查复制代码),从上面看代码的话可以分析到,内容是放在再“class="t-t-t"”这个DIV里面,从前面这个DIV的收缩箭头也可以看出来,这样我们就找到这段内容的开始标签是(这里我们最好在源码里面搜索一下这段标签防止同页面内有重复):<div class="t-t-t"> 我们在看结束标签,我们最好不要直接写DIV的结束标签</div> 因为可能在这段内容里面也有层DIV的存在,那帝国在采集结束标签的时候,会在开始标签往下第一个结束标签也就是离它最近的结束标签结束(就是下面有两个或者三个相同的标签),造成内容采集不完整。

   内容采集这里差不多,下面采集标题,也是一样用开发者工具先分析:

帝国CMS采集规则

这里可以看到标题的代码,当然你也可以在源码直接使用<title>***</title> 标签,但是一般里面都有采集站的链接或者名称,这里注意要替换。

下面就是内容分页了,用开发者工具直接找到分页位置看源码:

<div id="page" class="page-a">

<a title="Page">&nbsp;<b>1</b>/<b>7</b> </a>

&nbsp;&nbsp;&nbsp;<b>1</b>&nbsp;

<a href="链接">2</a>&nbsp;

<a href="链接">3</a>&nbsp;

<a href="链接">4</a>&nbsp;

<a href="链接">5</a>&nbsp;

<a href="链接">6</a>&nbsp;

<a href="">下一页</a>&nbsp;

<a href="链接">尾页</a>

</div>

看采集规则里面的:分页区域正则([!--smallpageallzz--]) 这个标签和 分页链接正则([!--pageallzz--])

这个是帝国CMS的分页 ,所以分页区域正则就直接的<div id="page" class="page-a">[!--smallpageallzz--]</div> 也可以,分页链接正则<a href="[!--pageallzz--]"> 可以。

如果发现有的分类链接在翻到最后一页的时候后面又自动跳到第一页或者第二页的时候在分页区域正则的结束标签就不能直接写</div>了,上面我们说的超链接标签<a href="#' target="_blank" 其他属性>****</a>这个,他没有完整的结束标签这个标签等于没有用或者超链接串掉“一大片”的超链接。只要我们在分页区域正则结束标签前面把“</a>”又或者“>”添加进去大部分情况下页是使重复采集的那个分页失效。

      帝国CMS采集规则里面有几个是一定要写规则的:

节点名称、

采集页面地址(批量的时候自动生成,直接采集内容页的时候把内容页链接复制进去一行一个,前面直接采集内容页打钩)、

采集页面地址方式、内容页地址前缀和图片/FLASH地址前缀(内容)这两个你要具体对待,因为有的内页链接和图片链接地址与你采集链接不同,这里你是必须要写的。

页面编码转换:根据具体情况具体选择

是否重复采集同一链接:建议不要重复有可能好多相同内容

采集后自动入库:采集图片较多内容条数较多的时候 估计有卡死状态

替换和过滤广告正则:一般替换的话我会把他们链接如果后面都是.com会把中间替换成自己,或者替换一些关键词,过滤广告的话我是除了图片其他都点,看你是否需要里面标签吧,<table><tr><td></td></tr>></table>内容里面有表格的话 留着这几个标签最好不过滤,采集规则写好之后,预览一下内容页,内容页看源码,在具体过滤其他垃圾没有的标签。[!--ad--]:<span[!--ad--]>,<SPAN[!--ad--]>,

信息链接区域正则:必填(下篇文章采集列表页,企业列表页的采集 和内容页采集都差不多都是找结束开始标签)

信息页链接正则:必填(下篇文章采集列表页,企业列表页的采集 和内容页采集都差不多都是找结束开始标签)

标题正则:必填(下篇文章采集列表页,企业列表页的采集 和内容页采集都差不多都是找结束开始标签)

新闻正文正则:必填

作者来源地址标题图片和文章简介等有些都是可以自动生成的,当然你也可以采集

TAGS:帝国CMS , 采集规则

来自Davids zhou博客原创文章请尊重作者:http://www.zongk.com/zongk/7.html转载请标注此链接

网站统计
文章总数:129
今天发布:0
软件资源数:18