帝国CMS列表页采集,上篇文章讲了内容页面的采集,在列表页的采集也都差不多,采用采集软件大致相同的唯一值,前后标签采集。
今天我们以采集搜外的原创文章页做一个简单的示范,学习举一反三,反复实践,找出问题所在最后才能为我所用。
在采集列表页各个分页的时候,先找他的URL规则,可以先点击下一页,然后如图:*****/bbs/forum-322-23.html.23代表该列表有23个分页,我们在火车头可以批量添加分页规则:分页使用(*)这个替换,表示链接分页会按照下面规则自动替换匹配。
列表页同样借用谷歌的开发者工具实时查看局部位置的代码以及该区域内上下代码机构:
从这张图片以及上下代码结构可以看出,该列表是一个table(<table summary="forum_322" cellspacing="0" cellpadding="0" id="threadlisttableid">)表格开头部位已经列出。
看尾部,如果一个页面里面只有这个一个表格也就是说 只有</table>好办可以结束用这个也行 ,但是有两个以上就最好不要使用了,我觉得最好还是使用下面分页开头代码:<div id="pgt" class="bm bw0 pgs cl">
那这样我们在多级网址采集规则就写的差不多了, 最后填写“地址样式”最好写最通用的:<a href="(*)">,(*)这个也是自动匹配链接,还有您也可以设置链接“必须包含”什么或者是链接“不得包含”什么。
接着我们可以测试一下采集链接结果:
内容页采集的话(第二部:采集内容规则):
title部分(可以双击标题标签):可以直接使用<title>开始于</title>结尾式采集标题,但是注册 文本内容替换:
内容采集规则:
看代码,由于DZ程序论坛形式,内容主要是各个论坛成员发布信息,我只想采集第一条,楼主和下面回帖的代码总归还是有点不一样的,开发助手工具查看楼主的正文开始标签:<td class="t_f" id="postmessage_23712613"> 后面23712613 随机的,我们使用“正则提取”规则下面截图:
最终结果结果:
来自Davids zhou博客原创文章请尊重作者:http://www.zongk.com/zongk/8.html转载请标注此链接
Davids zhou | 站点地图 | | | 皖ICP备14017762号 如有侵犯您权利点击上面QQ -Powered By 帝国CMS -davids.zhou#qq.com(#换@)
Davidszhou个人博客主要记录在网站建设、SEO优化、python开发、PHP开发中遇到问题记录保存,作为他人参考学习教程