sitemap文件较大如何压缩成sitemap.xml.gz

作者:Davidszhou   来源:Davidszhou博客   时间:2015-04-02 21:35:10   点击:

    sitemap文件如果较大超过了官网给出的限制:
    一个Sitemap文件包含的网址不得超过 5 万个,且文件大小不得超过 10 MB。如果您的Sitemap超过了这些限值,请将其拆分为几个小的Sitemap。这些限制条件有助于确保您的网络服务器不会因提供大文件而超载。
    还有一点就是可以压缩sitemap,提高对sitemap的抓取速度,那么问题来了,如何压缩XML格式的sitemap呢?
    使用GZIP压缩,大部分的压缩软件都有这个压缩方法,我使用的是7-zip,选号sitemap文件,右键添加到压缩包,设置如下图:

sitemap文件较大如何压缩成sitemap.xml.gz
    压缩之后的大小对比:
sitemap文件较大如何压缩成sitemap.xml.gz
    中间的压缩文件是爱站工具自动生成的,下面的sitemap.xml.xml.gz是我使用7-zip压缩软件的GZIP压缩中“极限压缩”方式压缩之后结果,效果是不是挺明显的?
    其实我自己是使用的爱站工具自动生成的压缩格式,爬完整站之后会生成一个索引文件和一个sitemap压缩文件,把这两个文件传到根目录就可以了,在首页做上sitemap的链接以及robots里面添加:Sitemap:网站地图链接。
    sitemap索引格式官方版:
    3.第三种格式样例:Sitemap索引格式
    如需提交大量sitemap文件,则可将其列在sitemap索引文件中,然后将该索引文件提交。您无需分别提交每个文件。
    <?xml version="1.0" encoding="utf-8"?>
    <!-- XML文件需以utf-8编码-->
    <sitemapindex>
    <!--必填,以 <sitemapindex> 开始标记作为开始,以 </sitemapindex> 结束标记作为结束-->
    <sitemap>
    <!--必填,以<sitemap>标签提交一个子sitemap文件-->
    <loc>http://example.com/ext/xmlsitemap/add/201201/index_20120106.xml</loc>
    <!--必填,识别sitemap的位置-->
    <lastmod>2009-12-14</lastmod>
    <!--选填,识别相对sitemap文件的修改时间-->
    </sitemap>
    <!--必填,标签闭合-->
    </sitemapindex>
    <!--必填,标签闭合-->
    有多个Sitemap,按上述格式重复<sitemap></sitemap>之间的片断,列明所有Sitemap地址,向站长平台进行提交。

TAGS:sitemap , 压缩

来自Davids zhou博客原创文章请尊重作者:http://www.zongk.com/zongk/32.html转载请标注此链接

网站统计
文章总数:129
今天发布:0
软件资源数:18