Python爬虫脚本采集邮箱|手机号

作者:Davidszhou   来源:原创插件   时间:2018-01-09 14:20:37   点击:

脚本描述:

采集站点手机号以及邮箱

脚本运行方式:

给一个首页链接作为入口,抓取当前页面所有链接存入数据库,同时查找当前页面手机号与邮箱记录数据库

脚本语言:

python

Python库:

beautifulsoup、time,urllib.request,http.cookiejar,bs4,os,pymysql,sys,re,threading

数据方式:

MYSQL

更新升级:

2018-01-11:添加代理IP接口,减小防止IP被屏蔽

2018-1-15:

①、添加页面QQ号采集入库

②、增加常用匹配邮箱库:

腾讯:
qq.com
vip.qq.com
foxmail.com
网易:
163.com
126.com
yeah.net
vip.163.com
新浪:
sina.com
sina.cn
2008.sina.com
51uc.com
vip.sina.com
阿里云:
aliyun.com
搜狐:
sohu.com
vip.sohu.com
微软:
outlook.com
hotmail.com
TOM:
tom.com
139(http://mail.10086.cn/):
139.com
189(http://webmail30.189.cn/):
189.cn
21cn:
21cn.com
vip.21cn.com
21cn.net
vip.21cn.net
fun.21cn.com
沃邮箱:
wo.cn

③、增加更新手机号段匹配:

133,
153,
173,
177,
180,
181,
189,
134,
135,
136,
137,
138,
139,
150,
151,
152,
157,
158,
159,
178,
182,
183,
184,
187,
188,
130,
131,
132,
155,
156,
175,
176,
185,
186,
145,
147,
149,
170,
171

数据截图:

Python爬虫脚本采集邮箱|手机号

Python爬虫脚本采集邮箱|手机号

Python爬虫脚本采集邮箱|手机号

Python爬虫脚本采集邮箱|手机号

TAGS:Python , 爬虫

来自Davids zhou博客原创文章请尊重作者:http://www.zongk.com/zongk/120.html转载请标注此链接

你可能需要
七日热点
热力推荐
网站统计
文章总数:126
今天发布:1
软件资源数:17