脚本描述:
采集站点手机号以及邮箱
脚本运行方式:
给一个首页链接作为入口,抓取当前页面所有链接存入数据库,同时查找当前页面手机号与邮箱记录数据库
脚本语言:
Python库:
beautifulsoup、time,urllib.request,http.cookiejar,bs4,os,pymysql,sys,re,threading
数据方式:
MYSQL
更新升级:
2018-01-11:添加代理IP接口,减小防止IP被屏蔽
2018-1-15:
①、添加页面QQ号采集入库
②、增加常用匹配邮箱库:
腾讯:
qq.com
vip.qq.com
foxmail.com
网易:
163.com
126.com
yeah.net
vip.163.com
新浪:
sina.com
sina.cn
2008.sina.com
51uc.com
vip.sina.com
阿里云:
aliyun.com
搜狐:
sohu.com
vip.sohu.com
微软:
outlook.com
hotmail.com
TOM:
tom.com
139(http://mail.10086.cn/):
139.com
189(http://webmail30.189.cn/):
189.cn
21cn:
21cn.com
vip.21cn.com
21cn.net
vip.21cn.net
fun.21cn.com
沃邮箱:
wo.cn
③、增加更新手机号段匹配:
133,
153,
173,
177,
180,
181,
189,
134,
135,
136,
137,
138,
139,
150,
151,
152,
157,
158,
159,
178,
182,
183,
184,
187,
188,
130,
131,
132,
155,
156,
175,
176,
185,
186,
145,
147,
149,
170,
171
数据截图:
来自Davids zhou博客原创文章请尊重作者:http://www.zongk.com/zongk/120.html转载请标注此链接
Davids zhou | 站点地图 | | | 皖ICP备14017762号 如有侵犯您权利点击上面QQ -Powered By 帝国CMS -davids.zhou#qq.com(#换@)
Davidszhou个人博客主要记录在网站建设、SEO优化、python开发、PHP开发中遇到问题记录保存,作为他人参考学习教程