最近在采集一批信息,发现火车浏览器的自带分词插件,分词效果不是很理想,在网上找了一个API分词接口:pullword
其实对于火车浏览器脚本插件用PHP和python都可以写,之前做了一个PHP分词插件见:http://www.zongk.com/zongkdown/66.html
最近一直在学习Python就用Python做了一个分词插件
下面直接附上代码和源文件:
#coding:utf-8
import sys,importlib,urllib.request
from urllib import parse
import json
if len(sys.argv)!= 2:
print(len(sys.argv))
print("命令行参数长度不为1")
sys.exit()
else:
SerializerStr = parse.unquote(sys.argv[1])
if (SerializerStr[0:2] != '''{"'''):
file_object = open(SerializerStr)
try:
SerializerStr = file_object.read()
SerializerStr = parse.unquote(SerializerStr)
finally:
file_object.close()
PluginArray = json.loads(SerializerStr)
PluginTag=PluginArray['_Args']
#以下是用户编写代码区域
#print(str(PluginArray))
myurl = "http://api.pullword.com/get.php"
myword = PluginArray['keyword']
source = urllib.request.quote(myword.encode('utf-8'))
param1 = '0.5'
param2 = '0'
mygeturl = myurl+"?source="+source+"¶m1="+param1+"¶m2="+param2
a = urllib.request.urlopen(mygeturl)
res = a.read().decode('utf-8')
res1 = res.replace("\r\n","|").replace("||","")
PluginArray['keyword'] = res1
#print(str(res))
#以上是用户编写代码区域
PluginArray = json.dumps(PluginArray)
print(PluginArray)
分词插件截图如下:
火车浏览器插件PYthon分词插件源文件下载:
链接: http://pan.baidu.com/s/1mhVfkQc 密码: bp82
本地下载:
TAGS:python , 中文分词 , 火车浏览器 , 脚本插件
来自Davids zhou博客原创文章请尊重作者:http://www.zongk.com/zongkdown/70.html转载请标注此链接
Davids zhou | 站点地图 | | | 皖ICP备14017762号 如有侵犯您权利点击上面QQ -Powered By 帝国CMS -davids.zhou#qq.com(#换@)
Davidszhou个人博客主要记录在网站建设、SEO优化、python开发、PHP开发中遇到问题记录保存,作为他人参考学习教程