添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/xiaoyaozizai017/article/details/78783460

1.首先安装jpype

首先各种坑,jdk和python 版本位数必须一致, 我用的是JPype1-py3 版本号0.5.5.2 、1.6jdk和Python3.5,win7 64位下亲测没问题。
否则死翘翘, 有可能虚拟机都无法启动:
# -*- coding:utf-8 -*-
import jpype
from jpype import *
jvmPath = jpype.getDefaultJVMPath()
print(jvmPath)
jpype.startJVM(jvmPath)
jpype.java.lang.System.out.println("hello world!")
java.lang.System.out.println("hello world")
jpype.shutdownJVM()
出错调试,原因已说;测试成功会有输出。
下面启动虚拟机跑hanlp

2.下载各种安装包

使用自定义的 HanLP —— HanLP 由3部分组成:类库hanlp.jar包、模型data包、配置文件hanlp.properties, 请前往项目主页下载最新版: https://github.com/hankcs/HanLP/releases 对于非portable版, 下载后,你需要编辑配置文件第一行的root指向data的父目录, 详见文档

# -*- coding:utf-8 -*-
import os
from jpype import *
#老版本
startJVM(getDefaultJVMPath(), "-Djava.class.path=D:\hanLP\hanlp-1.3.2.jar;"
                              "D:\hanLP", "-Xms1g","-Xmx1g")  # 启动JVM,Linux需替换分号;为冒号:
#新版本,出现警告。垃圾的1.5会出现警告,而且数据也出问题。
# startJVM(getDefaultJVMPath(), "-Djava.class.path=D:\hanLP\hanlp-1.5.2.jar;"
#                               "D:\hanLP", "-Xms1g","-Xmx1g")  # 启动JVM,Linux需替换分号;为冒号:


HanLP = JClass('com.hankcs.hanlp.HanLP')
#中文分词
print(HanLP.segment("你好,欢迎在Python中调用HanLP的API").toString())
testCases = [
    "商品和服务",
    "结婚的和尚未结婚的确实在干扰分词啊",
    "买水果然后来世博园最后去世博会",
    "中国的首都是北京",
    "欢迎新老师生前来就餐",
    "工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作",
    "随着页游兴起到现在的页游繁盛,依赖于存档进行逻辑判断的设计减少了,但这块也不能完全忽略掉。"]
for sentence in testCases: print(HanLP.segment(sentence))
# 命名实体识别与词性标注
NLPTokenizer = JClass('com.hankcs.hanlp.tokenizer.NLPTokenizer')
print(NLPTokenizer.segment('中国科学院计算技术研究所的宗成庆教授正在教授自然语言处理课程'))
# 关键词提取
document = "水利部水资源司司长陈明忠9月29日在国务院新闻办举行的新闻发布会上透露," \
           "根据刚刚完成了水资源管理制度的考核,有部分省接近了红线的指标," \
           "有部分省超过红线的指标。对一些超过红线的地方,陈明忠表示,对一些取用水项目进行区域的限批," \
           "严格地进行水资源论证和取水许可的批准。"
print(HanLP.extractKeyword(document, 2))
# 自动摘要
print(HanLP.extractSummary(document, 3))
# 依存句法分析
print(HanLP.parseDependency("徐先生还具体帮助他确定了把画雄鹰、松鼠和麻雀作为主攻目标。"))
shutdownJVM()

测试成功:
[你好/vl, ,/w, 欢迎/v, 在/p, Python/nx, 中/f, 调用/v, HanLP/nx, 的/ude1, API/nx]
[商品/n, 和/cc, 服务/vn]
[结婚/vi, 的/ude1, 和/cc, 尚未/d, 结婚/vi, 的/ude1, 确实/ad, 在/p, 干扰/vn, 分词/n, 啊/y]
[买/v, 水果/n, 然后/c, 来/vf, 世博园/n, 最后/f, 去/vf, 世博会/n]
[中国/ns, 的/ude1, 首都/n, 是/vshi, 北京/ns]
[欢迎/v, 新/a, 老/a, 师生/n, 前来/vi, 就餐/vi]
[工信处/n, 女干事/n, 每月/r, 经过/p, 下属/v, 科室/n, 都/d, 要/v, 亲口/d, 交代/v, 24/m, 口/n, 交换机/n, 等/udeng, 技术性/n, 器件/n, 的/ude1, 安装/v, 工作/vn]
[随着/p, 页游/nz, 兴起/v, 到/v, 现在/t, 的/ude1, 页游/nz, 繁盛/a, ,/w, 依赖于/v, 存档/vi, 进行/vn, 逻辑/n, 判断/v, 的/ude1, 设计/vn, 减少/v, 了/ule, ,/w, 但/c, 这/rzv, 块/q, 也/d, 不能/v, 完全/ad, 忽略/v, 掉/v, 。/w]
[中国科学院计算技术研究所/nt, 的/ude1, 宗成庆/nr, 教授/nnt, 正在/d, 教授/v, 自然语言处理/nz, 课程/n]
[水资源, 陈明忠]
[严格地进行水资源论证和取水许可的批准, 水利部水资源司司长陈明忠9月29日在国务院新闻办举行的新闻发布会上透露, 有部分省超过红线的指标]
1	徐先生	徐先生	nh	nr	_	4	主谓关系	_	_
2	还	还	d	d	_	4	状中结构	_	_
3	具体	具体	a	a	_	4	状中结构	_	_
4	帮助	帮助	v	v	_	0	核心关系	_	_
5	他	他	r	rr	_	4	兼语	_	_
6	确定	确定	v	v	_	4	动宾关系	_	_
7	了	了	u	ule	_	6	右附加关系	_	_
8	把	把	p	pba	_	15	状中结构	_	_
9	画	画	v	v	_	8	介宾关系	_	_
10	雄鹰	雄鹰	n	n	_	9	动宾关系	_	_
11	、	、	wp	w	_	12	标点符号	_	_
12	松鼠	松鼠	n	n	_	10	并列关系	_	_
13	和	和	c	cc	_	14	左附加关系	_	_
14	麻雀	麻雀	n	n	_	10	并列关系	_	_
15	作为	作为	p	p	_	6	动宾关系	_	_
16	主攻	主攻	v	vn	_	17	定中关系	_	_
17	目标	目标	n	n	_	15	动宾关系	_	_
18	。	。	wp	w	_	4	标点符号	_	_
JVM activity report     :
	classes loaded       : 32
JVM has been shutdown
这里有可能JClass("
com.hankcs.hanlp.HanLP")时,报错出现找不到类的问题,仔细查看配置文件和jar路径是否对;如果还出错,
查看data里面的文件是否全。

参考网址:
转载请注明出处:https://blog.csdn.net/HHTNAN HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanL... 来自: IT届的小学生 想要在python中调用hanlp进行中文实体识别,Ubuntu 16.04的系统环境1. 安装jpype1,在cmd窗口输入pip install jpype12. 下载hanlp的安装包在http... 来自: xxzhix的博客 1 python与jdk版本位数一致 2 pip install jpype1(python3.5) 3 类库hanlp.jar包、模型data包、配置文件hanlp.properties放在一个... 来自: 6丁儿的猫 pyhanlp是python版封装的的HanLP,项目地址:https://github.com/hankcs/pyhanlp经过测试,HanLP比nltk在中文分词和实体识别方面都更好用。如何向py... 来自: 明月三千里的专栏 转载声明:本文转自:http://www.cnblogs.com/iihcy/p/5106305.html 最近公司在做根据一句话中的人名进行人员姓名的捡取,在此感谢大神的关于HanLP自然语言包的... 来自: 思路的顿悟 转自:http://www.jianshu.com/p/55755fc649b1 理解条件随机场最好的办法就是用一个现实的例子来说明它。但是目前中文的条件随机场文章鲜有这样干的,可能写文章的人都是大... 来自: Don't worry,be happy python实现的基于hmm模型的词性标注系统任务定义实现一个词性标注系统,输入分好词的单词序列,输出一个词性标注后的结果序使用的语料库为人民日报98年公开语料库,一共约18000行语料。在用户交互模... 来自: say_c_box的博客 一, 安装JDKyumlist java-1.8*   yum install java-1.8.0-openjdk.x86_64 -y二, 安装mysql5.71.配置YUM源# 下载mysql源安... 来自: mokingone的专栏 -------------------------------------------------------效果图 -----------------------------------------... 来自: 神创的博客 hanlp拥有:中文分词、命名实体识别、摘要关键字、依存句法分析、简繁拼音转换、智能推荐。 这里主要介绍一下hanlp的中文分词、命名实体识别、依存句法分析,这里就不介绍具体的hanlp的安装了,百... 来自: adnb34g的博客 HanLP几乎实现了所有我们需要的繁简转换方式,并且已经封装到了HanLP中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做过多描述。 HanL... 来自: FontTian的专栏 Python调用自然语言处理包HanLP3.png一句话安装pyhanlp,全自动下载安装配置,还支持升级。 pip install pyhanlp 调用方法参考项目主页:https://github... 来自: lanlantian123456的博客 该部分的内容之所以在一起是因其底层原理相同。文本推荐,语义距离,同义改写等都是基于word2vec的。因为作者HanLP源代码和博客都没有写该部分的原理。所以笔者大概查看了源码,发现功能实现... 来自: FontTian的专栏 由于要使用hanlp进行分词,而我们的环境是python环境所以得安装pyhanlp,但是安装过程总是出现这样的问题看上去感觉是缺少了visual c++环境,于是安装visual c++,可查看这个... 来自: wenwen360360的博客 boss给了个做分词的任务,最开始想用的是结巴分词and正则表达式。后来发现结果并不好,需要一遍一遍筛选【第一个标准筛选出80%的数据,然后制定第二个标准,继续筛选,然后制定第三个标准筛选,等等等等】... 来自: tianbwin2995的专栏 实现地理位置名词的分词 val spark = SparkSession .builder() .appName("Word2Vec").master("local[*]... 来自: UnionIBM的博客 标签:自定义 mpat 高效 path nlp sys 文件 pri from Hanlp HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然 语言处理... 来自: lanlantian123456的博客 事情是这样的,最近实验室在搞一个Java Web的项目,用的Spring MVC的框架。项目组有很多没做过Spring的学弟学妹,为了提高效率,我让大家自己先抛开Spring来写自己负责的模块,我来把... 来自: 咖啡成瘾患者 本来想通过python调用Java实现Hanlp的使用,参考文章:http://t.cn/RUrIF7z ##########python可以用easy_install安装一些软件#########... 来自: zhangqiang1104的博客 前言  以前,我对大部分的处理中文分词都是使用python的结巴分词工具,该分词工具是在线调用API, 关于这个的分词工具的原理介绍,我推荐一个好的博客: http://blog.csdn.net/... 来自: qq_30843221的博客 使用pyhanlp创建词云 去年我曾经写过一篇文章Python + wordcloud + jieba 十分钟学会用任意中文文本生成词云(你可能觉得这和wordcloud中官方文档中的中文词云的例子代... 来自: FontTian的专栏 文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。对于文本来说,由于语言组织形式各异,表达方式多样,文本里面提到的很多要素,如人名、手机号、... 来自: XiaoXiao_Yang77的博客 HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP内... 来自: 小飞侠的博客 pyhanlp中的命名实体识别 对于分词而言,命名实体识别是一项非常重要的功能,当然发现新词同样重要(这部分内容被我放在之后的“关键词、短语提取与自动摘要、新词识别”与再之后的案例中了。 首先是一个简... 来自: FontTian的专栏 HanLP是由一系列模型与算法组成的Java工具包,目标是促进自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。         HanLP能提供... 来自: u011777164的专栏 pyhanlp 安装失败后,网上看的这篇《关于安装pyhanlp失败》得到了解决,在此记录下。 pyhanlp github地址:https://github.com/hankcs/pyhanlp。... 来自: cqulun123的博客 TextRank是在Google的PageRank算法启发下,针对文本里的句子设计的权重算法,目标是自动摘要。它利用投票的原理,让每一个单词给它的邻居(术语称窗口)投赞成票,票的权重取决于自己的票... 来自: zhaojianting的博客 最近在研究中文分词及自然语言相关的内容,关注到JAVA环境下的HanLP,HanLP是一个致力于向生产环境普及NLP技术的开源Java工具包,支持中文分词(N-最短路分词、CRF分词、索引分词、用户自... 来自: adnb34g的博客 HanLP中的词语提取是基于互信息与信息熵。想要计算互信息与信息熵有限要做的是 文本分词进行共性分析。在作者的原文中,有几个问题,为了便于说明,这里首先给出短语提取的原理。在文末在给出pyhan... 来自: FontTian的专栏 hanlp的词典模式 之前我们看了hanlp的词性标注,现在我们就要使用自定义词典与停用词功能了,首先关于HanLP的词性标注方式具体请看HanLP词性标注集。 其核心词典形式如下: 自定义词典 来自: FontTian的专栏 简述关于gif的使用在实际项目中我用的并不多,因为我感觉瑕疵挺多的,很多时候锯齿比较严重,当然与图存在很大的关系。关于生成gif的方法可以提供一个网站preloaders,基本是可以满足需求的。简述 来自: 青春不老,奋斗不止! JpGraph简介       JpGraph是开源的PHP统计图表生成库,基于PHP的GD2图形库构建,把生成统计图的相关操作封装,隐藏了部分复杂的操作,使在PHP页面上输出统计图表变得更加容... 来自: 郎涯工作室 tensorflow在ubuntu系统上按照官方文档安装起来相对容易,在centos上由于没有apt-get( yum)相对困难一些,本文会提到一些安装过程中遇到的一些坑及解放方案。... 来自: zhangweijiqn的专栏 最近在做一个每天定点从FTP自动下载节目.xml并更新到数据库的功能。首先想到用 FileSystemWatcher来监控下载到某个目录中的文件是否发生改变,如果改变就执行相应的操作,然后用timer... 来自: kongwei521的专栏 Java中的ThreadLocal类允许我们创建只能被同一个线程读写的变量。因此,如果一段代码含有一个ThreadLocal变量的引用,即使两个线程同时执行这段代码,它们也无法访问到对方的Thread... 来自: u011860731的专栏 修改my.ini文件加上default-character-set=gb2312设定数据库字符集alter database da_name default character set charset... 来自: 血色残阳的专栏 idea来源于自己的想法,之前在github看过大神贾杨清的推导slider,caffe中如果计算卷积,加上自己最近有个很小的疑惑,输入的image一般是RGB三通道的彩色图片,但是我们在定义卷积层时... 来自: Camaro的专栏 问题场景描述整个项目通过Maven构建,大致结构如下: 核心Spring框架一个module spring-boot-base service和dao一个module server-core 提供系统... 来自: 开发随笔 上一篇博客我们介绍了用数组的方式来实现图书管理系统,但是用数组实现的方式有两个主要的缺点就是:1. 查找和删除比较麻烦;2. SIZE得固定,SIZE小了的话装不下那么多书,SIZE大了的话就比较浪费... 来自: AlexTan_的博客