中文分词器

下载地址

所在位置:首页 > 软件下载 > 应用软件 > 其他应用 >

中文分词器下载

中文分词器(轻量级Java分词工具) V1.6.4 免费版

中文分词器(轻量级Java分词工具) V1.6.4 免费版

  • 软件大小:4.9M
  • 栏目名称:其他应用
  • 运行环境:win7,win8,win10
  • 软件语言:简体中文
  • 软件类型:
  • 软件授权:免费软件
  • 更新时间:2023-04-24 13:39:16
  • 下载次数:

软件简介

中文分词器是一款使用C语言开发的中文分词器,中文分词器免费版能够帮助用户轻松提取关键词、关键短语,支持繁体中文分词、简体中文分词、英文分词,喜欢的朋友就在牛下载软件园下载使用吧!

软件介绍

中文分词器是一款使用C语言开发的中文分词器,提供了一个基于Jetty的web服务器,支持自定义词库。中文分词器免费版功能强大,是制作通用搜索引擎和垂直搜索引擎的核心组件。能够帮助用户轻松提取关键词、关键短语,支持中英/英中混合词的识别,支持繁体中文分词、简体中文分词、英文分词,提供了词库两个简单的词库管理工具来进行简繁体的转换和词库的合并。喜欢的朋友就在牛下载软件园下载使用吧!

中文分词器(轻量级Java分词工具) V1.6.4 免费版

中文分词器功能介绍

多配置支持, 安全的应用于多进程/多线程环境。
自动英文圆角/半角,大写/小写转换。
很好的英文支持,英文标点组合词识别, 例如c++, c#, 电子邮件,网址,小数,百分数。
自定义保留标点:你可以自定义保留在切分结果中的标点,这样可以识别出一些复杂的组合。
简体/繁体/简体混合支持, 可以方便的针对简体,繁体或者简繁体切分。同时还可以以此实现简繁体的相互检索。
支持阿拉伯数字/小数基本单字单位的识别,例如2012年,1.75米,5吨,120斤,38.6℃。
复杂英文切分的二次切分:默认 Friso 会保留数字和字母的原组合,开启此功能,可以进行二次切分提高检索的命中率。例如:qq2013会被切分成:qq/ 2013/ qq2013。
同义词匹配:自动中文/英文同义词追加. (需要在 friso.ini 中开启 friso.add_syn 选项)。
自动中英文停止词过滤。(需要在 friso.ini 中开启 friso.clr_stw 选项)。
支持自定义词库。在 dict 文件夹下,可以随便添加/删除/更改词库和词库词条,并且对词库进行了分类。
支持中英/英中混合词的识别(维护词库可以识别任何一种组合)。例如:卡拉ok, 漂亮mm, c语言,IC卡,哆啦a梦。
同时支持对 UTF8/GBK 编码的切分,支持 php5 和 php7 扩展和 sphinx token 插件。

中文分词器下载

中文分词器软件亮点

关键字提取:基于textRank算法。
检测模式:只返回词库中已有的词条,很适合某些应用场合。(1.6.1版本开始)。
复杂模式 MMSEG 四种过滤算法,具有较高的岐义去除,分词准确率达到了98.41%。
关键句子提取:基于textRank算法。
最多模式:细粒度切分,专为检索而生,除了中文处理外(不具备中文的人名,数字识别等智能功能)其他与复杂模式一致(英文,组合词等)。
关键短语提取:基于textRank算法。
中文分词:mmseg算法 + Friso 独创的优化算法,四种切分模式。
简易模式:FMM 算法,适合速度要求场合。

中文分词器

中文分词器软件优势

自动中英文停止词过滤功能(需要在jcseg.properties中开启该选项,lexstopwords.lex为停止词词库)。
配对标点内容提取:例如:最好的Java书《java编程思想》,‘畅想杯黑客技术大赛’,被《,‘,“,『标点标记的内容。(1.6.8版开始支持)。
支持阿拉伯数字/小数/中文数字基本单字单位的识别,例如2012年,1.75米,38.6℃,五折,并且 Jcseg会将其转换为“5折”加入分词结果中。
特殊字母识别:例如:Ⅰ,Ⅱ;特殊数字识别:例如:①,⑩。
自动实体的识别,默认支持:电子邮件,网址,大陆手机号码,地名,人名,货币等;词库中可以自定义各种实体并且再切分中返回。
词库更新自动加载功能, 开启一个守护线程定时的检测词库的更新并且加载(注意需要有对应词库目录下的的lexautoload.todo文件的写入权限)。
自定义切分保留标点. 例如: 保留&, 就可以识别k&r这种复杂词条。
更好的拉丁支持,电子邮件,域名,小数,分数,百分数,字母和标点组合词(例如C++, c#)的识别。
智能中文人名/外文翻译人名识别。中文人名识别正确率达94%以上。(中文人名可以维护lexlname.lex,lexdname1.lex,lexdname2.lex来提高准确率),(引入规则和词性后会达到98%以上的识别正确率)。
智能圆角半角, 英文大小写转换。
支持英文的类中文切分,同样使用mmseg算法来消除歧义,例如:“openarkcompiler”会被切分成:“open ark compiler”,该功能也可以被关闭。
复杂英文切分结果的二次切分: 可以保留原组合,同时可以避免复杂切分带来的检索命中率下降的情况,例如QQ2013会被切分成: qq2013/ qq/ 2013, chenxin619315@gmail.com会被切分成: chenxin619315@gmail.com/ chenxin/ 619315/ gmail/ com。
自动词性标注(目前基于词库)。
支持中英混合词和英中混合词的识别(维护词库可以识别任何一种组合)。例如:B超, x射线, 卡拉ok, 奇都KTV, 哆啦a梦。

中文分词器

软件截图

  • 中文分词器(轻量级Java分词工具) V1.6.4 免费版截图
  • 中文分词器(轻量级Java分词工具) V1.6.4 免费版截图
  • 中文分词器(轻量级Java分词工具) V1.6.4 免费版截图
  • 中文分词器(轻量级Java分词工具) V1.6.4 免费版截图