搜索资源列表
分词器
- 迷你分词器,解压缩后,在java环境下运行使用。
ChineseAnalyzer
- lucene.net 2.0的中文分词器,采用最大向前匹配算法,附上源代码和lucene.net.dll,希望这方面有兴趣的互相交流一下。
k50RVZDojs03
- 基于IKAnalyzer分词算法的准商业化Lucene中文分词器
中文网页自动分类器
- 利用knn算法实现了一个中文网页自动分类器, 包括网页预处理,ictclas中文分词,基于tf-idf的文本特征表示,基于df的特征选取和基于knn的分类算法,最后通过struts2框架web发布
CutWordApp
- csharp实现的分词器,完整可以运行!结合正向逆向匹配法,效率较高-csharp device to achieve the sub-word, complete run! Forward Reverse with matching, more efficient
word-segment-tool-for-chinese
- 基于北大语料库的分词器,简单,有使用说明-a chinese word segment tool
luceneCH2
- 亲自测试成功的《开发自己的搜索引擎》第二章,以及一个分词器的测试程序。-Personally successfully tested a " to develop its own search engine" second chapter, as well as a word breaker testing procedures.
svmcls-(2)
- 李荣陆老师做的文本分类器,用中科院分词系统做的,分类方法用的是SVM和K-Rong Lu teachers do text classification, word segmentation system with the Chinese Academy of Sciences to do, classification using a SVM and KNN
Chinese_wordspliter
- 使用正向最大匹配法的中文分词器 分别读入待分词文本文件及字典文件后,将经处理后的结果输出至另一文件予以保存。所用待分词文件样例约有字符184万个,处理时间在11s左右。程序使用C++语言编写。-Using the forward maximum matching device of Chinese words segmentation, respectively, to be read into the text file and dictionary file, the result will
Bayes
- 这是一个利用C#编写的贝叶斯中文文本分类器,分词器使用了ICTCLAS分词器。-failed to translate
IKAnalyzer2012
- IKAnalyzer2012,一个以lucene为基础的非常好用的中文分词器,有两种分词模式,智能分词模式和最细粒度分词模式。-IKAnalyzer2012 very easy to use a lucene-based Chinese Word Breaker, there are two sub-word mode, intelligent word patterns and most fine-grained segmentation model.
je
- 极易分词器,在搜索引擎中至关重要,主要是针对中文。中文分词很难实现得非常完美,所以,可以从研究极易中得到相应的启发-Vulnerable to the word in the search engines is essential, mainly for the Chinese. Chinese word segmentation is difficult to achieve perfectly, so you can get the inspiration from the study ea
TextCategorizer
- 自己实现的中文分词器、贝叶斯文本分类器 附分词词典、中文停用词表 用于数据挖掘学习、交流 Visual Studio 2010 开发-Realize his Chinese word segmentation, Bayesian text classifier the attached word dictionary, the Chinese stop word table is used for data mining learning, exchange of the Visua
com
- 使用java语言开发的分词器源码,可结合luncene使用,效果很好-Word segmentation is developed using java language, can be used in conjunction with the luncene, the effect is very good
apache-cxf-3.0.9
- 分词分析 软件复用是在软件开发中避免重复劳动的解决方案。Web服务实现了业务级别的软件复用,例如在B2B的集成中,各企业之间通过互相调用Web服务,实现了Web服务的共享,Web服务的使用企业不需要再重新开发其他企业中已经存在的服务。(Segmentation analysis)
IK Analyzer 2012FF_hf1
- ik分词器源码,非常的好用,能够智能分词,检索命中率比较高的。(ik analyse code,it is useful)
课程设计作业
- 用分词包进行分词,并通过分词统计每个词频出现次数(use to seperate an article, and use the dictionary to find the frequency of each word)
paoding-analysis-2.0.4-beta
- paoding-dic-home.properties是庖丁解牛中文分词的配置文件 庖丁解牛分词器是基于lucene的中文分词系统的软件。(Paoding-dic-home.properties is Chinese Paodingjieniu participle configuration file Is Chinese Paodingjieniu segmentation segmentation system based on the Lucene software.)
基于mmseg算法的一个轻量级中文分词器
- 基于mmseg算法的一个轻量级开源中文分词器(A lightweight open source Chinese word segmentation based on the mmseg algorithm)