搜索资源列表
多种分词方法
- 含有多个分词算法。毕业设计的时候获得的,希望对大家在汉字处理中能用的到。 ICTCLAS算法,中科院,对名字识别能力很强。VC开发。 CSharp分词,向前匹配加向后最大匹配,C#开发,容易扩展。 小叮咚分词,由后向前最大匹配,C#开发。 xerdoc分词,基于ICTCLAS的Java版本分词。 文本分词词典,分词的词典,可以提供分词数据源。-containing more than Segmentation. Graduation was the time of hope
Chinese-text-categorization-Study
- 本文通过对Bayes、KNN、SVM 应用于中文文本分类进行比较实验研究。 应用ICTCLAS 对中文文档进行分词,在大维数,多数据情况下应用TFIDF 进行 特征选择,并同时利用它实现了对特征项进行加权处理,使文本库中的每个文本 具有统一的、可处理的结构模型。然后通过三类分类算法实现了对权值数据进行 训练和分类。-Based on the Bayes, KNN, SVM applied to compare the Chinese text ca
Text-Classification_libSVM
- 用seg进行分词 输入参数一:输入文本语料所在的文件夹路径。 如 文本文件语料都放在 train//text 文件夹下,则参数为:train//text//* 。 注意:必须每篇文章在一个txt文本中。 输入参数二:输入存储分词后的结果文件所在的文件夹路径:如:result//text。注意:不需要加* 本工具采用了中科院的中文分词工具,ICTCLAS,请自行到ICTCLAS官网下载该工具。并把Data文件夹,Configure.xml,ICTCLAS30.h,ICTCLAS3