搜索资源列表
-
0下载:
用java实现的一个文件合并与分割程序,很有实用价值-with java achieve a merger with the document segmentation procedures, very practical value
-
-
0下载:
这是一个网友编写的文件分割程序,可以把大的文件进行切割。比较好用.-This is a document prepared by the Netizen segmentation procedures can be great for cutting the paper. Better quality.
-
-
2下载:
用java语言实现文本聚类,包括聚类前的数据预处理:分词、降维、建立向量空间模型等,Implementation using java language text clustering, including clustering of the data pre-processing before: segmentation, dimensionality reduction, set up, such as Vector Space Model
-
-
0下载:
简单全文检索,包括建立索引,文件分割,和安内容或者文件名检索!-Simple text search, including indexing, document segmentation, and security content or file name search!
-
-
0下载:
中文分词系统,给定一个文档,生成另一个内容已经被分割的文档-The Chinese word segmentation system, given a document, generating another content has been the division of the document
-
-
0下载:
索引词的选择
1、 切词及词频统计:利用已选择的分词软件对文档进行切词处理,并进行词频统计,形成DocIndex文件,结构为:文档号、频率、词。注意保留中间结果,建立合理的数据结构来存储。
2、 分配词权重: 采用词频标准化(tfi = tfi/Max(tf))和tf*idf两种方式分配词的权重。由DocIndex文件生成DocIndex(tf) 和DocIndex(tf*idf)文件。注意阈值的确定,词的取舍。
3、 形成倒置文档:将DocIndex(tf) 和DocInde
-
-
0下载:
统计已分词文件中中文词语出现频率,前提是要有已经完成分词的txt文件。-Statistics frequency of the Chinese word segmentation document
-
-
0下载:
基于lucene的文档分词程序,去停用词,统计词频,计算词的权重-Lucene-based document segmentation procedures, to stop words, word frequency statistics
-