搜索资源列表
yuer
- 前几天因为好久没发blog了,就拿我毕设中的一段算法凑数,没想到引起很多人的兴趣。因此就把我的分词算法单独拎出来做了一个项目叫作DartSplitter。暂时把分词算法的名称叫做树状词库分词法。 -days ago had not issued because of the blog, I took the completed section based algorithm to make up the numbers. never thought aroused the intere
TreeCutWord
- 一套分词算法. 也是我的毕业设计的原型. 该分词算法,使分词速度达到2~8万/秒.而且没有使用线程.如果使用线程,速度可达几十万每秒以上
zhongwenfenci
- 讲述面向信息检索的中文分词程序的PDF文档,
zhongwenzidongfenciyanjiu
- 关于中文分词算法基本研究的介绍,综合的介绍了中文自动分词的原理及一般算法。
基于自动分词的企业文档搜索引擎设计与实现
- 一个关于基于自动分词的企业文档搜索引擎设计与实现的优秀论文
chineseworkshop
- 分词字典,分词必用,包含更新功能,可更新词库,含21万词和专业词库
baidu
- 中文信息处理的分词词库,百度分词词库,用于中文信息处理的词库分析和源程序链接
WeDataMine
- Web挖掘技术在搜索引擎中的应用与实现 介绍了PageRange , 结构挖掘器 , 页面分析器,中文分词等技术
ICTCLAS2009.对中文进行分词并对其词性标注
- 对中文进行分词并对其词性标注;命名实体识别;新词识别;同时支持用户词典,To be conducted in Chinese word segmentation and POS tagging Named Entity Recognition new word identification simultaneously support the user dictionary
fenci_suanfa
- 分词算法,很强大
Segmenter
- 正向匹配正向最大分词算法,仅仅是个很初级的算法-Being the largest positive word matching algorithms
File22
- 基于关键词的Web文档自动分类算法研究,文档关键词,语义相似度,聚类算法,知网,拓扑网络图,中文分词-Keyword-based Web Document Classification Algorithm, document keywords, semantic similarity, clustering algorithm, HowNet, topological network diagrams, Chinese word segmentation
Web-Chinese
- 中文自动分词技术是中文 Web信息处理的基础。文中以最大匹配法(MM)为基础 ,充分 考虑上下文(MMC) ,在内存中采用二分法进行分词匹配 ,有效地提高了分词的准确率和时效。-Chinese automatic segmentation technology is Chinese Web information processing foundation. The maximal matching method (MM) as the foundation, fully Conside
Chinese-Lexical-Analysis
- 一种基于层叠隐马模型的汉语词法分析方法,旨在将汉语分词、词性标注、切分排歧和未登录词识别集成到一个完整的理论框架中.-An approach for Chinese 1exical analysis using cascaded hidden Markav model, which aims to incorporate segmentation, part-of-speech tagging, disambiguation and unknown words recognition int
ICTCLAS
- ICTClAS分词系统是由中科院计算所的张华平、刘群所开发的一套获得广泛好评的分词系统,难能可贵的是该版的Free版开放了源代码,该文档是对ICTClAS分词系统的详细介绍。-ICTClAS segmentation system by the Hua-Ping Zhang from the Chinese Academy of Sciences, received wide acclaim Qun developed a word segmentation system, it is valu
dat
- 中文分词查找关键词结果,抽取新词的结果,如果效果好的话我就上传源码让大家使用-result of extract new word
design-documents
- 网页信息采集子系统: 网页采集:动态查找及实时分析新增网页,读取网页回帖信息。 网页过滤:,对获取的网页,通过网页清洗模块清除网页中的广告、导航信息、 图片、版权说明等噪声数据,萃取出相关网页的标题、正文、链接地址、采集时 间、回帖、发帖人数等数据。 网页信息预处理子系统: 网页审查脏字:主要功能包括中文分词、词性标注、命名实体识别、新词识别, 建立数据库说明每类词库,建立敏感词词库。 网页舆情监测:监测是否出现了一定影响的*,即回帖的回帖或支持、顶等 达到
35Improv-word-segment-
- 一种改进的中文分词歧义消除算法研究 做中文分词统计语言模型的参考资料-An improved Chinese word segmentation ambiguity elimination algorithm research Do the Chinese word segmentation statistical language model reference material
666A-joint-decoding-segment
- 一种基于字词联合解码的中文分词方法 值得研究的学术论文-Papers segmentation method based on the joint decoding the words Chinese research
lucenepds
- lucene全文搜索:实现了分词 索引 查找三大核心模块-lucene text search: the segmentation index to find the three core modules