搜索资源列表
sbp
- 用于手写体字符识别的BP神经网络算法,用C语言编写,需要用一定数据的进行训练,然后用三层网络进行识别,可以试一试.-for Handwritten Character Recognition BP neural network algorithm, using C language, need certain data for training, and then use the three-tier network identification, may try.
DigitRec
- 基于神经网络的文字识别系统 本目录主要包括:文档和两个源代 其中源代码是识别程序的,另一个是矩阵类库的。已经保存了训练好的网络权值,所以第一次使用识别程序时,可以直接运行Release目录下的可执行文件,然后对图片目录中的测试图片进行读入、识别。当然也可以自行用训练样本训练网络,不过要注意训练样本的选择,否则可能识别率很低。训练样本选择的原则是,尽可能的有代表性,在训练时间不至于太长的情况下训练样本数目尽量多。
CRF++-0.50
- CRF++ 5.0的 source 应用在自然语言识别等领域的机器训练,对2G以上的语料不会出现内存溢出等问题
spamFiliter
- 中文邮件过滤。对训练邮件分词训练贝叶斯模型。然后对测试邮件分类
MyProject
- 文本分类,使用贝叶斯分类系统,训练集和测试集
fenci
- 分词程序,HMM模型训练,维特比解码,有说明文档。
PFR199801.rar
- PFR人民日报标注语料,它是中文信息处理的重要训练样本,PFR marked the People' s Daily corpus, which is an important Chinese information processing training samples
中文分词算法
- 本程序使用给出的字典进行学习并对训练语料进行分词处理,采用C语言编写,高效易懂!
CRF++-0.51
- 应用在自然语言识别等领域的机器训练,最新版本的条件随机场工具-Applications in natural language recognition in areas such as machine training, the latest version of the conditions with the Airport tools
hmmfan
- 一个用于 词性标注的 HMM程序。 包含 训练和测试功能。-One for the HMM-speech tagging procedures. Includes training and testing.
shouxietishibie
- 通过VC++实现了手写体识别,先训练,,然后就可以识别了-First we use the whole image as the feature, but the running time is too long, so we begin to think about the preprocessing and the feature extraction. We use two methods to extract the feature, first we extract 13 featur
segword
- segword训练语料处理程序,针对人民日报199801训练语料进行训练的程序-segword
Test Class By SVM
- 支持向量机实现的文本分类程序,过程如下,首先使用分词工具分词,这里使用的是计算所的分词工具,从而保证分词是最优秀的,接下来使用国际效率最高的文本IFIDF向量生成工具生成文本相量,最后使用台湾林智恒的效率最高的SVM实现软件包libsvm实现训练和分类,可以这么说,该文本分类是同类中效率最高最准确的-text classfication source code use 3 technology.words sementation,vector gerneration,and libsvm too
segment
- 基于n元语法的分词。先训练后,再通过前后向最大匹配初步分词,在通过2元语法来消岐。-Based on the n-gram sub-word. The first training and then through to the maximum matching before and after the initial word, in through a 2-gram to eliminate qi.
POStag
- 词性标注。首先根据预料库训练模型,然后用得到的模型对未标记词性的语句进行词性标注。-Part of Speech Tagging. First, according to the training model is expected to libraries, and then get the model right part of speech of the statement is not marked for POS Tagging.
wordmark
- 通过一个已经标号词性的训练集来得到训练数据,再根据训练数据对需要进行分词的数据进行分词,采用概率最高的分词情况为最后结果。-By a label the parts of speech training set training data to get the need segmentation data based on the training data segmentation with the highest probability of segmentation for the fin
CTB
- 中文分词和词性分析通用的训练集,含POS。-Chinese word segmentation and part of speech analysis of generic training set.
gulicishibie
- 基于MFCC+VQLBG的孤立词识别,包含训练使用的录音以及识别用的参考录音。-MFCC,VQLBG,isolated-word speech recognition
randomGen.py.tar
- 首先利用现有文本训练trigram模型,再用模型随机生成n个单词的文本-First, the use of existing training trigram model text, and then the model is randomly generated n-word text
maxent
- 运用最大熵对一个文本中的类进行训练模型,然后可用模型进行预测,结果返回类名,是机器学习语言的重要部分,支持汉字分类-Use of maximum entropy of a text in class training model, the model can then be used to predict the results returned class name is an important part of machine learning languages, support for