搜索资源列表
htmlparser
- HTML的解析器,是Majestic-12分布式搜索引擎的一部分。作者Alex Chudnovsky, Majestic-12 Ltd (UK)。这个是3.0版本,性能经过多次优化,文档也比较全。也可以到http://www.majestic12.co.uk下载。-HTML parser, Majestic-12 distributed search engine part. Author Alex Chudnovsky, Majestic-12 Ltd (UK). This is versio
xunlong0.6
- 完整的.net搜索引擎采用LUCENE.net为索引核心,分布式架构.包含wordnet,分词,spider,简单webserver等-complete. Net using search engines for indexing LUCENE.net core, Distributed framework. includes WordNet, participle, spider, a simple webserver, etc.
asp_searchengine
- 如何设计分布式搜索引擎-how to design a distributed search engine
theory_of_search_engine
- 本书比较系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统构建 方案。全书分三篇共13章内容,从基本工作原理概述开始,到一个小型简单搜索 引擎实现的具体细节,进而详细讨论了大规模分布式搜索引擎系统的设计要点及 其关键技术;最后面向主题和个性化的Web信息服务,阐述了中文网页自动分类 等技术及其应用。本书层次分明,由浅入深;既有深入的理论分析,也有大量的 实验数据,具有学习和实用双重意义。
ae
- 一篇介绍分布式搜索引擎的电子书
SearchEngineer
- 本书比较系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统构建方案。全书分三篇共13章内容,从基本工作原理概述开始,到一个小型简单搜索引擎实现的具体细节,进而详细讨论了大规模分布式搜索引擎系统的设计要点及其关键技术;最后面向主题和个性化的Web信息服务,阐述了中文网页自动分类等技术及其应用。本书层次分明,由浅入深;既有深入的理论分析,也有大量的实验数据,具有学习和实用双重意义。
SearchEnginePrincipleTechnologyandSystems
- 本书比较系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统构建方案。全书分三篇共13章内容,从基本工作原理概述开始,到一个小型简单搜索引擎实现的具体细节,进而详细讨论了大规模分布式搜索引擎系统的设计要点及其关键技术;最后面向主题和个性化的Web信息服务,阐述了中文网页自动分类等技术及其应用。本书层次分明,由浅入深;既有深入的理论分析,也有大量的实验数据,具有学习和实用双重意义。
hyperestraier-1.4.13
- 一个小型的分布式的搜索引擎,速度还快,并且内置了爬虫,能够处理CJK字符集(多字节字符),是个小型站内引擎的首选,能够运行在Unix/Linux平台
hanhua_0425
- 面向Internet的分布式海量文件存储系统研究韩 华北京大学计算机科学技术系网络与分布式系统实验室2002-4-25-Internet-oriented Massive Distributed File Storage System Hanwha Beijing University of Science and Technology Department of Computer Networks and Distributed Systems Laboratory 2002-4-25
nut_source_1.0a6
- lucene + hadoop 分布式索引,希望对开发搜索引擎的同志有帮助-lucene+ hadoop distributed index, hope to develop a search engine to help comrades
LxmYhfWjm_v1.0
- 本书比较系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统构建方案。全书分三篇共13章内容,从基本工作原理概述开始,到一个小型简单搜索引擎实现的具体细节,进而详细讨论了大规模分布式搜索引擎系统的设计要点及其关键技术;最后面向主题和个性化的Web 信息服务,阐述了中文网页自动分类等技术及其应用。本书层次分明,由浅入深;既有深入的理论分析,也有大量的实验数据,具有学习和实用双重意义。 本书可作为高等院校计算机科学与技术、信息管理与信息系统、电子商务等专业的研究生或高年级本科生的教学参考书和技术资
webCrawler
- 一种高性能分布式W eb Craw ler 的设计与实现-A high-performance distributed W eb Craw ler Design and Implementation
Hadoop
- 基于Hadoop集群的分布式日志分析系统研究-Distributed Hadoop clusters based on log analysis system
SouYuan
- java开发的分布式搜索引擎,采用x-fire webservice的结构-java development distributed search engine, using x-fire webservice structure
SearchEngine-TheoryTechnologyAndSystem
- 本书比较系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统构建 方案。从基本工作原理概述开始,到一个小型简单搜索引擎实现的具体细节,进而详细讨论了大规模分布式搜索引擎系统的设计要点及 其关键技术.-introducing the theory technology and plan of search engine.realizing large scale distributed search engine system.
lucenePnutchPmapreducePsearch-engine
- 三篇关于开源搜索引擎的硕士论文 1、基于Lucene的Web搜索引擎实现 2、基于MapReduce的分布式智能搜索引擎框架研究 3、基于Nutch的垂直搜索引擎的分析与实现-Three open source search engine on the master' s thesis 1, the Web search engine based on Lucene implementation 2, based on the MapReduce framework
lily-src-0.3.tar
- 分布式数据仓库 lily hbase 搜索引擎- lily hbase
MetaSeeker-4.11.2
- 主要应用领域: • 垂直搜索(Vertical Search):也称为专业搜索,高速、海量和精确抓取是定题网络爬虫DataScraper的强项,每天24小时每周7天无人值守自主调度的周期性批量采集,加上断点续传和软件看门狗(Watch Dog),确保您高枕无忧 • 移动互联网:手机搜索、手机混搭(mashup)、移动社交网络、移动电子商务都离不开结构化的数据内容,DataScraper实时高效地 采集内容,输出富含语义元数据的XML格式的抓取结果文件,确保自动化
TheDefinitiveGuidetoMongoDB
- mongodb是一个高性能的非关系型数据库,其底层还实现了一个分布式文件系统,可用于各种云计算。基于mongodb做搜索引擎也是非常好的选择,用它给数以亿计的网页建立反向索引也是轻而易举的事情!!!本书由维护mongodb的核心人员所写,详细且清晰的介绍了mongodb。-mongodb is a high performance non-relational database, the bottom also implements a distributed file system, can
cola-master
- Cola是一个分布式的爬虫框架,用户只需编写几个特定的函数,而无需关注分布式运行的细节。任务会自动分配到多台机器上,整个过程对用户是透明的。-Cola is a distributed crawler frame, users only need to write a few specific functions, without attention to detail distributed operation. Tasks are automatically assigned to mult