Lucene+nutch搜索引擎开发目录 实战篇
第章 专题搜索引擎实例 .1 专题搜索需求分析 .1.1 专题搜索功能需求 .1.2 专题搜索用例分析 .2 构建Nutch基础搜索引擎 .2.1 Nutch搜索功能分析 .2.2 信息下载功能测试 .2.3 Nutch基础Web检索 .2.4 Web用户页面修改 .3 专题搜索系统设计 .3.1 系统框架设计 .3.2 选择开发工具组件 .4 专题关键词管理 .4.1 专题关键词策略 .4.2 关键词存储设计 .4.3 关键词管理程序 .5 专题资源发现 .5.1 专题网页链接发现 .5.2 专题资源网站提取 .6 专题信息下载 .6.1 批量信息下载 .6.2 信息自动下载 .7 专题信息分析与索引 .7.1 网页信息分析 .7.2 创建索引 .8 检索辅助功能 .8.1 相关词推荐 .8.2 检索词高亮显示 .8.3 检索结果翻页 .9 小结 第章 Lucene实现企业搜索实例 .1 企业搜索需求分析 .1.1 企业搜索需求概述 .1.2 企业搜索用例分析 .2 企业级搜索系统设计 .2.1 系统框架设计 .2.2 Lucene检索框架 .3 企业级搜索系统设计 .3.1 创建Lucene工程 .3.2 全文检索索引生成 .3.3 全文检索检索页面 .4 数据引擎设计 .4.1 数据库数据管理 .4.2 非结构化文档 .5 企业信息索引 .5.1 数据索引建立 .5.2 信息检索代码 .5.3 检索Web代码 .5.4 检索结果测试 .6 小结扩展资料
本书以Lucene构建搜索引擎的源码源码开发过程为主线,由浅入深,好难循序渐进,高亮为读者展示如何使用Lucene开发自己的源码源码源码接口搜索引擎系统。全书内容包括搜索引擎概述和原理、好难音缘社区源码Lucene部署安装、高亮Nutch网络蜘蛛与数据获取、源码源码Lucene索引建立、好难Lucene检索与查询、高亮搜索结果排序、源码源码文档分析器与中文分词、好难格式化文本分析、高亮巨推网源码分布式搜索与缓存等。源码源码为便于读者理解搜索引擎快速开发过程,好难本书最后几章进行了应用实例的讲解,包括Nutch构建专题搜索、Android影视APP源码Lucene构建企业级搜索实例以及相关的整体工程性能测试。lucene nutch solråhadoopçåºå«åèç³»
apache luceneæ¯apacheä¸ä¸ä¸ªèåçå¼æºæç´¢å¼æå æ ¸ï¼åºäºJavaææ¯ï¼å¤çç´¢å¼ï¼æ¼åæ£æ¥ï¼ç¹å»é«äº®åå ¶ä»åæï¼åè¯çææ¯ã
nutchåsolråæ¥é½æ¯luceneä¸çå项ç®ãä½åæ¥nutchç¬ç«æ为ç¬ç«é¡¹ç®ãnutchæ¯å¹´ç±ä¿ååå·ç«å¤§å¦å¼æºå®éªå®¤æ¨¡ä»¿googleæç´¢å¼æåç«çå¼æºæç´¢å¼æï¼åå½äºapacheæä¸ãnutch主è¦å®ææåï¼æåå 容çå·¥ä½ã
solråæ¯åºäºluceneçæç´¢çé¢ãæä¾XML/HTTP å JSON/Python/Ruby APIï¼æä¾æç´¢å ¥å£ï¼ç¹å»é«äº®ï¼ç¼åï¼å¤ä»½å管ççé¢ã
hadoopåæ¥æ¯nutchä¸çåå¸å¼ä»»å¡å项ç®ï¼ç°å¨ä¹æ为apacheä¸ç顶级项ç®ãnutchå¯ä»¥å©ç¨hadoopè¿è¡åå¸å¼å¤ä»»å¡æåååæåå¨å·¥ä½ã
æ以ï¼lucene,nutch,solr,hadoopä¸èµ·å·¥ä½ï¼æ¯è½å®æä¸ä¸ªä¸åçæç´¢å¼æå·¥ä½çã
急:有没有人会jsp+Lucene实现站内全文检索?请指教,最好有代码例子
下载一个 Lucene的最新发布版,
里面有Demo程序,unity tilemap 商业源码并且配有文档。
看懂之后,稍加修改,可以基本满足你的需要。
然后如果想要性能更好的中文分词(Lucene自带的中文分词有两种方式:1、按字索引;2、二个字为一个词进行索引),需要找一些中文分词的文章看看(推荐使用 ICTCLAS(中科院的分词系统)的java版,或者海量分词的java版)。
注意在建立索引的时候,需要保存Term的位置信息,这样在显示结果文档进行高亮显示时,速度会比较快。
可以访问我的BLOG:/
我里面有一篇总结,希望对你有帮助。
为ä»ä¹è¦å¦ä¹ Lucene
1ãç书ï¼ãLucene
In
Actionãï¼ç解luceneçå·¥ä½åçåæ¹å¼ååè¯ï¼
2ãçæApiï¼å¯ä»¥ççluceneèªå¸¦çdocï¼å¹¶å¯ä»¥èªå·±ååå°çjava
consoleç¨åºï¼
3ãå®è·µï¼éæå°ç³»ç»ä¸ï¼å®ç°é«äº®ï¼æ°æ®åºè®¾è®¡åç´¢å¼è®¾è®¡ï¼å¹¶å¯ä»¥èªå·±åååè¯æ¹æ³ï¼
4ãå¦ä¹ åluceneç¸å ³çæ¡æ¶åç¬è«ï¼ç¬ç¬ä¸äºç½é¡µ
主è¦çæå®çå·¥ä½æ¹å¼åApi使ç¨ï¼åæçå¯ä»¥æé«çå°æ¹
Lucene Java精华版目 录
第1章 搜索引擎总体结构
1.1 搜索引擎基本模块
1.2 开发环境
1.3 搜索引擎工作原理
1.3.1 网络爬虫
1.3.2 全文索引结构与Lucene实现
1.3.3 搜索用户界面
1.3.4 计算框架
1.3.5 文本挖掘
1.4 本章小结
第2章 网络爬虫的原理与应用
2.1 爬虫的基本原理
2.2 爬虫架构
2.3 抓取网页
2.4 存储URL地址
2.5 并行抓取
2.6 RSS抓取
2.7 抓取FTP
2.8 下载
2.9 图像的OCR识别
2. Web结构挖掘
2. 部署爬虫
2. 本章小结
第3章 索引内容提取
3.1 从HTML文件中提取文本
3.1.1 字符集编码
3.1.2 识别网页的编码
3.1.3 网页编码转换为字符串编码
3.1.4 使用HTMLParser实现定向抓取
3.1.5 使用正则表达式提取数据
3.1.6 结构化信息提取
3.1.7 网页的DOM结构
3.1.8 使用NekoHTML提取信息
3.1.9 网页去噪
3.1. 网页结构相似度计算
3.1. 提取标题
3.1. 提取日期
3.2 从非HTML文件中提取文本
3.2.1 提取标题的一般方法
3.2.2 PDF文件
3.2.3 Word文件
3.2.4 Rtf文件
3.2.5 Excel文件
3.2.6 PowerPoint文件
3.3 提取垂直行业信息
3.3.1 医疗行业
3.3.2 旅游行业
3.4 流媒体内容提取
3.4.1 音频流内容提取
3.4.2 视频流内容提取
3.5 存储提取内容
3.6 本章小结
第4章 中文分词原理与实现
4.1 Lucene中的中文分词
4.1.1 Lucene切分原理
4.1.2 Lucene中的Analyzer
4.1.3 自己写Analyzer
4.1.4 Lietu中文分词
4.2 查找词典算法
4.3 中文分词的原理
4.4 中文分词流程与结构
4.5 形成切分词图
4.6 概率语言模型的分词方法
4.7 N元分词方法
4.8 新词发现
4.9 未登录词识别
4. 词性标注
4. 平滑算法
4. 机器学习的方法
4. 有限状态机
4. 本章小结
第5章 让搜索引擎理解自然语言
5.1 停用词表
5.2 句法分析树
5.3 相似度计算
5.4 文档排重
5.4.1 语义指纹
5.4.2 SimHash
5.4.3 分布式文档排重
5.5 中文关键词提取
5.6 相关搜索词
5.7 信息提取
5.8 拼写检查与建议
5.9 自动摘要
5.9.1 自动摘要技术
5.9.2 自动摘要的设计
5.9.3 基于篇章结构的自动摘要
5.9.4 Lucene中的动态摘要
5. 文本分类
5..1 特征提取
5..2 中心向量法
5..3 朴素贝叶斯
5..4 支持向量机
5..5 多级分类
5..6 规则方法
5..7 网页分类
5. 自动聚类
5..1 聚类的定义
5..2 K均值聚类方法
5..3 K均值实现
5..4 深入理解DBScan算法
5..5 使用DBScan算法聚类实例
5. 拼音转换
5. 概念搜索
5. 多语言搜索
5. 跨语言搜索
5. 情感识别
5..1 确定词语的褒贬倾向
5..2 实现情感识别
5..3 用户协同过滤
5. 本章小结
第6章 Lucene原理与应用
6.1 Lucene深入介绍
6.1.1 常用查询
6.1.2 查询语法与解析
6.1.3 查询原理
6.1.4 使用Filter筛选搜索结果
6.1.5 遍历索引库
6.1.6 索引数值列
6.2 Lucene中的压缩算法
6.3 创建和维护索引库
6.4 查找索引库
6.5 读写并发控制
6.6 优化使用Lucene
6.6.1 索引优化
6.6.2 查询优化
6.6.3 实现时间加权排序
6.6.4 实现字词混合索引
6.6.5 重用Tokenizer
6.6.6 定制Tokenizer
6.7 检索模型
6.7.1 向量空间模型
6.7.2 BM概率模型
6.7.3 统计语言模型
6.8 查询大容量索引
6.9 实时搜索
6. 本章小结
第7章 搜索引擎用户界面
7.1 实现Lucene搜索
7.2 搜索页面设计
7.2.1 Struts2实现的搜索界面
7.2.2 翻页组件
7.3 实现搜索接口
7.3.1 编码识别
7.3.2 布尔搜索
7.3.3 指定范围搜索
7.3.4 搜索结果排序
7.3.5 搜索页面的索引缓存与更新
7.4 历史搜索词记录
7.5 实现关键词高亮显示
7.6 实现分类统计视图
7.7 实现相似文档搜索
7.8 实现AJAX搜索联想词
7.8.1 估计查询词的文档频率
7.8.2 搜索联想词总体结构
7.8.3 服务器端处理
7.8.4 浏览器端处理
7.8.5 服务器端改进
7.8.6 拼音提示
7.8.7 部署总结
7.9 集成其他功能
7.9.1 拼写检查
7.9.2 分类统计
7.9.3 相关搜索
7.9.4 再次查找
7.9.5 搜索日志
7. 搜索日志分析
7..1 日志信息过滤
7..2 信息统计
7..3 挖掘日志信息
7. 本章小结
第8章 使用Solr实现企业搜索
8.1 Solr简介
8.2 Solr基本用法
8.3 从FAST Search移植到Solr
8.4 Solr扩展与定制
8.5 Solr的.NET客户端
8.6 Solr的PHP客户端
8.7 本章小结
第9章 地理信息系统案例分析
9.1 新闻提取
9.2 POI信息提取
9.3 本章小结
第章 户外活动搜索案例分析
.1 爬虫
.2 信息提取
.3 活动分类
.4 搜索
.5 本章小结
参考资料
2024-11-29 23:35
2024-11-29 23:10
2024-11-29 21:56
2024-11-29 21:37
2024-11-29 21:21