MARC状态:已编 文献类型:中文图书 浏览次数:22
- 题名/责任者:
- 网络爬虫全解析:技术、原理与实践/罗刚著
- 出版发行项:
- 北京:电子工业出版社,2017.3
- ISBN及定价:
- 978-7-121-31071-3/CNY79.00
- 载体形态项:
- xii, 429页:图;24cm
- 其它题名:
- 技术、原理与实践
- 个人责任者:
- 罗刚 著
- 学科主题:
- 软件工具-程序设计
- 中图法分类号:
- TP311.561
- 责任者附注:
- 罗刚, 猎兔搜索创始人, 带领猎兔搜索技术开发团队先后开发出猎兔中文分词系统、猎兔信息提取系统、猎兔智能垂直搜索系统以及网络信息监测系统等, 实现互联网信息的采集、过滤、搜索和实时监测。
- 提要文摘附注:
- 本书介绍了如何开发网络爬虫。内容主要包括开发网络爬虫所需要的Java语法基础和网络爬虫的工作原理, 如何使用开源组件HttpClient和爬虫框架Crawler4j抓取网页信息, 以及针对抓取到的文本进行有效信息的提取。为了扩展抓取能力, 本书介绍了实现分布式网络爬虫的关键技术。另外, 本书介绍了从图像和语音等多媒体格式文件中提取文本信息, 以及如何使用大数据技术存储抓取到的信息。后, 以实战为例, 介绍了如何抓取微信和微博, 以及在电商、医药、金融等领域的案例应用。其中, 电商领域的应用介绍了使用网络爬虫抓取商品信息入库到网上商店的数据库表。医药领域的案例介绍了抓取PubMed医药论文库。金融领域的案例介绍了抓取股票信息, 以及从年报PDF文档中提取表格等。
- 使用对象附注:
- 本书适用于对开发信息采集软件感兴趣的自学者。也可以供有Java或程序设计基础的开发人员参考
全部MARC细节信息>>
索书号 | 条码号 | 年卷期 | 馆藏地 | 书刊状态 | 还书位置 |
TP311.561/8.6 | A1362472 | ![]() |
可借 | 密集书库—逸夫馆(暂不借阅) | |
TP311.561/8.6 | A1362471 | ![]() |
可借 | 新馆自助借还机 | |
TP311.561/8.6 | A1362473 | ![]() |
可借 | 新馆自助借还机 |
显示全部馆藏信息