企业形象网站建设解决方案   |   集团公司网站建设解决方案   |    协会门户网站建设解决方案
您所在位置:首页 > 建站知识

建站知识

Website development

上海网站优化云智让你一看就明白的爬虫入门讲解

发布时间:2015-11-24 09:52:58

TAGS:网站优化公司,网站优化

blob.pngt1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司


t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

关于爬虫内容的分享,上海网站优化云智会分成两篇,六个部分来分享,分别是:t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

  1. 我们的目的是什么t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

  2. 内容从何而来t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

  3. 知晓网络请求t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

  4. 一些常见的限制方式t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

  5. 尝试解决难题的思路t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

  6. 效率难题的取舍t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

本文先聊聊前三个部分。t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

一、我们的目的是什么t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

一般来讲对我们而言必需抓取的是某个网站或者某个应用的内容,提取有用的价值,内容一般分为两部分,非结构化的文本,或者结构化的文本。t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

关于非结构化的数据t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

1.1 HTML文本(包含java代码)t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

HTML文本基本上是传统爬虫过程中常见的,也就是大多数时候会遇到的情况,例如抓取一个网页,得到的是HTML,然后必需解析一些常见的元素,提取一些关键的信息。HTML本来理应属于结构化的文本组织,但是又因为一般我们必需的关键信息并非直接可以得到,必需进行对HTML的解析查找,甚至一些字符串操作才能得到,所以还是归类于非结构化的数据处理中。t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

常见解析方式如下:t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

CSS选择器t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

如今的网页样式比较多,所以一般的网页都会有一些CSS的定位,例如class,id等等,或者我们根据常见的节点路径进行定位,例如腾讯首页的财经部分:t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

搜索引擎爬虫 搜索引擎优化 搜索引擎排名 <a href= target=_blank class=infotextkey>网站优化</a>t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

这里id就为finance,我们用css选择器,就是"#finance"就得到了财经这一块区域的html,同理,可以根据特定的css选择器可以获取其他的内容。t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

XPATHt1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

XPATH是一种页面元素的路径选择办法,利用chrome可以快速得到,如:t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

搜索引擎爬虫 搜索引擎优化 搜索引擎排名 <a href= target=_blank class=infotextkey>网站优化</a>t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

copy XPATH 就能得到&mdash;&mdash;//*[@id="finance"]t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

正则表达式t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

正则表达式,用标准正则解析,一般会把HTML当做普通文本,用指定格式匹配当相关文本,恰好小片段文本,或者某一串字符,或者HTML包含java的代码,无法用CSS选择器或者XPATH。t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

字符串分隔t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

同正则表达式,更为偷懒的办法,不提示使用。t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

1.2 一段文本t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

例如一篇文章,或者一句话,我们的初衷是提取有效信息,所以假如是滞后处理,可以直接存储,假如是必需实时提取有用信息,常见的处理方式如下:t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

分词t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

根据抓取的网站类型,使用不同词库,进行基本的分词,然后变成词频统计,类似于向量的表示,词为方向,词频为长度。t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

NLPt1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

自然语言处理,进行语义分析,用结果表示,例如正负面等。t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

关于结构化的数据结构化的数据是好处理,一般全是类似JSON格式的字符串,直接解析JSON数据就可以了,提取JSON的关键字段即可t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

二、内容从何而来t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

过去我们常必需获取的内容主要来源于网页,一般来讲,我们决定进行抓取的时候,全是网页上可看到的内容,但是随着这几年移动互联网的发展,我们也发现越来越多的内容会来源于移动app,所以爬虫就不止局限于一定要抓取解析网页,还有就是模拟移动app的网络请求进行抓取,所以这一部分我会分两部分进行说明。t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

1 网页内容t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

网页内容一般就是指我们终在网页上看到的内容,但是这个过程本来并不是网页的代码里面直接包含内容这么简单,所以对于很多新人而言,会遇到很多难题,例如:t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

明明在页面用Chrome或者Firefox进行审查元素时能看到某个HTML标签下包含内容,但是抓取的时候为空。t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

很多内容一定要在页面上点击某个按钮或者进行某个交互操作才能显示出来。t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

所以对于很多新人的做法是用某个语言别人模拟浏览器操作的库,本来就是调用本地浏览器或者是包含了一些执行java的引擎来进行模拟操作抓取数据,但是这种做法显然对于想要大量抓取数据的情况下是效率非常低下,并且对于技术人员本身而言也相当于在用一个盒子,那么对于这些内容到底是怎样显示在网页上的呢?t1e上海网站开发,上海网站建设,网站设计,网站制作-特马QQ网站开发公司

原创不易,未经授权,严禁转载

原文地址:/i,72,6236,0.html

客户评价

更多+
  • 感谢特马资料qq群,系统提前完成,在整个项目周期内,特马资料qq群对待我们并不像是对待客户,更像是朋友一样,每一次,都能以专业的角度向我们提出更合理、更有效的解决方案,并快速、细致地完成我们的每一个需求,再次感谢以至诚之心做事的特马资料qq群团队。

    潘涛

  • 我是东方龙马集团,在云智家做了2个企业官网,服务态度超级好。假如想做网站,选择他家一定不后悔。性价比高,服务态度好。值得你的信赖!

    谭娇

  • 技术好,设计精良,操作便利,很专业!配套的服务和后续的服务都很好,网站封面堪称精品,运行方便,后台操作的简单。技术还会耐心教我,很好的特马资料qq群(上海)科技有限公司,建站很不错的。

    陈曦

  • 不错,价格比较合适,要点是响应速度蛮快,有什么难题都会马上给你解决,公司很满意,因为他们全是针对每个项目建了相应的讨论组,有难题可以再里面提出,人员分工到位,解决难题很及时。

    张经理

联系方式

工作时间:10:00-19:00
咨询电话:010-64758810
客服邮箱:net@cnlink.cc

服务领域

  • 网站定制开发
  • PC网站设计
  • 域名邮箱
  • 网站维护
  • 网站二次开发
  • 响应式网站设计
  • 虚拟主机
  • 网站优化
  • 网站设计开发
  • 创意设计
  • 云主机
  • 项目合作

合作伙伴

All Rights Reserved.©2010-2016 特马QQ群|资料网站京公网安备 110105019435 京ICP备123124426号
本网站设计已受版权保护,任何公司及个人不得复制,违者将依法追究责任,特此声明。法律顾问:上海市辉瑞律师事务所。
嘿,我来帮您!