手机应用里的爬虫技术

日期:2019-07-15  作者:小天  来源:www.txunda.com  人气:1331

什么是爬虫?

爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。你可以简单地想象:每个爬虫都是你的“分身”。就像孙悟空拔了一撮汗毛,吹出一堆猴子一样。你每天使用的百度,其实就是利用了这种爬虫技术:每天放出无数爬虫到各个网站,把他们的信息抓回来,然后化好淡妆排着小队等你来检索。其实我们身边的网络上,已经密密麻麻爬满了各种网络爬虫,它们善恶不同,各怀心思。而越是每个人切身利益所在的地方,就越是爬满了爬虫。

那爬虫会出现在生活哪些方面?具体有哪些操作呢?

爬虫也分善恶,像谷歌这样的搜索引擎爬虫,每隔几天对全网的网页扫一遍,供大家查阅,各个被扫的网站大都很开心。这种就被定义为“善意爬虫”

那什么是恶意爬虫?像抢票软件这样对着 12306 每秒钟恨不得点几万次,铁总并不觉得很开心。这种就被定义为“恶意爬虫”。

这种恶意爬虫主要出现在出行、社交、电商、O2O、政府部门、运营商、自媒体、地图、搜索、新闻等等

一、先说说出行,出行行业中爬虫的占比最高。在出行的爬虫中,有一半以上的流量都是冲着 12306 去的。这不意外,全中国卖火车票的独此一家别无分号。还记得之前12306各种各样的验证码吗?

这些东西不是为了故意难为老老实实卖票的人的,而恰恰是为了阻止爬虫(也就是抢票软件)的点击。刚才说了,爬虫只会简单的机械点击,它不认识白百何,所以很大一部分爬虫就被挡在了门外。

你可能会说,不对啊,我现在还可以用抢票软件抢到票啊。

没错。抢票软件也不是吃素的。它们在和铁总搞“对抗”。

有一种东西叫做“打码平台”。

打码平台雇佣了很多叔叔阿姨,他们在电脑屏幕前不做别的事情,专门帮人识别验证码。那边抢票软件遇到了验证码,系统就会自动把这些验证码传到叔叔阿姨面前,他们手工选好验证码答案,然后

再把结果传回去。总共的过程用不了几秒钟时间。

当然,这样的打码平台还有记忆功能。如果叔叔阿姨已经标记了这张图是“锅铲”,那么下次这张图片再出现的时候,系统就直接判断它是“锅铲”。时间一长,12306 系统里的图片就被标记完了,机器自己都能认识了。

每年过年之前,12306 都被点成什么样了,公开数据是这么说的:“最高峰时1天内页面浏览量达813.4亿次,1小时最高点击量59.3亿次,平均每秒164.8万次。”这还是加上验证码防护之后的数据。可想而知被拦截在外面的爬虫还有多少。况且这里还没有讨论,被抢票软件把票抢走,对我们父母那样的不会抢票的人来说,是不是公平呢?而且这么高的点击量,网站很可能被点死,也就是网站崩溃。目前用来看抢票的手机软件越来越多,而爬虫数量也越来越多,在这里就不一一列举了。知道原理即可。

二、除了出行以外,流量最高的就是社交,有人肯定会问社交爬虫干什么?

你想想看,如果我能随心所欲地指挥一帮机器人,打开某人的微博,然后刷到某一条,然后疯狂关注、点赞或者留言,这不就是标准的僵尸粉上班儿的流程么。。。其实,僵尸粉都只是爬虫的常规操作,更厉害的操作来了:

1、我是一个路人甲,我的微博没人关注,我用大量的爬虫,给自己做了十万人的僵尸粉,一群僵尸在我的微博下面点赞评论,不亦乐乎。

2、我去找一个游戏厂商,跟他说:你看我有这么多粉丝,你在我这投广告吧。我帮你发一条游戏的注册链接,每有一个人通过我的链接注册了游戏,你就给我一毛钱。广告主说,不错,就这么办。3、我发出注册链接,然后没人点。

4、不慌,我让十万爬虫继续前赴后继地点击注册链接,然后自动去完成注册动作。

5、我躺在床上,数着赚来的一万块钱。

三、最后再说说电商类

有几种东西叫做“比价平台”“聚合电商”和“返利平台”。他们大体都是一个原理:你搜索一样商品,这类聚合平台就会自动把各个电商的商品都放在你面前供你选择。有淘宝、京东,还有唯品会苏宁易购。这就是爬虫的功劳。它们去淘宝上,把胖次袜子杜蕾斯的图片和价格统统扒下来,然后在自己这里展示。
这个原理和谷歌差不多。只不过他们展示的不是网页而是商品。但是被放在一起比价,淘宝是拒绝的,京东也是拒绝的。那些聚合平台,自己写爬虫,然后帮助淘宝京东卖货,有人肯定会问这不是好事吗?切记天上是不会掉馅饼。我随便给你说一下这种聚合电商平台的盈利模式:

1、假设几家店铺都卖杜蕾斯,但是用户在我这里搜索“杜蕾斯”的时候,我是有权利决定谁的店铺在前面谁在后面的啊。谁给的钱多,我就让谁在搜索的前面呗。@百度君,你说说是不是这个道理?(注意,每个店铺和淘宝平台可不是一致行动人。淘宝平台不希望自己的内容被聚合平台抓取,但每个店铺可是很乐意多一个渠道帮他们卖货的。)

2、如果你觉得搞竞价排名良心会痛,也可以用更简单的方式——在网页上展示独立的广告。访问你网站的用户,看到页面上的广告,也有可能会点击。每点击一次,你就赚一次钱。

3、你还可以作为中间商,收点中介费。我帮你店家卖货了,你是不是要给我意思意思。除了给我意思意思,你还得给来买东西的用户意思意思。这种套路,就是“返利网”这类平台的玩法。

爬虫还可以做什么?还可以刷留言刷赞、做网站排名优化、抢预约挂号、爬取企业信誉等等应用的地方有很多。目前很多APP也还在应用爬虫技术,对用户来说可能有了这些数据生活出行更加便捷,但是对于企业来说一个是爬虫一个是被爬,爬虫和被爬虫企业越来越势不友好。企业经典的对抗方式,大概有几种:图片验证码、滑块验证、封禁 IP、给访问者增加一些加解密运算,耗费爬虫的程序资源等等。

说了这么多,前提你还是需要一款产品、一个APP,需不需要爬虫都是后话。那如何拥有一款属于自己的APP呢?联系天津天迅达科技公司马上就能开展互联网时代之路。天津天迅达科技公司通过近年来对APP应用开发探索,已经帮助每一个客户快速开发出属于自己的APP,是万千企业商家微信小程序开发之选。

标签:天迅达科技 天津APP开发 天津网站建设 网站建设