摘要:如今移动互联网越来越发达,各式各样的App层出不穷,也就产生了优劣之分,相比于普通App,我们肯定愿意去使用那些良心佳软,但去发现这些App并不太容易,本文使用Scrapy框架爬取了著名应用下载市场「酷安网」上的余款App,通过分析,发现了各个类别领域下的佼佼者,这些App堪称真正的良心之作,使用它们将会给你带来全新的手机使用体验。
1.分析背景1.1.为什么选择酷安如果说GitHub是程序员的天堂,那么酷安则是手机App爱好者们(别称「搞机」爱好者)的天堂,相比于那些传统的手机应用下载市场,酷安有三点特别之处:
第一、可以搜索下载到各种神器、佳软,其他应用下载市场几乎很难找得到。比如之前的文章中说过的终端桌面「Aris」、安卓最强阅读器「静读天下」、RSS阅读器「Feedme」等。
第二、可以找到很多App的破解版。我们提倡「为好东西付费」,但是有些App很蛋疼,比如「百度网盘」,在这里面就可以找到很多App的破解版。
第三、可以找到App的历史版本。很多人喜欢用最新版本的App,一有更新就马上升级,但是现在很多App越来越功利、越更新越臃肿、广告满天飞,倒不如回归本源,使用体积小巧、功能精简、无广告的早期版本。
作为一名App爱好者,我在酷安上发现了很多不错的App,越用越感觉自己知道的仅仅是冰山一角,便想扒一扒这个网站上到底有多少好东西,手动一个个去找肯定是不现实了,自然想到最好的方法——用爬虫来解决,为了实现此目的,最近就学习了一下Scrapy爬虫框架,爬取了该网款左右的App,通过分析,找到了不同领域下的精品App,下面我们就来一探究竟。
1.2.分析内容总体分析款App的评分、下载量、体积等指标。
根据日常使用功能场景,将App划分为:系统工具、资讯阅读、社交娱乐等10大类别,筛选出每个类别下的精品App。
1.3.分析工具Python
Scrapy
MongoDB
Pyecharts
Matplotlib
2.数据抓取由于酷安手机端App设置了反扒措施,使用Charles尝试后发现无法抓包,暂退而求其次,使用Scrapy抓取网页端的App信息。抓取时期截止到年11月23日,共计款App,共抓取了8个字段信息:App名称、下载量、评分、评分人数、评论数、