每日干货好文共享丨请点击+重视 对R言语感兴趣的加微信fridayBIfly,约请你进入R言语学习群。

今日咱们就一起来使用简略的R函数做一些爬虫作业,作为是为一些爬虫爱好者供给一些思路。假设想爬取天善社区现在的在线课程数据,检查你感兴趣课程的相关信息(授课教师、课时数、价格、销量)等等。接下来,让咱们一步步完结以上的需求。

先看看天善社区的视频主页地址:

edu.hellobi/course/explore?page=1

主页截图如下:在网页上点击鼠标右键,挑选检查网页源代码,检查当前页面的HTML源码:假设各位看官不懂得爬虫技能,只需懂得运用readLines函数和简略的正则表达式就能完结简略的爬虫作业。

首要咱们先使用readLines函数将网页的html信息爬取到R中。检查读取后的成果:可见,现已把HTML的源码爬到R中,接下来,咱们一步步提取需求的数据。

先提取课程名称现在提取课程数信息学习人数、授课教师、课程价格的信息依据以上方法提取出来,代码如下:可见,第一页的课程信息悉数被爬下来了(补白,第十个课程无授课教师,直接越过)。

咱们发现,天善一共有7页视频,现在使用爬虫悉数爬取下来,总结网页地址:

edu.hellobi/course/explore?page=1

edu.hellobi/course/explore?page=2

……

爬取悉数网页数据的完好代码如下:其实,R做爬虫也有许多功能强大的包,例如quantmod包、XML包、RCrul包、rvest包。善用这些包,能够完成杂乱的爬虫作业,并大大简化代码量。最终,咱们使用rvest包对以上的爬虫重做一遍,这边直接给出爬虫代码。成果如下:可见,天善线上一共有107套视频。咱们想检查一下谢佳标教师现在在线的视频有哪些,中需求在serach窗口输入教师名字即可。阐明:

本文作者为天善智能签约讲师谢佳标,此文答应转载,转载时需请完好保存以下内容,违者必究。

原文来自天善智能社区:

.hellobi

原文地址:

ask.hellobi/blog/xiejiabiao/5402

友谊提示:

天善智能是国内最大的商业智能BI、数据剖析、大数据范畴社区,欢迎咱们登陆天善学院有更多免费职业专家数据库,商业智能BI,数据剖析,大数据,数据发掘视频和干货好文共享。

Friday BI Fly:每周一个主题,一场跟数据有关的职业、东西、技能的沟通盛宴。咱们的标语是“Friday BI Fly 周五BI飞起来”。 Friday BI Fly 微信直播活动现在已举行30期,往期共享内容包含:【金融职业、零售职业、旅行职业、大数据发掘、大数据落地、数据剖析师、数据办理、大数据征信、风控办理、Python实战、用户画像、数据办理、数据架构、R言语等】。

本周共享主题:2016年11月4日晚8点半微信直播沟通游戏职业数据仓库存储模型第38场,参与每周五的微信直播共享活动,请加微信:fridaybifly(补白:公司+职业+名字)。

更多内容欢迎登陆:.hellobi/ 。