自学爬虫——老马惹不起,简书谢谢你(爬虫怎么自学)

这个爬虫是个通用爬虫,去用心的了解scrapy框架,你就能轻松驾驭

https://github.com/a371057600/python-paChong-

这里是我的不专业的github,不逼逼直接搬来用吧,不推荐重复造轮子,对着代码多读几次就好,除非练手,不然不推荐重新敲,当然,能优化,改到你想要的功能是最好的.

把轮子用到了爬头条上面

我觉得,在头条上面教大家爬头条好像不是太好(虽然,头条也是爬别人的新闻)

头条的反爬方法基本跟微博也是一样,但是不推荐爬微博,因为微博大量的账号和原创内容,估计不登录也不能爬,登陆了就会废号.

本来,计划是爬淘宝的,但是无论怎么爬都会重定向到登录页面,用selemui也没用(实际有用,你只要在爬取的时候登录成为操作就好,但是这就类麻烦了.毕竟淘宝账号很重要的…)所以,最后折中爬了简书,谢谢简书爸爸的教导.

图片描述(最多50字)

from scrapy import signals

from selenium import webdriver

import time

from scrapy.http.response.html import HtmlResponse

class SeleniumDownloadMiddleware(object):

def init(self):

self.driver = webdriver.Chrome(executable_path=r\”C:Workpythonchromedriver.exe\”)

def process_request(self,request,spider):

self.driver.get(request.url)

time.sleep(1)

try:

while True:

showMore = self.driver.find_element_by_class_name(\’show-more\’)

showMore.click()

time.sleep(0.3)

if not showMore:

break

except:

pass

source = self.driver.page_source

response = HtmlResponse(url=self.driver.current_url,body=source,request=request,encoding=\’utf-8\’)

return responsege

大的门户网站你可以爬,爬了之后记得告诉我

获取ajax数据的方式:

直接分析ajax调用的接口。然后通过代码请求这个接口。

使用Selenium chromedriver模拟浏览器行为获取数据。

方式优点缺点分析接口直接可以请求到数据。不需要做一些解析工作。代码量少,性能高。分析接口比较复杂,特别是一些通过js混淆的接口,要有一定的js功底。容易被发现是爬虫。

图片描述(最多50字)

selenium直接模拟浏览器的行为。浏览器能请求到的,使用selenium也能请求到。爬虫更稳定。代码量多。性能低。

PS:本人全部自学,发送到头条也只是作为学习经历,顺便分享经验,没有炫耀和装大佬的意向,反而有互相学习寻求帮助的想法.

医生对病人说,你们有选择不痛苦的权利.但是,各位自学的哥们,我们没有选择的权利,学习的过程必然是艰辛痛苦的,程序猿996不是为了谁,真的是因为喜欢,真的是想要进步所以才会996.死在自己喜欢的工作上何尝不是钟享受呢.

不求认同,但是不希望喷子进来,这只是个笔记.

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

(0)
上一篇 2024年7月6日 上午9:00
下一篇 2024年7月6日 上午9:11

相关推荐

  • 项目管理和okr

    项目管理和OKR是在现代组织中非常流行的管理方法,能够帮助组织实现其目标,并提高生产效率。本文将介绍项目管理和OKR的概念,并探讨它们如何应用于实际工作中。 什么是项目管理? 项目…

    科研百科 2024年5月26日
    90
  • 浙江省科技厅科技项目管理中心(浙江省科技计划项目管理系统)

    浙江省科技计划项目管理系统浙江省科技计划项目管理系统制定 世界文化中国科学技术9世界文化浙江省国家工程 10浙江省马克思主义浙江省马克思主义5中国古代世界文明建设5社会经济建设浙江…

    科研百科 2024年5月17日
    150
  • 云审项目管理系统

    云审项目管理系统:提升项目质量的利器 随着云计算技术的不断发展,云审项目管理系统逐渐成为了项目管理领域的新宠。云审项目管理系统不仅能够提高项目的质量,还能够降低项目管理的成本和时间…

    科研百科 2024年12月23日
    1
  • 张家界市基层党建工作优秀实践创新案例:桑植县陈家河镇岩壁村小积分“兑出”共治大能量

    编者按:2022年是张家界市委确定的基层党建工作创新年,全市各基层党组织按照创新年活动方案和创新项目评选方案要求,主动思考、探索创新、积极实践,激发了基层党组织的活力,形成了创新争…

    科研百科 2024年6月27日
    65
  • 凉山州项目管理系统

    凉山州项目管理系统 凉山州位于中国四川省南部,是一个偏远的山区省份。这里自然环境恶劣,资源匮乏,经济和社会发展相对滞后。为了改善凉山州的经济和社会发展,政府推出了一系列政策措施,其…

    科研百科 2024年12月31日
    0
  • 百年IBM:值得全球商界研究的转型变革典范(ibm百年历史)

    百年IBM:值得全球商界研究的转型变革典范(ibm百年历史) 图片来源@视觉中国 文 | 砺石商业评论,策划 | 刘学辉,作者 | 刘国华 划重点: 1.IBM成立于1911年,至…

    科研百科 2024年3月27日
    217
  • 中科院公布23年经费为1708亿,被网友质疑过高, 我咋觉得太少呢-(中科院2020年经费)

    这两天中科院公布了2023年的科研经费,是1708亿元。有博主指出清华才400亿元,中科院做了哪些科研项目?值不值这1708亿元。 而他的言论竟然也获得了很多网友的支持,不少人都在…

    科研百科 2023年10月3日
    127
  • 人事管理的软件

    人事管理的软件 随着企业规模的不断扩大,人事管理成为了企业运营中不可或缺的一部分。传统的手工管理方式已经不能满足现代企业的需求,因此,人事管理的软件成为了一种重要的工具。人事管理的…

    科研百科 2024年9月16日
    25
  • 项目申报的创新类型怎么写

    项目申报的创新类型怎么写 随着科技的不断发展,项目的申报方式也在不断创新。在项目申报中,创新类型已经成为了一个重要的考虑因素。创新类型是指项目在创新性、实用性、可行性等方面的突出表…

    科研百科 2024年11月17日
    4
  • 甘肃科技项目管理系统

    甘肃科技项目管理系统 甘肃科技项目管理系统是一款功能强大、易于使用的软件,旨在帮助甘肃科技项目管理者更好地管理和监控项目进展。该系统集成了多种功能,包括项目计划、预算、进度、风险管…

    科研百科 2024年8月20日
    114