自学爬虫——老马惹不起,简书谢谢你(爬虫怎么自学)

这个爬虫是个通用爬虫,去用心的了解scrapy框架,你就能轻松驾驭

https://github.com/a371057600/python-paChong-

这里是我的不专业的github,不逼逼直接搬来用吧,不推荐重复造轮子,对着代码多读几次就好,除非练手,不然不推荐重新敲,当然,能优化,改到你想要的功能是最好的.

把轮子用到了爬头条上面

我觉得,在头条上面教大家爬头条好像不是太好(虽然,头条也是爬别人的新闻)

头条的反爬方法基本跟微博也是一样,但是不推荐爬微博,因为微博大量的账号和原创内容,估计不登录也不能爬,登陆了就会废号.

本来,计划是爬淘宝的,但是无论怎么爬都会重定向到登录页面,用selemui也没用(实际有用,你只要在爬取的时候登录成为操作就好,但是这就类麻烦了.毕竟淘宝账号很重要的…)所以,最后折中爬了简书,谢谢简书爸爸的教导.

图片描述(最多50字)

from scrapy import signals

from selenium import webdriver

import time

from scrapy.http.response.html import HtmlResponse

class SeleniumDownloadMiddleware(object):

def init(self):

self.driver = webdriver.Chrome(executable_path=r\”C:Workpythonchromedriver.exe\”)

def process_request(self,request,spider):

self.driver.get(request.url)

time.sleep(1)

try:

while True:

showMore = self.driver.find_element_by_class_name(\’show-more\’)

showMore.click()

time.sleep(0.3)

if not showMore:

break

except:

pass

source = self.driver.page_source

response = HtmlResponse(url=self.driver.current_url,body=source,request=request,encoding=\’utf-8\’)

return responsege

大的门户网站你可以爬,爬了之后记得告诉我

获取ajax数据的方式:

直接分析ajax调用的接口。然后通过代码请求这个接口。

使用Selenium chromedriver模拟浏览器行为获取数据。

方式优点缺点分析接口直接可以请求到数据。不需要做一些解析工作。代码量少,性能高。分析接口比较复杂,特别是一些通过js混淆的接口,要有一定的js功底。容易被发现是爬虫。

图片描述(最多50字)

selenium直接模拟浏览器的行为。浏览器能请求到的,使用selenium也能请求到。爬虫更稳定。代码量多。性能低。

PS:本人全部自学,发送到头条也只是作为学习经历,顺便分享经验,没有炫耀和装大佬的意向,反而有互相学习寻求帮助的想法.

医生对病人说,你们有选择不痛苦的权利.但是,各位自学的哥们,我们没有选择的权利,学习的过程必然是艰辛痛苦的,程序猿996不是为了谁,真的是因为喜欢,真的是想要进步所以才会996.死在自己喜欢的工作上何尝不是钟享受呢.

不求认同,但是不希望喷子进来,这只是个笔记.

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

(0)
上一篇 2024年1月17日 上午9:00
下一篇 2024年1月17日 上午9:16

相关推荐

  • 合同管理工作总结

    合同管理工作总结 合同管理工作是企业管理中的重要组成部分,关系到企业的财产安全和声誉损失。本文将从合同管理的目的、流程、方法和技巧等方面进行总结。 一、合同管理的目的 合同管理的目…

    科研百科 2024年8月17日
    38
  • 多项政策支持加力提效,基建投资“淡季不淡”(政府加大基础设施投资拉动经济)

    经济参考报 | 作者 王璐 重大基础设施建设是经济社会发展的重要支撑,在扩大有效投资、助力稳住经济大盘中发挥着关键支撑作用。一季度本是基建开工的传统淡季,今年在多项政策支持加力提效…

    科研百科 2023年8月3日
    144
  • 安徽省检察院名单

    安徽省检察院名单 安徽省检察院是安徽省人民检察院的简称,成立于1948年,是安徽省最重要的司法机关之一。根据2021年12月院官网显示,安徽省检察院共有80个检察官岗位,其中员额检…

    科研百科 2024年10月18日
    0
  • 划重点!2022年,湖北基层党建工作这样干(2020年湖北省党建工作要点)

    3月8日下午,全省基层党建工作重点任务推进会在汉召开。会议主要细化部署年度重点任务,研究破解基层党建难题,以优异成绩迎接党的二十大和省第十二次党代会胜利召开。 此次会议,涉及哪些重…

    科研百科 2024年5月30日
    135
  • 多个微信一招实现同时管理(多个微信怎么统一管理)

    多个微信一招实现同时管理(多个微信怎么统一管理) 1、不用下载安装软件、插件2、不绑定手机或电脑,不对电脑、手机做限制,也不受电脑、手机关闭、关机的影响3、不越狱不刷机4、使用安全…

    科研百科 2024年3月25日
    113
  • 档案管理具体流程

    档案管理具体流程 档案管理是一个企业或组织中非常重要的一部分,它的目的是保存和管理公司的文档、文件、资料等。以下是档案管理的具体流程: 1. 建立档案室首先需要建立一个档案室,该室…

    科研百科 2024年9月24日
    17
  • 绵阳市项目管理系统

    绵阳市项目管理系统 随着现代商业的发展,项目管理已经成为了企业成功的关键因素之一。而绵阳作为一个经济飞速发展的城市,也意识到了项目管理的重要性,因此推出了一款名为“绵阳市项目管理系…

    科研百科 2024年12月12日
    0
  • 2024年度一级建造师职业资格考试工作的通知鄂人社考〔2024〕10号

    鄂人社考〔2024〕10号 关于2024年度一级建造师职业资格 考试工作的通知 各市、州、直管市、神农架林区人力资源和社会保障局、住房和城乡建设局,省直有关部门、企事业单位: 根据…

    科研百科 2024年6月11日
    114
  • 项目时间管理的重大意义

    项目时间管理的重要性 项目时间管理对于项目的成功与否至关重要。合理的时间分配可以帮助项目团队更好地利用时间,提高工作效率,减少时间浪费,从而确保项目能够按时完成并达到高质量标准。本…

    科研百科 2024年9月27日
    25
  • 科研后补助项目的费用支出怎样入账呢

    科研后补助项目的费用支出怎样入账呢 随着科技的不断发展,科研领域也在不断涌现出新的成果。为了支持科学家们进行科研工作,政府经常会提供科研后补助项目,以帮助科学家们缓解科研经费的压力…

    科研百科 2024年10月26日
    0