Python爬虫达成,观球的观众速成

作者: 韦德国际1946手机版  发布:2019-05-28

图片 1

图片 2

图片 3

从零开端的Python爬虫速成指南

 

初稿出处: 舞鹤   

还应该有肆天就FIFA World Cup了,作为四个老牌(伪)看球的粉丝,必须求实时关注FIFA World Cup有关音信,领会各样球队动态,那样能力在一批观球的观众中如(大)鱼(吹)得(特)水(吹),招待大家钦慕的目光Python爬虫达成,观球的观众速成。!

还应该有四天就世界杯了,作为三个盛名看球的听众,必须求实时关怀国际足联世界杯有关音信,通晓各样球队动态,那样本事在一批看球的粉丝中如得,接待我们敬慕的眼神!

 

正文首要内容:以最短的时日写二个最简便易行的爬虫,能够抓取论坛的帖子标题和帖子内容。

本文受众:没写过爬虫的萌新。

给我们大快朵颐3个高效理解相关音信的格局:刷论坛!大家来共同做个网易论坛的爬虫吧!

给大家大快朵颐1个神速了然有关信息的主意:刷论坛!大家来共同做个知乎论坛的爬虫吧!

再有肆天就世界杯了,作为一个名牌(伪)看球的客官,必须求实时关切FIFA World Cup有关新闻,理解种种球队动态,这样技术在一群观球的观众中如(大)鱼(吹)得(特)水(吹),招待大家仰慕的眼神!

入门

抓包拿走微博论坛相关帖子内容,逐条显示!

先来察看下网页,展开论坛首页,采取国际足球

给大家享受3个火速通晓相关音信的主意:刷论坛!大家来一起做个搜狐论坛的爬虫吧!

0.企图专门的学业

亟需忧盛危明的东西: Python、scrapy、3个IDE可能随意怎么样文本编辑工具。

先来观看下网页,张开论坛首页,选拔国际足球

图片 4

抓包拿走新浪论坛相关帖子内容,逐条显示!

先来观看下网页,张开论坛首页,选用国际足球

图片 5

 

下一场往下拉,找到FIFA World Cup有关内容

图片 6

 

此间正是我们的目的了,全体相关的资源信息都会在此处显示,用F1二开垦“开荒者工具”然后往下浏览看看数据包

图片 7

 

注意箭头指向的那么些地点!

那正是刚刚浏览的新闻所在的json包,来探望现实数额是何许

图片 8

 

ok,标题、地址、公布时间包涵来自都早就面世了!大家能够直接抓取json数据然后抽出相关内容!

再进来具体音讯页面看看

图片 9

 

具有的文书内容,都在<div class="artical-main-content">这么些标签下的<p></p>标签内,大家得以用xpath直接取div下的有所文件内容!

那边就不一 1表达了,直接上代码,并录个小的GIF图片给我们看看效果

 1 #Q群542110741
 2 # -*- coding:utf-8 -*-
 3 import requests
 4 from lxml import etree
 5 
 6 header = {
 7     'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:60.0) Gecko/20100101 Firefox/60.0',
 8     'Host':'soccer.hupu.com',
 9     'Referer':'https://soccer.hupu.com/'}
10 i = 0
11 while 1:
12     #构建循环页面翻页
13     url = 'https://soccer.hupu.com/home/latest-news?league=世界杯&page='
14     i  = 1
15     #获取json数据,一页20个
16     html = requests.get(url str(i),headers=header).json()['result']
17     for info in html:
18         time_r = info['time']#发布时间
19         title = info['title']#标题
20         url_r = info['url']#新闻链接
21         origin = info['origin']#来源
22         print(title)
23         print('发布时间:',time_r,' '*5,'来自:',origin)
24         head = header
25         head['Host'] = 'voice.hupu.com'#更改header中Host参数
26         html_r = requests.get(url_r,headers=head)#获取新闻详情
27         html_r.encoding = 'utf-8'#编码格式指定
28         #获取div下的所有文本
29         datas = etree.HTML(html_r.text).xpath('//div[@class="artical-content-read"]')[0].xpath('string(.)').strip()
30         print('n' '内容:' 'n'*2,datas,'n')
31         #可由用户手动退出循环
32         if input('任意键继续,“q”退出') in ['q', 'Q']:
33             exit()

图片 10

 

近来我们得以愉悦的刷刷论坛,积攒最新音讯,秒杀全数挡在大家前(装)进(B)道路上的渣渣吧~!

图片 11

 

招待我们关注,私信笔者联合读书,一同看球!

1.本领部已经探讨决定了,你来写爬虫。

随意建贰个干活目录,然后用命令行营造八个工程,工程名称为miao,能够轮换为您欣赏的名字。

scrapy startproject miao

跟着你会收获如下的3个由scrapy创造的目录结构

在spiders文件夹中创设3个python文件,比如miao.py,来作为爬虫的本子。
内容如下:

import scrapy


class NgaSpider(scrapy.Spider):
    name = "NgaSpider"
    host = "http://bbs.ngacn.cc/"
    # start_urls是我们准备爬的初始页
    start_urls = [
        "http://bbs.ngacn.cc/thread.php?fid=406",
    ]

    # 这个是解析函数,如果不特别指明的话,scrapy抓回来的页面会由这个函数进行解析。
    # 对页面的处理和分析工作都在此进行,这个示例里我们只是简单地把页面内容打印出来。
    def parse(self, response):
        print response.body

图片 12

下一场往下拉,找到国际足联世杯(FIFA-World-Cup)有关内容

2.跑一个一触即发?

假如用命令行的话就像此:

cd miao
scrapy crawl NgaSpider

你能够看看爬虫君已经把您坛星际区第一页打字与印刷出来了,当然由于尚未其他管理,所以混杂着html标签和js脚本都1并打印出来了。

本文由韦德国际1946发布于韦德国际1946手机版,转载请注明出处:Python爬虫达成,观球的观众速成

关键词: 爬虫 世界杯 看我 1946伟德国际