哼哼朱

V1

2022/06/24阅读:43主题:默认主题

利用python自动爬取济南市统计局官网数据

#一、查找网站

##(一)打开济南市统计局官网(http://jntj.jinan.gov.cn/col/col18253/index.html) ##(二)打开“2021年全年数据”链接 ##(三)随便找到一个表格,右键点击检查 ##(四)数据请求方式为get,网页编写方式为html,表格格式为(table)标签 #二、编写代码

##(一)导入需要用到的库

import pandas as pd # 存入数据
import requests # 发送请求

##(二)定义目标网址

url = 'http://jntj.jinan.gov.cn/art/2022/2/7/art_18279_4745121.html'  # 目标网址

##(三)定义一个请求头,并发送请求

header = {  # 请求头
   'User-Agent''Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Mobile Safari/537.36', }
r = requests.get(url, headers=header)  # 发送请求

##(四)读取请求返回的页面内容

df = pd.read_html(r.content)  
table_count = len(df)
print('共检测到{}个表格数据!'.format(table_count))

##(五)存入数据

with pd.ExcelWriter('data.xlsx') as writer:
   for i in range(2, table_count - 1):  # 第0、1、-1个表格不是需要的,所有从第2个开始
      df[i].to_excel(writer, sheet_name=str(i), index=False, header=False)
      print('已保存完成:第{}个表格'.format(str(i)))

#三、全套代码如下

import pandas as pd # 存入数据
import requests # 发送请求
url = 'http://jntj.jinan.gov.cn/art/2022/2/7/art_18279_4745121.html'  # 目标网址
header = {  # 请求头
   'User-Agent''Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Mobile Safari/537.36', }
r = requests.get(url, headers=header)  # 发送请求
df = pd.read_html(r.content)
table_count = len(df)
print('共检测到{}个表格数据!'.format(table_count))
with pd.ExcelWriter('data.xlsx') as writer:
   for i in range(2, table_count - 1):  # 第0、1、-1个表格不是需要的,所有从第2个开始
      df[i].to_excel(writer, sheet_name=str(i), index=False, header=False)
      print('已保存完成:第{}个表格'.format(str(i)))

#四、点击运行 #五、在excel中查看导出的数据 #六、共有21个表格,全部导出成功,仅挑选两个作为示例

分类:

后端

标签:

Python

作者介绍

哼哼朱
V1