吴伟

V1

2022/05/17阅读:98主题:自定义主题1

分关键词地区爬取百度指数

前言

数据均为作者自己科研所用,现在正整理中逐步上架,许多小萌新碰上的数据难题我基本也碰到过,更多有趣的数据可以扫一扫下方二维码查看作者的小商店,会持续更新有趣的数据。

2381634790675_.pic
2381634790675_.pic

如果有需要定制相关数据(如年报文本分析、百度指数等),也可以直接联系小商店的客服或者关注作者的公众号直接联系作者。谢谢大家支持!

扫码_搜索联合传播样式-白色版
扫码_搜索联合传播样式-白色版

1. 百度指数介绍

随着互联网的普及,特别是微信、微博、抖音等网络社交平台的完善,公众越来越倾向于通过互联网新媒体了解社会信息和实时热点,并且在社交平台表达自己的看法。近年来,国内外的一些学者在研究中开始使用互联网搜索指数构造指标度量公众对社会经济活动的需求和关注程度。在国内文献中,百度指数已经成为实证研究的热门数据来源。比如最近很火的数字经济金融科技等,都可以通过百度指数进行度量。

郑思齐等(2013,管理世界)使用以“环境污染”为关键词的Google搜索指数度量公众环境诉求;李欣等(2017,经济学动态)使用以“大气污染”为关键词的百度搜索网页数量作为公众对环境污染的关注度,并以此度量非正式环境规制的水平;唐松等(2019,金融研究)使用以“污染”为关键词的省份百度指数来度量不同省份居民对环保需求的主观偏好;刘志峰和张婷婷(2020,管理科学学报)使用与彩票相关关键词的百度指数作为投资者彩票偏好的代理变量;盛天翔和范从来(2020,金融研究)利用2011 - 2017 年金融科技相关关键词在各个省份的百度搜索指数,并汇总成金融科技指数。

可见,百度指数可以用来衡量地区内(省级和市级)公众对经济活动的偏好、需求、关注和监督程度,对于实证研究的独特变量构造大有裨益。

百度指数官网:https://index.baidu.com

金融科技的百度指数界面
金融科技的百度指数界面

2. 百度指数爬取难点

虽然我们可以手工收集年度-地区的某关键词相关的搜索指数,但是如此却费时费力;因此,百度指数一般是通过Python爬取获得,但是即使通过Python,也存在以下难点需要攻克,导致有效、批量爬取百度指数的工作量和难度较大。

  1. 百度指数只有日度数据

    因此,如果要爬取一个关键词1年的百度指数,则需要爬取365天的日度指数,如果同时需要区分34个省份(含特别行政区),或者需要区分到城市级别,那爬取的工作量将急剧上升。

  2. 限制单个账号访问频率

    在爬取工作量大的情况下,百度指数同时又限制了单个账号的访问频率,如果单个百度账号访问过于频繁,将被ban掉。因此需要建立一个百度账号池,进行随机爬取。

  3. 数据需要进行解码

    百度指数访问需要一个核心参数,而这个参数是加密的,因此需要进行解码;而且哪怕获取到了相应数据,这个数据也是叠到一块的,需要进行格式化处理,才能形成我们需要的可视化数据。

  4. 反爬措施更新频繁

因此,爬取百度指数学习成本较高,哪怕在提供现成代码的情况下,都很难调试成功。

3. 百度指数代爬服务

因论文需要,学长不得不进行百度指数的爬取,因此花费了大量的时间进行查找资料、调试代码,最终能够按照地区-时间段-关键词爬取百度指数

经学长核对,所爬取的数据与官网数据相同。

因此,如有百度指数的需求,学长可提供有偿代爬服务。

3.1 您需要提供的信息

  1. 关键词(需自行确定是否已被百度指数收录

    确定方法:在百度指数页面进行搜索,如果能够搜索出相应数据,则表明已被收录

  2. 时间区间

    例如:2011年12月31日-2020年12月31日

  3. 数据层级

    全国、省(含特别行政区)还是城市层面的百度搜索指数,具体包含哪些省份或者城市请见:

    百度指数官网:https://index.baidu.com

    右上方可查看地区
    右上方可查看地区

3.2 给到您的数据

默认以多个以地区命名的EXCEL文件(如有特殊需求请提前说明)

以爬取的省级百度指数为例:

数据展示
数据展示

每个EXCEL中的默认数据格式为:关键词-统计口径-日期-百度指数(如有特殊需求请提前说明) 山东省all是PC+移动端;wise是移动端;pc是PC端 以山东.xlsx为例:

数据展示
数据展示

4. 代爬服务计费规则

注意:如果有爬取百度指数的需要,学长提供的是有偿代爬服务

  • 按照关键词数量、爬取的年份和地区层级进行收费。

  • 其中,城市级别爬取工作量和价格远高于省份和全国层级,如非必要省份层面的百度指数足矣

  • 举例:10年,20个关键词,省份层面,价格为200元

PS:以上价格仅为参考,详情请进入微信淡淡杂货店,或者扫码查看商品详情页,联系客服了解价格。多买优惠。

长按进入咨询界面
长按进入咨询界面

5. 参考资料

[1] 郑思齐, 万广华, 孙伟增, 罗党论. 公众诉求与城市环境治理[J]. 管理世界, 2013, (6): 72-84.

[2] 李欣, 杨朝远, 曹建华. 网络舆论有助于缓解雾霾污染吗?——兼论雾霾污染的空间溢出效应[J]. 经济学动态, 2017, (6): 45-57.

[3] 唐松, 施文, 孙安其. 环境污染曝光与公司价值——理论机制与实证检验[J]. 金融研究, 2019, (8): 133-150.

[4] 刘志峰, 张婷婷. 投资者彩票偏好对股票价格行为的影响研究[J]. 管理科学学报, 2020, 23, (3): 89-99.

[5] 盛天翔和范从来. 金融科技、最优银行业市场结构与小微企业信贷供给[J]. 金融研究, 2020, (06): 114-132.

6. 联系学长

数据均为作者自己科研所用,现在正整理中逐步上架,许多小萌新碰上的数据难题我基本也碰到过,更多有趣的数据可以扫一扫下方二维码查看作者的小商店,会持续更新有趣的数据。

2381634790675_.pic
2381634790675_.pic

如果有需要定制相关数据(如年报文本分析、百度指数等),也可以直接联系小商店的客服或者关注作者的公众号直接联系作者。谢谢大家支持!

扫码_搜索联合传播样式-白色版
扫码_搜索联合传播样式-白色版

分类:

后端

标签:

Python

作者介绍

吴伟
V1