当前位置: 首页 > news >正文

【京东评论】数据源——Python提升获取效率▼

这不是我的第一个爬虫,但大多数都是像这样简单粗暴的,因为一开始对于定义函数,然后再相应

相应的操作,是比较困难的,这能直接写for循环语句。

首先,我们要明确我们的目标:从京东上爬取产品的评论。一般评论都是进行情感分析,但我还没进行到那一步,只能先进行相关数据爬取下来。

其次,找到数据源的京东官网首页,然后点击搜索框填入苹果笔记本,假设我们就只爬取第一个搜索结果。

由于可以看到我们的评论是动态的,且可能不断更新,我们便在谷歌网页右键,点击检查,或者审查元素(电脑不一样,说法不一样),就是以下这种界面

点击右上角的network,发现下面是空的,我们刷新页面,network下面就有东西了,但是我们需要评论,直接下拉到评论,网址不会改变,我们可以点击下一页,网址就会变成https://item.jd.com/5225346.html#comment,多了#comment部分,但同时在右边找到了评论所在的JS,具体怎么找呢,我们先点击JS,然后从最下面找,主要看Response,若是在Response里面找到了评论,那就是在那里,然后点击Headers,找到我们需要的URL。

然后,我们便开始进行相应的爬虫第一步:


# 导入必要的包
import requests
import json
header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36"}
# header这个的作用在于伪装成浏览器进行操作,有些网页识别到不是浏览器就不能访问,User-Agent能伪装
# User-Agent可以用不同个,一般在刚刚找网页网址url的Headers的下面就有,当然也可以使用手机的,可网页搜索找到不同的User-Agent,都能进行相应操作
url = 'https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=5225346&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&rid=0&fold=1'
# 我们可以简单的解析这个网址,前面不动,后面的我们点击下一页,看会出现什么改变
#https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=5225346&score=0&sortType=5&page=1&pageSize=10&isShadowSku=0&rid=0&fold=1
# 我们发现只有page在变化,根据这个我们可以进行翻页爬取,我们先进行第一页的操作
# 先向浏览器发送请求
response = requests.get(url, headers=header)
data = response.text
# 由于爬取下来的data太大,就不展示了
jd = json.loads(data.lstrip('fetchJSON_comment98vv12345(').rstrip(');'))
data_list = jd['comments']
for data in data_list:buyer_id = data['id']content = data['content']time = data['creationTime']
out[1]:
13698518291 19年的愿望终于实现了,买一台MAC电脑,用起来体验真的太棒了,非常流程,开关机超级快,用惯了win的我,习惯了几天,现在可以轻松操作了,电池也非常耐用,可以用8小时以上不成问题,真是工作必备,超级满意! 2020-01-08 16:01:39
13843231135 运行速度:感觉比windows 快,蛮顺畅
屏幕效果:屏幕色彩真的是非常棒,真的无与伦比!!
散热性能:不太懂,但感觉可以,没感觉到发热。
外形外观:看超来超薄,充满立体感
轻薄程度:感觉很薄,但能感觉出的分量充满安全感
其他特色:音效是真的很立体很不错!!!! 2020-02-26 15:20:21
13633612626 双十二买的,没什么太大优惠,观望了很久最后决定在东东家买,不为别的,就为了多花几百块买个放心!
第一次使用苹果电脑先说下感受吧!
电脑稳稳的是正品原装,检查了电池使用次数和外观,也查了序列号确认已安全下车。
开机十秒以内,运行比较流畅,打开多个文档会卡顿数秒。
屏幕分辨率很多人说不行,我觉得很清晰啊,因人而异吧!
喇叭音质也不错,散热的话没有运行大的软件不会很热,操作系统之前在苹果实体店也摸索的差不多了,所以买完直接就上手了,主要用于工作和看看电影吧,除了内存小没别的问题。
最后再说一点,这款电脑不论配置和性价比都适合mac os系统刚入门的小白使用,这款电脑也是苹果笔记本最后一款logo带灯的,也是最后一款带两个独立的usb接口,省去了再去买转换接口的麻烦。
就说这么多,觉得我的评论帮到你的话就给点个赞吧! 2019-12-22 17:14:31
13653768641 做工太精美了 用料考究 超薄 设计 运行速度超快没有别的系统笔记本往外蹦弹窗的烦恼  散热性能也很好 屏幕色彩太逼真 大写的一个牛? 2019-12-27 20:56:28
13904519460 运行速度:运行速度很快   没有卡涩的问题  
屏幕效果:色彩很好  高端大气上档次  
散热性能:散热不错  温度基本没有上升
外形外观:外观很漂亮  很薄  金色的  颜值很不错  
轻薄程度:很薄的  
其他特色:物流很快   用起来很顺手  就是有点用着不习惯  做工精细  质量没得说 2020-03-12 03:12:30
13846695349 昨天买的。今天到的
运行速度:挺快的。手感也好
屏幕效果:屏幕效果也挺好。
散热性能:开了不到三小时不热。挺好
外形外观:非常高
轻薄程度:很薄
其他特色:客服很耐心,很开心的购买体验。一开始以为会有很多毛病。看看后续问题。 2020-02-27 13:21:39
13983041809 book air隔天就到了。喜欢。苹果的用不习惯不太懂,客服非常好,很多不懂的问她们麻烦她们了嘿嘿。??好是好 费钱也是费钱。包装很紧实。办公工作用以及影音的。不打游戏。内存还行。在win系统电脑徘徊很久还是想了想冲苹果的了。喜欢苹果的设计。害。这该死的甜美。真香!然后买了是七天内4.1就降价了几十块。问了客服可以申请退差价的。然后就退了。害。能省则省。?真香,满满的安全感。加油赚钱! 2020-04-01 14:59:46
13832297459 运行速度:比较快,后期还要用久了才看得到出来。
屏幕效果:比旧款好太多,缩短了边,屏幕看起来更清晰明了。
散热性能:一般办公看电视没问题,这个还得看后期使用效果。
外形外观:这个没的说,银色外表很好看,没选灰色金色就是因为还是银色经典色好看,不会腻。
轻薄程度:很薄很薄,我发的有图,这个确实在笔记本电脑中算外观好看的。手感摸起来也舒适。贵有它的道理。客观评价。
其他特色:收到货后,亲们请第一时间当着京东小哥的面拆封,确认能开机,屏幕无破损,再收货,贵的东西要检查好,有啥问题可以当京东小哥哥面直接退货喔。不过我这个收到都检查了,所有都是完好无损的。非常好。当天买的,第二天就到货了,在疫情这么严峻的时刻,京东真的物流非常给力。 2020-02-23 19:02:32
13815988120 试用了速度挺快的,屏幕效果真心不错,外观一如既往的喜欢,目前感觉散热性能比较好,深空灰颜色还是比较大气的,mac 系统使用起来蛮顺手,最主要是安全性高,后续试用中有进一步发现再来加评。
另:京东物流速度很快,特殊期送货还是很积极,谢谢快递小哥,辛苦了。 2020-02-19 11:44:11
13818632332 京東自營の快遞速度很快!
运行速度:竟是蘋果的產品,運行速度肯定超快! 
屏幕效果:畢竟是蘋果的產品,屏幕效果也一級棒!
散热性能:畢竟是蘋果的產品,散熱性能也是很好滴!
外形外观:畢竟是蘋果的產品,玫瑰金尤其的好看哈!
轻薄程度:畢竟是蘋果的產品,真的是太輕太薄咯啦! 2020-02-20 02:48:35

这样,简单的一页评论10条就爬取下来了,若是要翻页爬取的话,可以写一个循环,先写一个爬取10页的:


for page in range(0,10+1):url = 'https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=5225346&score=0&sortType=5&page={}&pageSize=10&isShadowSku=0&rid=0&fold=1'.format(page) response = requests.get(url, headers=header) data = response.text  jd = json.loads(data.lstrip('fetchJSON_comment98vv12345(').rstrip(');')) data_list = jd['comments'] for data in data_list:      buyer_id = data['id']      content = data['content']      time = data['creationTime']

这样我们就能获取苹果笔记本第一个产品的前100条评论。

注意:我们在获取网页响应时,网页编码是比较麻烦的,一般的如果是utf-8,我们就用text,若是乱码,可以用content,获得原始网页,然后为了显示正常,可以解码content.decode('gbk'),解码还是看源码是什么格式的。

当然,我只是简单是爬取了三种属性,大家可以爬取热评词,好评数等等。还可以继续增加页数,或者增加产品数,可以一直用for循环,虽然没有函数简单,但是很清楚。最后的目标就是输入关键词、开始页、终止页,输出相关的属性,比如产品的价格,产品的好评数等等。类似于下图:

这是比较笨的循环方法,我之前比较喜欢,简单粗暴,但为了代码美观,我还是换了函数类的,可以爬取知网信息。之后有时间会继续介绍。

补充说明:这篇文章主要是因为评论是以JS的格式保存在网页中,因此我们需要慢慢找到相应的JS网页。后期有时间,会进一步实现价格、评论爬取等等。

相关文章:

【京东评论】数据源——Python提升获取效率▼

这不是我的第一个爬虫,但大多数都是像这样简单粗暴的,因为一开始对于定义函数,然后再相应 相应的操作,是比较困难的,这能直接写for循环语句。 首先,我们要明确我们的目标:从京东上爬取产品的评…...

Java大厂面试题第2季

一、本课程前提要求和说明 面试题1: 面试题2: 面试题3: 面试题4: 面试题5: 高频最多的常见笔试面试题目 ArrayList HashMap 底层是什么东东 JVM/GC 多线程与高并发 java集合类...

探索无限可能性——微软 Visio 2021 改变您的思维方式

在当今信息化时代,信息流动和数据处理已经成为各行各业的关键。微软 Visio 2021 作为领先的流程图和图表软件,帮助用户以直观、动态的方式呈现信息和数据,从而提高工作效率,优化业务流程。本文将介绍 Visio 2021 的特色功能及其在…...

Linux CFS调度器之周期性调度器scheduler_tick函数

文章目录 前言一、简介二、源码分析2.1 scheduler_tick2.2 task_tick2.3 entity_tick2.4 check_preempt_tick2.5 resched_curr 参考资料 前言 Linux内核调度器主要是主调度器和周期性调度器,主调度器请参考:Linux 进程调度之schdule主调度器 一、简介 …...

git生成密钥(免密)

生成SSH密钥对的方法如下: 打开Git Bash。 输入以下命令生成新的SSH密钥对: ssh-keygen -t rsa -b 4096 -C "your_emailexample.com" 这里的 -C 参数后面跟的是你的邮箱地址,通常用于标识这个密钥。 当系统提示你“Enter a fil…...

山东大学软件学院2021级编译原理回忆版

一、判断题 1、正则文法可以表示一般的高级程序语言,构成其语法成分和生成句子() 2、NFA的状态和符号有且只有一条边,因此看起来更直观() 3、DFA无法表示这样的语言{anbn,n>1}() …...

为什么都说视频号小店值得做,具体该怎么做?新手必学

大家好,我是电商花花。 所有人都在告诉你2024年应该做视频号小店,但没有人告诉你到底应该怎么做。 今天给大家说一下为什么2024年都推荐大家去做视频号小店,以及分享一些视频号小店的实操干货,可以帮助大家更快更稳的做店。 首先…...

网络安全岗秋招面试题及面试经验分享

Hello,各位小伙伴,我作为一名网络安全工程师曾经在秋招中斩获🔟个offer🌼,并在国内知名互联网公司任职过的职场老油条,希望可以将我的面试的网络安全大厂面试题和好运分享给大家~ 转眼2024年秋招又快到了金…...

如何实现一个AI聊天功能

最近公司的网站上需要对接一个AI聊天功能,领导把这个任务分给了我,从最初的调研,学习,中间也踩过一些坑,碰到过问题,但最后对接成功,还是挺有成就感的,今天把这个历程和项目整理一下…...

实战16:基于apriori关联挖掘FP-growth算法挖掘关联规则的手机销售分析-代码+数据

直接看视频演示: 基于apriori关联挖掘关联规则的手机销售分析与优化策略 直接看结果: 这是数据展示: 挖掘结果展示: 数据分析展示:...

Linux基础指令及其作用之系统信息和管理

系统信息和管理 ps ps 命令用于显示当前系统的进程信息。它是 Unix 和类 Unix 操作系统中的一个重要工具,可以用于监控和管理系统进程。以下是 ps 命令的详细用法和常见选项: ps [选项]常用选项![在这里插入图片描述](https://img-blog.csdnimg.cn/di…...

FinRobot:一个由大型语言模型(LLM)支持的新型开源AI Agent平台,支持多个金融专业AI Agent

财务分析一直是解读市场趋势、预测经济结果和提供投资策略的关键。这一领域传统上依赖数据,但随着时间的推移,越来越多地使用人工智能(AI)和算法方法来处理日益增长的复杂数据。AI在金融领域的作用显著增强,它自动化了…...

【SQL学习进阶】从入门到高级应用(七)

文章目录 ✨数据处理函数✨if函数✨cast函数✨加密函数 ✨分组函数✨max✨min✨avg✨sum✨count✨分组函数组合使用✨分组函数注意事项 ✨分组查询✨group by✨having✨组内排序 ✨总结单表的DQL语句 🌈你好呀!我是 山顶风景独好 💕欢迎来到我…...

20231911 2023-2024-2 《网络攻防实践》实践十一报告

实践内容 (1)web浏览器渗透攻击 任务:使用攻击机和Windows靶机进行浏览器渗透攻击实验,体验网页木马构造及实施浏览器攻击的实际过程。 实验步骤: ①选择使用Metasploit中的MS06-014渗透攻击模块②选择PAYLOAD为任意…...

5G专网驻网失败分析(suci无效)

suci 5G终端第一次驻网时,注册消息Registartion request中携带的5GS mobile identity要携带suci类型的mobile identity。 注册消息协议规范见5G NAS 协议3gpp TS24.501 8.2.6 Registration request。 suci协议规范参见3gpp TS24.501 9.11.3.4 5GS mobile identity …...

【PHP项目实战训练】——laravel框架的实战项目中可以做模板的增删查改功能(1)

👨‍💻个人主页:开发者-曼亿点 👨‍💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍💻 本文由 曼亿点 原创 👨‍💻 收录于专栏&#xff1a…...

go语言使用model Gorm MySQL查询数据 定时十分钟查询一次 查询十分钟前新建的数据

在Go语言中,使用GORM库与MySQL数据库交互并定时查询数据是常见的需求。以下是一个基本的示例,展示了如何设置定时任务,并使用GORM查询十分钟前新建的数据: 首先,你需要安装GORM和MySQL驱动: bash go get -…...

透视AI技术:探索折射技术在去衣应用中的奥秘

引言: 随着人工智能技术的飞速发展,其在图像处理和计算机视觉领域的应用日益广泛。其中,AI去衣技术作为一种颇具争议的应用,引发了广泛的讨论和关注。本文将深入探讨折射技术在AI去衣中的应用及其背后的原理。 一、AI去衣技术简介…...

计算机网络工程师需要掌握的知识点

网络基础 网络协议OSI参考模型TCP/IP 体系结构广域网与接入网技术:HDLC、PPP。xDSL、HFCIEEE802标准、以太网技术。网桥、交换机、无线局域网(WLAN)、VLAN、TRUNK、GVRP、STP、综合布线系统IP地址、子网划分、CIDR、ARP、ICMP、IPV6、TCP、UD…...

Java-Collection家族(List接口)

集合-Collection家族-List接口 List接口 1 特点 ​ 有序且可重复(因为List接口中添加了许多针对下标操作的方法) 2 四种实现类的数据类型与特点 ​ a. ArrayList ​ 数据结构:一维数组 ​ 特点:存储数据 ​ b. LinkedList ​ 数…...

第19节 Node.js Express 框架

Express 是一个为Node.js设计的web开发框架,它基于nodejs平台。 Express 简介 Express是一个简洁而灵活的node.js Web应用框架, 提供了一系列强大特性帮助你创建各种Web应用,和丰富的HTTP工具。 使用Express可以快速地搭建一个完整功能的网站。 Expre…...

STM32+rt-thread判断是否联网

一、根据NETDEV_FLAG_INTERNET_UP位判断 static bool is_conncected(void) {struct netdev *dev RT_NULL;dev netdev_get_first_by_flags(NETDEV_FLAG_INTERNET_UP);if (dev RT_NULL){printf("wait netdev internet up...");return false;}else{printf("loc…...

DIY|Mac 搭建 ESP-IDF 开发环境及编译小智 AI

前一阵子在百度 AI 开发者大会上,看到基于小智 AI DIY 玩具的演示,感觉有点意思,想着自己也来试试。 如果只是想烧录现成的固件,乐鑫官方除了提供了 Windows 版本的 Flash 下载工具 之外,还提供了基于网页版的 ESP LA…...

C++ 基础特性深度解析

目录 引言 一、命名空间(namespace) C 中的命名空间​ 与 C 语言的对比​ 二、缺省参数​ C 中的缺省参数​ 与 C 语言的对比​ 三、引用(reference)​ C 中的引用​ 与 C 语言的对比​ 四、inline(内联函数…...

React---day11

14.4 react-redux第三方库 提供connect、thunk之类的函数 以获取一个banner数据为例子 store: 我们在使用异步的时候理应是要使用中间件的,但是configureStore 已经自动集成了 redux-thunk,注意action里面要返回函数 import { configureS…...

免费数学几何作图web平台

光锐软件免费数学工具,maths,数学制图,数学作图,几何作图,几何,AR开发,AR教育,增强现实,软件公司,XR,MR,VR,虚拟仿真,虚拟现实,混合现实,教育科技产品,职业模拟培训,高保真VR场景,结构互动课件,元宇宙http://xaglare.c…...

【网络安全】开源系统getshell漏洞挖掘

审计过程: 在入口文件admin/index.php中: 用户可以通过m,c,a等参数控制加载的文件和方法,在app/system/entrance.php中存在重点代码: 当M_TYPE system并且M_MODULE include时,会设置常量PATH_OWN_FILE为PATH_APP.M_T…...

日常一水C

多态 言简意赅:就是一个对象面对同一事件时做出的不同反应 而之前的继承中说过,当子类和父类的函数名相同时,会隐藏父类的同名函数转而调用子类的同名函数,如果要调用父类的同名函数,那么就需要对父类进行引用&#…...

深度学习之模型压缩三驾马车:模型剪枝、模型量化、知识蒸馏

一、引言 在深度学习中,我们训练出的神经网络往往非常庞大(比如像 ResNet、YOLOv8、Vision Transformer),虽然精度很高,但“太重”了,运行起来很慢,占用内存大,不适合部署到手机、摄…...

raid存储技术

1. 存储技术概念 数据存储架构是对数据存储方式、存储设备及相关组件的组织和规划,涵盖存储系统的布局、数据存储策略等,它明确数据如何存储、管理与访问,为数据的安全、高效使用提供支撑。 由计算机中一组存储设备、控制部件和管理信息调度的…...