当前位置：首页 > Python教程 > Python爬虫亚马逊网页的爬取

Python爬虫亚马逊网页的爬取

3年前 (2023-08-21)Python教程930

今天初步学习了python的爬虫，但是再练习过程中，对亚马逊商品网页的爬/取总是出现问题，可以看出亚马逊的反爬虫机制做的还是很好的。我通过不断尝试终于爬取到页面信息。
把经验分享给大家：
首先我用requests库的get方法爬取，发现状态码为503

1
2
3
4
5
6

import requests

url="https://www.amazon.cn/gp/product/B01M8L5Z3Y"

r=requests.get(url)
print(r.status_code)

在这里插入图片描述
说明没有爬取到，然后我通过对头部信息的修改伪装成浏览器：

1
2
3
4
5
6
7
8
9
10
11

import requests

kv = {"user-agent": "Mozilla/5.0"}
url="https://www.amazon.cn/gp/product/B01M8L5Z3Y"
try:
r=requests.get(url,headers=kv)
r.raise_for_status()
r.encoding=r.apparent_encoding
print(r.text[:1000])
except:
print("爬取失败")

1	但是这次结果爬取到的并不是想要的结果，还是被服务器判断为自动程序：

在这里插入图片描述
然后根据提示，加入了cookie的相关部分：

最终代码如下：

1
2
3
4
5
6
7
8
9
10
11
12
13

import requests
from bs4 import BeautifulSoup
kv = {"user-agent": "Mozilla/5.0"}
cookie = {
"cisession":"19dfd70a27ec0eecf1fe3fc2e48b7f91c7c83c60",
"CNZZDATA100020196":"1815846425-1478580135-https%253A%252F%252Fwww.baidu.com%252F%7C1483922031",
"Hm_lvt_f805f7762a9a237a0deac37015e9f6d9":"1482722012,1483926313",
"Hm_lpvt_f805f7762a9a237a0deac37015e9f6d9":"1483926368"
}
url = 'https://www.amazon.cn/gp/product/B01M8L5Z3Y'
r = requests.get(url,cookies=cookie,headers=kv)
r.encoding = r.apparent_encoding
print(r.text[:1000000])

最终爬到数据：

在这里插入图片描述
只是初学者，爬取的数据还有许多其他代码，数据比较繁多，在以后继续学习后，我会继续更新优质的爬虫，便于读取数据。

扫描二维码推送至手机访问。

欢迎转载或分享本篇文章。

本文链接：https://www.jcba123.com/article/256

标签: Python爬虫

分享给朋友：

返回列表

上一篇：使用python爬取网站数据并写入到excel中

下一篇：如何使用Python进行亚马逊数据采集

“Python爬虫亚马逊网页的爬取” 的相关文章

如何运行Python程序？

Python 是一种解释型的脚本编程语言，这样的编程语言一般支持两种代码运行方式： 1) 交互式编程在命令行窗口中直接输入代码，按下回车键就可以运行代码，并立即看到输出结果；执行完一行代码，你还可以继续输入下一行代码，再次回车并查看结果……整个过程就好像我们在和计算机对话，所以称为交互式编程。...

macOS怎么安装Python3? mac环境下安装python3的图文教程

Python 是一种功能多样且强大的编程语言，在各个领域得到广泛应用。许多 Mac 用户都在其设备上安装和运行 Python，以运行特定的应用程序或创建、运行自己的 Python 脚本。虽然某些版本的 macOS 预装了较旧版本的 Python，但您可能需要安装更新的版本。本文将介绍...

Python爬虫亚马逊网页的爬取

最终代码如下：

“Python爬虫亚马逊网页的爬取” 的相关文章

如何运行Python程序？

macOS怎么安装Python3? mac环境下安装python3的图文教程

发表评论

文章排行 | 文章归档 | 读者墙 | 标签列表 | 联系我们 | 网站地图 | 51LA统计
Copyright © 2025 www.jcba123.com Rights Reserved.

Python爬虫 亚马逊网页的爬取

最终代码如下：

“Python爬虫 亚马逊网页的爬取” 的相关文章

如何运行Python程序？

macOS怎么安装Python3? mac环境下安装python3的图文教程

发表评论取消回复

文章排行 | 文章归档 | 读者墙 | 标签列表 | 联系我们 | 网站地图 | 51LA统计Copyright © 2025 www.jcba123.com Rights Reserved.

Python爬虫亚马逊网页的爬取

“Python爬虫亚马逊网页的爬取” 的相关文章

发表评论

文章排行 | 文章归档 | 读者墙 | 标签列表 | 联系我们 | 网站地图 | 51LA统计
Copyright © 2025 www.jcba123.com Rights Reserved.