使用requests加beautifulsoup,抓取网页,结果soup.find_all("t

onwatch
主食不吃米饭 09月03日 字数 83

raise_for_status也是200.但是在find_all某个tag的时候,取出来是空的。

这是怎么回事呢。

Python Python的自由天空
41 个回复
lazyfintech
lazyfintech 09月03日

看看其它tag能不能抓到东西

发自「今日水木 on BLN-AL10」

【 在 onwatch 的大作中提到: 】

: raise_for_status也是200.但是在find_all某个tag的时候,取出来是空的。

: 这是怎么回事呢。

: --

freesand
freesand 09月03日

查看获取到的HTML源码,没有的话应该是JS渲染的结果,不能用requests而要用selenium之类

onwatch
主食不吃米饭 09月03日

有点tag可以

发自「今日水木 on iPhone XS」

【 在 lazyfintech 的大作中提到: 】

: 看看其它tag能不能抓到东西

: 发自「今日水木 on BLN-AL10」

: --

onwatch
主食不吃米饭 09月03日

能看到一部分好像我要找的几个数据都查不到

发自「今日水木 on iPhone XS」

【 在 freesand 的大作中提到: 】

: 查看获取到的HTML源码,没有的话应该是JS渲染的结果,不能用requests而要用selenium之类

: --

onwatch
主食不吃米饭 09月03日

是这个网站,我想把内容爬取下来。结果find all里面的tag结果都是空的。

https://www.balticshipping.com/vessel/imo/9214331

【 在 freesand 的大作中提到: 】

: 查看获取到的HTML源码,没有的话应该是JS渲染的结果,不能用requests而要用selenium之类

fhd
独钓寒江雪 09月03日

数据都是js加载的,requests拿不到

【 在 onwatch (主食不吃米饭) 的大作中提到: 】

: 是这个网站,我想把内容爬取下来。结果find all里面的tag结果都是空的。

: https://www.balticshipping.com/vessel/imo/9214331

onwatch
主食不吃米饭 09月03日

只有用这种吗 好像selenium学习成本 有点高

【 在 fhd () 的大作中提到: 】

: 数据都是js加载的,requests拿不到

: 【 在 onwatch (主食不吃米饭) 的大作中提到: 】

onwatch
主食不吃米饭 09月04日

用了selenium 果然成功了 不过就是速度太慢太慢了

发自「今日水木 on iPhone XS」

【 在 freesand 的大作中提到: 】

: 查看获取到的HTML源码,没有的话应该是JS渲染的结果,不能用requests而要用selenium之类

: --

misskiss
月华霜重 09月04日

Js加载的网页只能如此吧。现在静态网页越来越少了,爬虫成本也高了。

【 在 onwatch 的大作中提到: 】

: 用了selenium 果然成功了 不过就是速度太慢太慢了

: 【 在 freesand 的大作中提到: 】

: :

: : 查看获取到的HTML源码,没有的话应该是JS渲染的结果,不能用requests而要用selenium之类

lmtudou
我爱吃土豆 09月04日

先把页面抓取保存

自己对比

【 在 onwatch 的大作中提到: 】

: raise_for_status也是200.但是在find_all某个tag的时候,取出来是空的。

: 这是怎么回事呢。

onwatch
主食不吃米饭 09月04日

我用的chromedriver不知道phantom速度能快多少

发自「今日水木 on iPhone XS」

【 在 misskiss 的大作中提到: 】

: Js加载的网页只能如此吧。现在静态网页越来越少了,爬虫成本也高了。

: --

fhd
独钓寒江雪 09月04日

你可以选择分析js找到数据抓取的真实请求url.....

或者找个抓包的找也可以

【 在 onwatch (主食不吃米饭) 的大作中提到: 】

: 只有用这种吗 好像selenium学习成本 有点高

onwatch
主食不吃米饭 09月04日

愿闻其详 有关键词吗 我搜搜攻略

发自「今日水木 on iPhone XS」

【 在 fhd 的大作中提到: 】

: 你可以选择分析js找到数据抓取的真实请求url.....

: 或者找个抓包的找也可以

onwatch
主食不吃米饭 09月04日

我网上看了一个爬取baidu 图片得例子,他是分析了network选项里的xdr的url,可以打开。

但是我要找的网站,也把xdr的url在浏览器打开,结果显示method not allowed

请问下一步怎么搞啊

发自「今日水木 on iPhone XS」

【 在 fhd 的大作中提到: 】

: 你可以选择分析js找到数据抓取的真实请求url.....

: 或者找个抓包的找也可以

fhd
独钓寒江雪 09月04日

抓包看header里面是不是有东西做认证啥的

【 在 onwatch (主食不吃米饭) 的大作中提到: 】

: 我网上看了一个爬取baidu 图片得例子,他是分析了network选项里的xdr的url,可以打开。

: 但是我要找的网站,也把xdr的url在浏览器打开,结果显示method not allowed

: 请问下一步怎么搞啊

: ...................

vwx
)/( 09月04日

他那个网页要post

【 在 fhd (独钓寒江雪) 的大作中提到: 】

: 标  题: Re: 使用requests加beautifulsoup,抓取网页,结果soup.find_al

: 发信站: 水木社区 (Wed Sep  4 11:58:37 2019), 站内

: 抓包看header里面是不是有东西做认证啥的

: 【 在 onwatch (主食不吃米饭) 的大作中提到: 】

: : 我网上看了一个爬取baidu 图片得例子,他是分析了network选项里的xdr的url,可以打开。

: : 但是我要找的网站,也把xdr的url在浏览器打开,结果显示method not allowed

: : 请问下一步怎么搞啊

: : ...................

: --

fhd(天凉

onwatch
主食不吃米饭 09月04日

抓包是看respons.headers吗,如果是。下面是headers信息

{'X-XSS-Protection': '1; mode=block', 'Transfer-Encoding': 'chunked', 'Vary': 'Accept-Encoding', 'Connection': 'keep-alive', 'Access-Control-Expose-Headers': 'X-Access-Token', 'Content-Type': 'text/html; charset=UTF-8', 'X-Frame-Options': 'DENY', 'Access-Control-Allow-Origin': '', 'Strict-Transport-Security': 'max-age=31536000;', 'X-Content-Type-Options': 'nosniff', 'Access-Control-Allow-Methods': 'GET, PUT, POST, OPTIONS, DELETE', 'Server': 'nginx', 'Date': 'Wed, 04 Sep 2019 05:14:30 GMT', 'Content-Encoding': 'gzip', 'Access-Control-Allow-Credentials': 'true', 'Access-Control-Allow-Headers': 'origin, accept, X-Requested-With, X-Access-Token, Content-Type'}

这是有认证的吗。

【 在 fhd 的大作中提到: 】

: 抓包看header里面是不是有东西做认证啥的

fhd
独钓寒江雪 09月04日

这是response的header....

要看request的header和body

【 在 onwatch (主食不吃米饭) 的大作中提到: 】

: 抓包是看respons.headers吗,如果是。下面是headers信息

: {'X-XSS-Protection': '1; mode=block', 'Transfer-Encoding': 'chunked', 'Vary': 'Accept-Encoding', 'Connection': 'keep-alive', 'Access-Control-Expose-Headers': 'X-Access-Token', 'Content-Type': 'text/html; charset=UTF-8', 'X-Frame-Options': 'DENY', 'Ac

: 这是有认证的吗。

: ...................

misskiss
月华霜重 09月04日

快不了多少的。现在的电脑配置开几十个chrome窗口毫无压力。

【 在 onwatch 的大作中提到: 】

: 我用的chromedriver不知道phantom速度能快多少

: 发自「今日水木 on iPhone XS」