900字范文 > Python 抓取动态网页内容方案详解

Python 抓取动态网页内容方案详解

时间：2024-02-08 09:00:55

相关推荐

Python 抓取动态网页内容方案详解

后端开发|Python教程

python,抓取,动态内容

后端开发-Python教程

用Python实现常规的静态网页抓取时，往往是用urllib2来获取整个HTML页面，然后从HTML文件中逐字查找对应的关键字。如下所示：

淘宝培训视频网站源码,vscode如何运行表格,ubuntu 指令压缩,tomcat路由映射文件,l爬虫,php cas 客户端,潜江工厂seo推广价格,二手交易网站后台管理界面模板,导航条菜单模板lzw

复制代码代码如下:

哪些游戏有源码,vscode多行li标签,ubuntu登录超时,安装和启动tomcat,爬虫片源,php合并json,正规seo优化推广运营,上传网站需要什么软件下载,个人订阅号插件模板lzw

import urllib2

url="/json/request_top_list.htm?type=0&page=1"

up=urllib2.urlopen(url)#打开目标页面，存入变量up

cont=up.read()#从up中读入该HTML文件

key1=

key2="target"#设置关键字2

pa=cont.find(key1)#找出关键字1的位置

pt=cont.find(key2,pa)#找出关键字2的位置(从字1后面开始查找)

urlx=cont[pa:pt]#得到关键字1与关键字2之间的内容(即想要的数据)

print urlx

app关于租车的源码,vscode 变量重命名,ubuntu摄像程序,tomcat 中文乱么,客户端远程连接sqlite,网络爬虫引擎搜索是从互联网,php与java知乎,淄博seo网络推广方法,网站二次开发协议,听书模板lzw

但是，在动态页面中，所显示的内容往往不是通过HTML页面呈现的，而是通过调用js等方式从数据库中得到数据，回显到网页上。以发改委网站上的“备案信息”（http://beian./）为例，要抓取此页面中的某些备案项目。例如“http://beian./indexinvestment.jsp?id=162518”。

那么，在浏览器中打开此页面：

相关信息都显示的很全了，但是如果按照之前的办法：

复制代码代码如下:

up=urllib2.urlopen(url)

cont=up.read()

就抓取不到上述内容了。

我们查看一下这个页面对应的源码：

由源码可以看出，这个《备案确认书》属于“填空”形式的，HTML提供文字模板，js根据不同的id提供不同的变量，“填入”到文字模板中，形成了一个具体的《备案确认书》。所以单纯抓取此HTML，只能得到一些文字模板，而无法得到具体内容。

那么，该如何找到那些具体内容呢？可以利用Chrome的“开发者工具”来寻找谁是真正的内容提供者。

打开Chrome浏览器，按下键盘F12即可呼出此工具。如下图：

此时选中“Network”标签，在地址栏中输入此页面“http://beian./indexinvestment.jsp?id=162518”，浏览器会分析出此次响应的全过程，而红框内的文件，就是此次响应中，浏览器和web后端的所有通信。

因为要获得不同企业对应的不同信息，那么浏览器发送给服务器的请求里面一定会有一个和当前企业id有关的参数。