推荐专题：

900字范文 > python 点击按钮采集图片_python多线程采集图片

python 点击按钮采集图片_python多线程采集图片

时间：2022-03-31 01:48:02

相关推荐

python 点击按钮采集图片_python多线程采集图片

cmd中运行

>python untitled2.py 图片的网站

import requests

import threading

from bs4 import BeautifulSoup

import sys

import os

if len(sys.argv) != 2:

print("Usage : " )

print(" python main.py [URL]" )

exit(1)

# config-start

url = sys.argv[1]

threadNumber = 20

# 设置线程数 # config-end

def getContent(url):

try:

response = requests.get(url)

response.raise_for_status()

response.encoding = response.apparent_encoding

return response.text

except Exception as e:

print(e)

return str(e)

def getTitle(soup):

try:

return soup.title.string

except:

return "UnTitled"

def getImageLinks(soup):

imgs = soup.findAll("img")

result = []

for img in imgs:

try:

src = img['src']

if src.startswith("http"):

result.append(img['src'])

else:

result.append(domain + img['src'])

except:

continue

return result

def makeDirectory(dicName):

if not os.path.exists(dicName):

os.mkdir(dicName)

def downloadImage(imgUrl,savePath):

local_filename = imgUrl.split('/')[-1]

local_filename = formatFileName(local_filename)

r = requests.get(imgUrl, stream=True)

counter = 0

if not savePath.endswith("/"):

savePath += "/"

f = open(savePath + local_filename, 'wb')

for chunk in r.iter_content(chunk_size=1024):

if chunk:

f.write(chunk)

f.flush()

counter += 1

f.close()

def formatFileName(fileName):

fileName = fileName.replace("/","_")

fileName = fileName.replace("\\","_")

fileName = fileName.replace(":","_")

fileName = fileName.replace("*","_")

fileName = fileName.replace("?","_")

fileName = fileName.replace("\"","_")

fileName = fileName.replace(">","_")

fileName = fileName.replace("

fileName = fileName.replace("|","_")

fileName = fileName.replace(" ","_")

return fileName

def threadFunction(imgSrc,directoryName):

downloadImage(imgSrc,directoryName)

class myThread (threading.Thread):

def __init__(self, imgSrc, directoryName):

threading.Thread.__init__(self)

self.imgSrc = imgSrc

self.directoryName = directoryName

def run(self):

threadFunction(self.imgSrc, self.directoryName)

def getPrefix(url):

# http://doamin/xxx.jpg

return ''.join(i+"/" for i in url.split("/")[0:4])

def getDomain(url):

return ''.join(i+"/" for i in url.split("/")[0:3])

content = getContent(url)

prefix = getPrefix(url)

domain = getDomain(url)

soup = BeautifulSoup(content, "html.parser")

images = getImageLinks(soup)

title = getTitle(soup)

title = formatFileName(title)

print(u"页面标题 : " , title )

print(u"本页图片数量 :",len(images))

print(u"正在创建文件夹以用来保存所有图片")

makeDirectory(title)

threads = []

for image in images:

print(u"图片地址 : " + image)

threads.append(myThread(image, title))

for t in threads:

t.start()

while True:

if(len(threading.enumerate()) < threadNumber):

break

print(u"所有图片已加入下载队列 ! 正在下载...")

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。

相关阅读

java点击按钮结线程_多线程的Java应用程序在调试工具Netbeans中单击“停止”按钮时输

2019-11-28

PHP多线程批量采集上载图片

2021-08-01

python多线程url采集器 + github_python实现多线程采集的2个代码例子

2024-05-11

winform采集网站美女图片程序---多线程篇

2023-07-06

扩展阅读

: Python那些事——60行Python代码实现多线程PDF转Word

: Python入门基础之socket多线程编程 TCP服务器和客户端通信

: 多线程下载怎么下载？6款常用的多线程下载器推荐

: 原来华为手机这么好用！点击这个按钮就能将录音文件转为文字

: 你还在用浏览器翻译？华为手机点击这个神奇按钮一键实时翻译

: 其实华为手机点击这个按钮就能拍出带文字照片！30秒即可实现

最近发布

挫折的启示：从失败中汲取的智慧

2024-07-16

探索90后思想的深度：900字议论文走近

2024-07-16

青年节的意义与庆祝活动

2024-07-16

探讨读书对人生的影响：900字范文

2024-07-16

探索无限可能：高三想象作文900字梦境空间

2024-07-15

沂山之恋：浓浓的乡愁与岁月痕迹

2024-07-15

推荐专题

这就是我900字难忘的那一刻作文900字写景作文900字春游作文900字妈妈我想对你说900字童年趣事作文900字作文900字上课说话检讨书900字老师我想对你说900字周记900字初中作文我的母亲作文900字感恩的作文900字照片里的故事作文900字我和体育900字作文逐梦路上作文900字