900字范文,内容丰富有趣,生活中的好帮手!
900字范文 > 天眼查数据采集 分析 深度挖掘

天眼查数据采集 分析 深度挖掘

时间:2023-06-16 15:11:35

相关推荐

天眼查数据采集 分析 深度挖掘

天眼查数据采集与分析

1、天眼查是什么

天眼查是由商业查询平台,在基于独有核心技术图数据库的基础上, 构建了完备的集数据采集、数据清洗、数据聚合、数据建模、数据产品化为一体的大数据解决方案。 秉持“让每个人公平地看清这个世界”的使命,坚持采用公开等数据,天眼查系列产品不仅可以可视化呈现复杂的商业关系, 还可以深度挖掘和分析相关数据,预警风险等。 作为“商业安全工具”,天眼查收录了2.8亿家社会实体信息(含企业、事业单位、基金会、学校、律所等), 300多种维度信息批量实时更新,实现了从洞察风险到预警风险的全方位把控,针对个人、企业、政府都有相应的解决方案。

2、天眼查数据如何采集

方法一: 用python的request方法

用python的request方法,直接原生态代码,python感觉是为了爬虫和大数据而生的,我平时做的网络分布式爬虫、图像识别、AI模型都是用python,因为python有很多现存的库直接可以调用,比如您需要做个简单爬虫,比如我想采集天眼查 几行代码就可以搞定了,核心代码如下:

import requests #引用reques库

response=request.get(‘’)#用get模拟请求

print(response.text) #已经采集出来了,也许您会觉好神奇!

方法二、用selenium模拟浏览器

selenium是一个专门采集反爬很厉害的网站经常使用的工具,它主要是可以模拟浏览器去打开访问您需要采集的目标网站了,比如您需要采集天眼查或者企查查或者是淘宝、58、京东等各种商业的网站,那么这种网站服务端做了反爬技术了,如果您还是用python的request.get方法就容易被识别,被封IP。这个时候如果您对数据采集速度要求不太高,比如您一天只是采集几万条数据而已,那么这个工具是非常适合的。我当时在处理商标网时候也是用selenum,后面改用JS逆向了,如果您需要采集几百万几千万怎么办呢?下面的方法就可以用上了。

方法三、用scrapy进行分布式高速采集

Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。scrapy 特点是异步高效分布式爬虫架构,可以开多进程 多线程池进行批量分布式采集。 比如您想采集1000万的数据,您就可以多设置几个结点和线程。Scrapy也有缺点的,它基于 twisted 框架,运行中的 exception 是不会干掉 reactor(反应器),并且异步框架出错后 是不会停掉其他任务的,数据出错后难以察觉。

方法四:用Crawley

Crawley也是python开发出的爬虫框架,该框架致力于改变人们从互联网中提取数据的方式。它是基于Eventlet构建的高速网络爬虫框架、可以将爬取的数据导入为Json、XML格式。支持非关系数据跨、支持使用Cookie登录或访问那些只有登录才可以访问的网页。

方法五:用PySpider

相对于Scrapy框架而言,PySpider框架是一支新秀。它采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器、任务监视器、项目管理器以及结果查看器。 PPySpider的特点是ython脚本控制,可以用任何你喜欢的html解析包,Web界面编写调试脚本、起停脚本、监控执行状态、查看活动历史,并且支持RabbitMQ、Beanstalk、Redis和Kombu作为消息队列。用它做个两个外贸网站采集的项目,感觉还不错。

3、天眼查数据统计分析

截止-10月

数据表 备注 条数

td_gov_company 统一社会信用代码 162606702

td_gov_company_abnormal 经营异常 21886417

td_gov_company_announcementcourt 开庭公告 3241318

td_gov_company_basic 工商注册 150653722

td_gov_company_branch 分支机构 2336817

td_gov_company_certificate 资质证书 4291055

td_gov_company_changerecord 变更记录 130089393

td_gov_company_clients 客户 1246123

td_gov_company_commontaxpayer 一般纳税人 2367969

td_gov_company_copyright 软件著作权 5244735

td_gov_company_directors 主要人员 150279522

td_gov_company_discredit 失信被执行人 884913

td_gov_company_email 邮箱 24083161

td_gov_company_extend 扩展信息 4371708

td_gov_company_firmproduct 企业业务 203395

td_gov_company_icpinfo 网站备案 842407

td_gov_company_importandexport 进出口信用 598564

td_gov_company_invest 对外投资 3423743

td_gov_company_jingpin 竞品信息 1508922

td_gov_company_license 行政许可 26809405

td_gov_company_mark 商标信息 35525766

td_gov_company_microblog 微博 379236

td_gov_company_mobilephone 手机号 52698050

td_gov_company_nianbao 年报 15005094

td_gov_company_patent 专利信息 3584832

td_gov_company_punishment 行政处罚 2093647

td_gov_company_rongzi 融资历程 52027

td_gov_company_shares 股东信息 86800164

td_gov_company_stockfreeze 股权冻结 655378

td_gov_company_supplies 供应商 626045

td_gov_company_taxcredit 税务评级 2593554

td_gov_company_telephone 固定电话 13179293

td_gov_company_wechatoa 公众号 271767

td_gov_company_workright 作品著作权 6152970

样图:

链接:/s/1fluTfgFlNZZatXXMpIRu5Q

提取码:7777

4、用途

a、天眼查是一款 “都能用的商业调查工具”,实现了企业信息、企业发展、司法风险、经营风险、经营状况、知识产权等40种数据维度查询(企业工商信息、法律诉讼、法院公告、商标专利、向外投资、分支机构、变更信息、债券、网站备案、著作权、招投标、失信、经营异常、企业年报、招聘及新闻动态等),深度商业"关系梳理",专业信用报告呈现等功能。适合金融、投资、律师、咨询、记者、商务等人士。

b、应用简介

天眼查是一款手机应用软件。天眼查是以公开数据为切入点、以关系为核心的产品,在帮助传统企业或个人降低成本、防范化解金融风险方面提供了产品化的解决方案。例如,金融担保机构可通过天眼查所提供的信息查询及关系挖掘服务,高效率获取更多更全面可靠的借贷企业的经营状况信息,以确保借贷资金的安全性,同时也为媒体在新闻报道中提供高效、可靠的线索查询渠道,优化信息求证方式。

c、主要功能

主要提供专业的企业信息查询、企业关系挖掘服务。天眼查为用户提供搜索查询功能,主要信息包括:工商信息、涉诉信息、商标专利、失信信息、企业变更与企业年报、以及企业关联关系查询等。天眼查实现了全量工商数据、商标数据、公开诉讼数据的融合,以及对企业关系的深度挖掘。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。