rcurl抓取问财财经搜索网页股票数据
问财财经搜索是同花顺旗下的服务之一,主要针对上市公司的公告、研报、即时新闻等提供搜索及参考资料。相对于其他股票软件来说,一个强大之处在于用自然语言就可以按你指定的条件进行筛选。而大部分现有的行情软件支持的都不是很好,写起来就费尽心思,还不一定能行。
然而问财有一个缺陷在于它只能获取一天的股票相关信息。如果,我们希望实现抓取一段时间的股票历史信息,就要通过网页批量抓取。
事实上,我们可以通过制作一个爬虫软件来自己定义时间日期和搜索的关键词,并且批量下载一定日期范围的数据。
我们以抓取每天的收盘价大于均线上股票数目为例子,用r来实现抓取:
例如需要获取10月12日的数据,在问财里输入下面的关键词即可
查看搜索结果链接,我们可以看到关键词在链接中的显示规则
因此,我们在r中可以通过制作一个时间段的伪链接来向服务器不断发送搜索请求,从而实现一段日期数据的批量抓取
url=paste("股票 - 问财财经搜索",as.character(as.Date(i, origin = "1970-01-01")) ,input2)
然后,我们查看其中一天的网页源代码,可以找到对应股票数据的xml源码
因此,可以通过编写一个html_value 函数来获取这个xmlValue
xpath
html_value
webpage
webpage
pagetree
value
##i
# value1
# value2
# value3
# value4
value1=character(0)
for(i in 1:length(value))value1[i]
return(value1)
}
然后封装成一个函数,就可以任意下载一段时间内几个关键词所对应的股票数据了。
最后可以将爬取到的数据批量输出到一个excel文件中,从而方便后续的分析。
本文章中的所有信息(包括但不限于分析、预测、建议、数据、图表等内容)仅供参考,拓端数据(tecdat)不因文章的全部或部分内容产生的或因本文章而引致的任何损失承担任何责任。拓端数据研究室|TRL
在微信上关注我们