前言
临近毕业,面临找工作找住所的问题。正好赶上正好赶上最近在学习数据分析,于是尝试对链家网上的租房信息进行分析,了解一下最近的租房行情。
提出猜想
简单分析了一下影响租房价格的因素,根据可以爬取到的数据选取了以下几个点:
租房价格同面积、地理位置、房屋格局高度相关
租房价格几乎不受楼层、朝向、看房便利等因素影响
数据获取
1.对网页分析,提取想要的数据,如下:
2.利用python爬虫,爬取了8.2w条成都链家租房数据,部分如下:
数据预处理
1.利用pandas对数据字段进行整理,如将str型的房屋面积131㎡ 转为方便计算的float型。
2.异常值处理,如对房屋租金画盒图查看偏差值:
实际查看链家页面后发现,确实存在一些租金的房屋出租,这并不是因为数据获取出错造成的数据误差。
但这些租金太高的房屋数量少但数值大,但12w太偏离市场行情,这里直接删除租金在7000以上的全部数据(一般是取总体数据[Q1-1.5IQR, Q3+1.5IQR]),结果如下:
3.提取数据中用于数据分析的字段,数据清洗就算告一段落,最后得到7.6w条有效数据;
数据分析
1.各地区房源分布图
可以看到排在前三的分别是高新、成华锦江。房源主要分布在市中心一带,高速发展的天府新区的房源已超过了新都区,温江等成都的老城区。
2.地区因素对房价的影响
可以看到前三甲分别是锦江、高新、武侯。这样子很难看出什么,我们将它转变成地图,画出地图来更直观。
从地图可以很直观的看出,离成都市中心最近的地区颜色越深,也就代表着房屋的单价越高。所以最高的分别是锦江区,武侯区,成华区,武侯区,离市中心较近的新都区是个不错的选择。(由于pyecharts地图模块中还没有高新区,地图分析将高新区的数据删除,但要知道高新区的平均房价位居第二。)
3.电梯和建筑楼层对房价的影响
从箱线图的两个箱体的均值差距可以看到电梯和建筑物楼层对房价有影响,但是影响不大。
4.房源所在区域分布统计热度图
该图各区域颜色深浅/数值表示该区域房源平均价格/㎡。
所有房屋类型中4室1厅的平均价明显高于其他类型,其次是1居室的房源。
也可以看出锦江区、高新区的平均价格明显高于其他区,该地区3室2厅2卫可能是个不错的选择。
5.租房方式对房价的影响
可以明显的看出合租的租房价格普遍低于整租,合租对于刚步入社会的青年来说是节省支出的最好租房方式。