今天,我帮助女友获取了地铁站点的数据。
面对一个已经存在的核心源码,博主并未公开全部,需要加入付费星球以获取。
因此,我研究了这个过程,旨在为非计算机专业的同学提供快速学习爬虫的基本概念,帮助他们轻松复制他人代码以解决问题。
我们的目标是提取高德网站上的所有城市地铁数据,存储至Excel以进行分析。
高德提供了一个显示地铁线路的页面,这个页面是由浏览器渲染的代码生成的。
爬取数据就是从这些代码中提取我们需要的信息,HTML是服务器(高德)返回的页面源代码,其中包含了我们想要的数据。
HTML具有结构化特性,类似于一个组织架构图,是一个树状结构,分层级组织。
数据存储于HTML元素中,每个元素具有不同的类别,如标题(head)、链接(a)等,数据封装在这些元素中。
如果你仍难以理解,可以参考相关教程。
爬虫通过Python模拟浏览器打开网页源代码,从HTML中提取所需数据,并进行存储(数据清洗、数据分析等)。以下是Python处理的基本步骤:
1. **requests库**:用于访问服务器获取源代码,了解Python发起网络请求的基本方法。
注意,许多网站具有反爬虫机制,可能阻止Python代码发起的请求。
此时,可以将浏览器标识添加至请求参数,如`headers={User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3}`。
2. **BeautifulSoup库**:解析HTML源代码,充分利用其结构化特性,提取所需元素信息。
这涉及理解HTML标签及其属性,如`(div, class_=city-list fl)`,用于选取特定标签,`_all(a)`提取所有包含城市信息的元素。
3. **Pandas库**:将数据整理成结构化的表格格式,帮助进行数据整理、清理和分析。
例如,访问数据的特定列、获取特定行数据等。
4. **JSON库**:处理JSON格式的数据,简化数据访问,类似于操作Python字典。
最后,完成需求的步骤包括:
在理解基本知识后,直接按照上述步骤操作,使用Python库(如requests、BeautifulSoup、Pandas、JSON)来实现爬虫功能。
本回答旨在提供基础知识框架和核心概念,具体实现细节需参考其他资源。
地铁股票有哪些
地铁概念股主要有:1、上海申通地铁股份有限公司():上海申通地铁股份有限公司前身为上海凌桥自来水股份有限公司,成立于1992年6月12日,同月向社会公开发行股票,1994年2月24日在上海证券交易所公开上市交易。
2001年,在市政府及有关部门的关心、指导和帮助下,根据上海市政府有关会议精神,为促进上海轨道交通投资经营的发展,上海申通集团有限公司(简称申通集团)入主上海凌桥自来水股份有限公司(简称凌桥股份)经2001年6月29日股东大会表决通过,公司更名上海申通地铁股份有限公司(简称申通地铁,股份代码)。
主要从事地铁经营及相关综合开发、轨道交通投资、附设分支机构等,成为我国境内第一家从事轨道交通投资经营的上市公司。
2、上海市隧道工程公司():1965年,成立上海市隧道工程公司,成为中国最早进行盾构隧道试验和工程应用专业工程建设单位。
3、国电南京自动化股份有限公司():国电南京自动化股份有限公司(是1999年11月18日在上海证券交易所上市的国家电力系统首家高科技上市公司,被誉为中国电力高科技第一股,现为华电集团直属子公司。
国电南自前身为南京电力自动化设备总厂,始建于1940年。
4、宏润建设集团股份有限公司():宏润建设集团股份有限公司成立于1994年,为深交所上市公司(股票代码)。
公司主要业务包括建筑施工、房地产开发和基础设施项目投资建设。
5、深圳市天健(集团)股份有限公司():深圳市天健(集团)股份有限公司,系被深圳市政府列为做强做大的综合性大型企业集团,具有独立的法人地位。
主导产业为市政工程、建筑施工、房地产开发和投资开发,兼营工业、商贸、交通运输、房屋租赁、物业管理、建材生产及宾馆酒楼。
6、国电南瑞科技股份有限公司():国电南瑞科技股份有限公司成立于2001年2月28日,是一所科技公司。
是由南京南瑞集团公司作为主发起人,以南京南瑞集团公司下属三家分公司的资产经过重组,联合其它七家战略投资者共同发起设立,2003年9月24日在上海证券交易所上市,简称“国电南瑞”。