找到您需要的数据可能是一个挑战,但在可视化大量数据时,您将需要其他工具的帮助。Google 表格拥有将大量数据格式化为合适格式所需的一切。
我们向您展示了如何使用三种方法从互联网上抓取数据。我们分解了每种方法的工作原理以及何时应该使用它们。他们最好的地方是什么?因为它们在 Google 表格上,所以您只需使用廉价的 Chromebook即可从任何地方抓取数据。
什么是数据抓取?
从这个意义上说,数据抓取是从网站中提取数据并将其显示在人类可读输出中的过程。
成功的数据抓取通过整理分散在一个或多个网页上的信息并以人们可以快速阅读的格式显示它来节省数小时的工作。虽然该术语在其最一般意义上可以指代任何程序到程序的抓取,但我们涵盖了将数据从网站抓取到 Google 表格中的过程。
我应该什么时候抓取数据?
当已建立的数据查看方法不可用时,将使用数据抓取。由于该过程依赖于HTML 和 XML 标签,因此可以使用正确的公式从网站上抓取大部分数据。
例如,数据抓取是在维基百科上导出表格以便于搜索和排序的最简单方法(我们将在本指南的后面部分这样做)。
数据抓取是如何工作的?
数据抓取有3种方式,应根据抓取数据的复杂程度和类型来选择。它们是 HTML、XML 和RSS(不需要 Python)。
每种方法都涉及不同的公式,但遵循相同的基本规则。使用适当的标签将公式指向您要抓取的数据,它会抓取数据并将其放入您的表中。该技能是识别您需要的标签并补偿每个网站的源代码。
什么是标签?
如果您使用 Google Chrome 或大多数桌面浏览器,您可以通过右键单击页面并从下拉菜单中选择查看页面源代码来查看网页的源代码。这将打开一个单独的选项卡,显示网站的 HTML 源代码。如果这看起来势不可挡,请不要惊慌。成功抓取数据所需要做的就是识别几个标签。
放置在标签之间的任何内容都按照所选标签的指定显示。所以在上面的例子中,这些标签之间的文本被格式化为一个列表。标签可以放置在标签内,以指定有关文本显示方式的更多详细信息。
根据您使用的方法,您会寻找不同的标签。
我可以抓取哪些数据?
简短的回答几乎是任何事情。从表格和列表中抓取是最简单的,但您可以使用正确的专业知识抓取与特定标签相对应的任何内容。最好在识别数据后选择一种方法。没有必要为简单的 HTML 列表弄乱复杂的 XML 公式。
我可以使用 HTML 方法抓取哪些数据?
HTML 方法可以抓取列表和表格。检查页面的源代码,并搜索要抓取的数据。如果在
、- 、
- 或
- 标签之间,可以使用此方法。
我可以使用 XML 方法抓取哪些数据?
不要点击View page source,而是点击下拉菜单中的Inspect 。这将以 XML 格式显示页面的源代码。
使用 XML 方法抓取数据涉及查找XPath。这比 HTML 方法更精确,因为您可以在源代码中搜索特定位置。如果您正在抓取非列表或表格格式的数据,或者想要抓取表格的一部分,请使用 XML 方法。
我可以使用 RSS 方法抓取哪些数据?
此方法用于抓取 RSS 提要。这是创建自己的工具来抓取新闻、职位列表或定期更新数据的好方法。
- 标签之间,可以使用此方法。
标签:
免责声明:本文由用户上传,如有侵权请联系删除!