在开始编写代码之前,我们需要先安装 Scrapy 框架。可以通过 pip 命令进行安装:
pip install scrapy
安装完成后,我们就可以开始编写 Scrapy 爬虫。
使用以下命令创建一个新的 Scrapy 项目:
scrapy startproject google_search
这将在当前目录下创建一个名为 "google_search" 的 Scrapy 项目。
接下来,我们需要编写一个爬虫来抓取 Google 搜索结果。在 "google_search" 项目的 "spiders" 目录下创建一个名为 "google_spider.py" 的文件,并添加以下代码:
import scrapy
from urllib.parse import urlencode
class GoogleSpider(scrapy.Spider):
name = 'google'
start_urls = ['https://www.google.com/search']
def __init__(self, query='', *args, **kwargs):
super(GoogleSpider, self).__init__(*args, **kwargs)
self.query = query
def start_requests(self):
params = {'q': self.query}
url = self.start_urls[0] + '?' + urlencode(params)
yield scrapy.Request(url, callback=self.parse)
def parse(self, response):
# 在这里处理搜索结果页面
for result in response.css('div.g'):
yield {
'title': result.css('h3::text').get(),
'link': result.css('a::attr(href)').get(),
'snippet': result.css('div.s span::text').get(),
}
这个爬虫定义一个名为 "google" 的爬虫类,它会在 Google 搜索页面上搜索给定的查询关键词,并提取每个搜索结果的标题、链接和摘要信息。
要运行爬虫,可以在命令行中使用以下命令:
scrapy crawl google -a query="Python"
这将启动爬虫,并搜索关键词 "Python"。爬虫会将搜索结果输出到控制台。
需要将结果保存到文件,可以使用以下命令:
scrapy crawl google -a query="Python" -o google_results.json
这将把搜索结果保存到 "google_results.json" 文件中。
通过本文,我们学习如何使用 Scrapy 框架抓取 Google 搜索关键词。Scrapy 提供一个强大的数据抓取工具集,可以帮助我们快速、高效地抓取网页数据。本文介绍创建 Scrapy 项目、编写爬虫代码以及运行爬虫的基本步骤。希望对您有所帮助。