如何使用 Curl 获取网站上的所有链接

原创 www.link114.cn 2024-01-16 16:29:03

Curl (Client URL) 是一个强大的命令行工具,它可以用来发送 HTTP 请求、获取远程资源、上传文件等。它是跨平台的,可以在 Windows、macOS 和 Linux 等操作系统上使用。Curl 是很多网络应用程序和脚本的幕后英雄,比如网页浏览器、下载工具、自动化脚本等。

要使用 Curl 获取网站上的所有链接,我们需要先安装 Curl。大多数操作系统都内置 Curl,没有,可以通过软件包管理器安装。安装完成后,我们可以使用以下命令来获取网站上的所有链接:

curl -s https://example.com | grep -oE '(http|https)://[^"]+' | sort -u

让我们分步解释一下这个命令:

curl -s https://example.com: 这个命令使用 Curl 获取 https://example.com 网站的HTML内容,并将其输出到标准输出。-s 参数用于静默模式,不输出 Curl 的进度信息。
| grep -oE '(http|https)://[^"']+': 这个命令使用 grep 工具来搜索输出中的所有 HTTP 和 HTTPS 链接。-oE 参数指定使用扩展正则表达式匹配模式,并只输出匹配的部分。正则表达式 (http|https)://[^"']+ 匹配以 http:// 或 https:// 开头,且不包含双引号或单引号的任何字符串。
| sort -u: 这个命令使用 sort 工具对链接进行排序,并去除重复的链接,只保留唯一的链接。