您的位置: 首页> Python

【Python 教程15】-Python和Web

匿名上传

发布时间:2026-02-10 08:06:01

一、屏幕抓取：Web 数据的“搬运工”

1. 正则表达式：快准狠的“文本手术刀”

专业解释：正则表达式是一种用于匹配字符串模式的强大工具。它通过定义一系列特殊字符和语法规则，来描述字符串的搜索模式，从而实现对文本的查找、替换、提取等操作。在屏幕抓取中，我们常用它来从原始 HTML 文本中匹配特定的数据。

大白话解读：比如你想从一堆电话号码里找出所有以“138”开头的，或者从一篇文章里找出所有链接，正则表达式就能帮你一秒搞定，比你一个一个找快多了！

生活案例：就像你在图书馆里找书，不是一本一本翻，而是直接看书架上的分类标签，正则表达式就是那个帮你快速定位的“分类标签”。

示例 Python 代码：

import re
import urllib.request

def simple_regex_scraper(url):
    try:
        # 模拟浏览器请求，获取网页内容
        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
        req = urllib.request.Request(url, headers=headers)
        with urllib.request.urlopen(req) as response:
            html_content = response.read().decode('utf-8')
        
        # 假设我们要抓取Python Job Board上的职位名称和链接
        # 原始链接：
        # 注意：实际网站结构可能变化，此代码仅作示例
        pattern = re.compile(r'<a href="(/jobs/d+)/?">(.*?)</a>')
        
        job_listings = pattern.findall(html_content)
        
        print(f"从 {url} 抓取到的职位信息：")
        for job_url_suffix, job_name in job_listings:
            full_job_url = f"https://www.python.org{job_url_suffix}"
            print(f"- {job_name} ({full_job_url})")
            
    except Exception as e:
        print(f"抓取失败：{e}")

# 运行示例
simple_regex_scraper('https://www.python.org/jobs/')

2. HTML 解析：优雅地“拆解”网页

专业解释：HTML 解析是将 HTML 文档（通常是字符串形式）转换为一个可操作的数据结构（如 DOM 树），以便程序能够方便地访问、修改和提取文档中的元素、属性和文本内容。这比直接使用正则表达式匹配原始字符串更健壮和灵活。

大白话解读：就像你拿到一份乐高说明书，HTML 解析就是帮你把说明书上的零件（标签）和组装步骤（结构）理清楚，让你知道哪个零件在哪，怎么拼起来。

生活案例：你买了一个宜家家具，HTML 解析就像是那个详细的组装说明书，告诉你哪个板子是桌面，哪个是桌腿，以及它们是怎么连接的。

示例 Python 代码（使用 html.parser）：

from urllib.request import urlopen
from html.parser import HTMLParser

class JobScraper(HTMLParser):
    def __init__(self):
        super().__init__()
        self.in_job_link = False
        self.current_job_name = []
        self.job_listings = []

    def handle_starttag(self, tag, attrs):
        if tag == 'a':
            attrs_dict = dict(attrs)
            href = attrs_dict.get('href')
            # 检查是否是职位链接，这里简化判断，实际可能需要更复杂的逻辑
            if href and '/jobs/' in href and href.split('/')[-1].isdigit():
                self.in_job_link = True
                self.current_job_url = f"https://www.python.org{href}"
                self.current_job_name = []

    def handle_data(self, data):
        if self.in_job_link:
            self.current_job_name.append(data.strip())

    def handle_endtag(self, tag):
        if tag == 'a' and self.in_job_link:
            job_name = ''.join(self.current_job_name).strip()
            if job_name:
                self.job_listings.append(f"{job_name} ({self.current_job_url})")
            self.in_job_link = False

def html_parser_scraper(url):
    try:
        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
        req = urllib.request.Request(url, headers=headers)
        with urllib.request.urlopen(req) as response:
            html_content = response.read().decode('utf-8')

        parser = JobScraper()
        parser.feed(html_content)
        parser.close()

        print(f"n使用 HTMLParser 从 {url} 抓取到的职位信息：")
        for job in parser.job_listings:
            print(f"- {job}")

    except Exception as e:
        print(f"抓取失败：{e}")

# 运行示例
html_parser_scraper('https://www.python.org/jobs/')

3. Beautiful Soup：应对“脏乱差”网页的“神器”

专业解释：Beautiful Soup 是一个 Python 库，用于从 HTML 或 XML 文件中提取数据。它能够处理不规范的 HTML 标记，并提供简单、Pythonic 的方式来导航、搜索和修改解析树。它构建了一个解析树，使得开发者可以通过标签名、属性、CSS 选择器等多种方式轻松定位元素。

大白话解读：Beautiful Soup 就像一个“超级保姆”，不管你的 HTML 代码有多“熊”，它都能帮你整理得服服帖帖，让你想找什么数据，就像在自己家里找东西一样简单。

生活案例：你家孩子把玩具撒了一地，Beautiful Soup 就像那个能自动分类整理玩具的“智能机器人”，把小汽车放一堆，积木放一堆，让你一眼就能找到想要的。

示例 Python 代码：

from urllib.request import urlopen
from bs4 import BeautifulSoup

def beautiful_soup_scraper(url):
    try:
        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
        req = urllib.request.Request(url, headers=headers)
        with urllib.request.urlopen(req) as response:
            html_content = response.read()
        
        # 使用Beautiful Soup解析HTML
        soup = BeautifulSoup(html_content, 'html.parser')
        
        job_listings = set()
        # 假设职位信息在body的第一个section下的h2标签中，且h2中包含a标签
        # 注意：实际网站结构可能变化，此代码仅作示例
        # 寻找所有class为'listing-row'的div，或者直接寻找h2标签内的a链接
        # 示例：soup.find_all('h2') 或者 soup.select('section.listing-section h2 a')
        
        # 针对Python官网jobs页面的结构，我们可以尝试更直接的方式
        # 查找所有class为'listing-row'的div，然后从里面提取链接和文本
        for listing in soup.find_all('div', class_='listing-row'):
            link_tag = listing.find('h2').find('a')
            if link_tag:
                job_name = link_tag.get_text(strip=True)
                job_url_suffix = link_tag.get('href')
                full_job_url = f"https://www.python.org{job_url_suffix}"
                job_listings.add(f"{job_name} ({full_job_url})")

        print(f"n使用 Beautiful Soup 从 {url} 抓取到的职位信息：")
        for job in sorted(list(job_listings), key=str.lower):
            print(f"- {job}")
            
    except Exception as e:
        print(f"抓取失败：{e}")

# 运行示例
beautiful_soup_scraper('https://www.python.org/jobs/')

二、CGI：让你的网页“动”起来

1. CGI 基础：Web 服务器的“传话筒”

专业解释：CGI 是一种标准，定义了 Web 服务器如何与外部脚本（CGI 脚本）进行通信，以处理动态请求。当 Web 服务器收到一个指向 CGI 脚本的请求时，它会执行该脚本，并将请求的详细信息（如表单数据、URL 参数等）作为环境变量或标准输入传递给脚本。脚本处理完请求后，将生成的 HTML 或其他内容作为标准输出返回给 Web 服务器，最终由服务器发送给客户端浏览器。

大白话解读：你访问一个网站，填了个登录表单，点击“登录”按钮。这时候，Web 服务器就把你的用户名和密码通过 CGI 交给了后台的 Python 脚本。Python 脚本验证了一下，发现你是合法用户，就生成一个“欢迎回来！”的页面，再通过 Web 服务器显示给你看。整个过程，CGI 就是那个负责“沟通”的桥梁。

生活案例：你去银彳 ATM 机取钱，ATM 机就是 Web 服务器，你插卡、输密码就是用户请求。ATM 机本身不处理你的账户信息，它通过一个内部接口（类似 CGI）把你的请求发给银彳的后台系统。后台系统验证通过后，告诉 ATM 机吐多少钱，ATM 机再把钱给你。这个内部接口就是 CGI 的角色。

示例 Python 代码（一个简单的 CGI 脚本）：

#!/usr/bin/env python
# -*- coding: UTF-8 -*-

# 引入cgi模块，方便处理CGI请求
import cgi
import cgitb

# 开启调试模式，出错时会在浏览器显示详细信息
cgitb.enable()

# 创建FieldStorage实例，用于获取表单数据
form = cgi.FieldStorage()

# 获取表单中名为'name'的字段值
user_name = form.getvalue('name', '路人甲')

# ---- CGI脚本的核心：输出 ----
# 1. 首先，必须输出一个Content-type头，告诉浏览器我们发送的是HTML
print("Content-type:text/htmlnn")

# 2. 接着，输出HTML内容
print("<html>")
print("<head>")
print("<title>CGI 脚本初体验</title>")
print("</head>")
print("<body>")
print(f"<h2>你好, {user_name}! 欢迎来到CGI的魔法世界！</h2>")
print("</body>")
print("</html>")

2. Python Web 框架：告别“刀耕火种”

专业解释：Web 框架是一套提供了构建 Web 应用所需核心功能的库和工具。它们遵循一定的架构模式（如 MVC 或 MVT），通过提供路由系统、模板引擎、ORM（对象关系映射）、会话管理等组件，极大地简化了 Web 应用的开发流程，提高了开发效率和代码的可维护性。

大白话解读：你想盖个房子，Web 框架就是那个已经帮你打好地基、建好承重墙、铺好水电管道的“半成品”。你只需要根据自己的喜好，装修一下墙面、摆放家具（编写业务代码）就行了，省时又省力。

生活案例：你想做一道复杂的佛挑墙，自己从头准备鲍鱼、海参、鱼翅……那得累死。Web 框架就像是超市里卖的“佛挑墙半成品料理包”，所有食材都帮你处理好了，你只需要回家按照说明书，简单加热一下就能享受美味。

示例 Python 代码（使用 Flask 框架）：

# 安装Flask: pip install Flask
from flask import Flask, request, render_template_string

# 创建一个Flask应用实例
app = Flask(__name__)

# 定义一个HTML模板，用于显示欢迎信息
HTML_TEMPLATE = """
<!DOCTYPE html>
<html>
<head>
    <title>Flask Web App</title>
</head>
<body>
    <h1>你好, {{ name }}!</h1>
    <p>欢迎来到Flask的奇妙世界！</p>
    <form method="post">
        <label for="name">输入你的名字:</label>
        <input type="text" id="name" name="name">
        <button type="submit">提交</button>
    </form>
</body>
</html>
"""

# 定义路由：当用户访问网站根目录时，执行这个函数
@app.route('/', methods=['GET', 'POST'])
def hello():
    user_name = '路人甲'
    if request.method == 'POST':
        # 如果是POST请求，就从表单里获取名字
        user_name = request.form.get('name', '路人甲')
    # 使用模板渲染页面，并传入名字
    return render_template_string(HTML_TEMPLATE, name=user_name)

# 如果这个脚本是直接运行的，就启动Web服务器
if __name__ == '__main__':
    # 开启调试模式，这样修改代码后服务器会自动重启
    app.run(debug=True)

三、Web 服务：程序间的“秘密通道”

专业解释：Web 服务是一种基于 Web 的、可编程的应用程序组件，它允许不同应用程序之间通过网络进行交互。它通常使用标准化的协议（如 HTTP、XML、JSON）来传输数据，并提供一套接口供其他应用程序调用，从而实现分布式计算和系统集成。

大白话解读：你的手机 App 想知道今天的天气，它不会自己去测量气温、风速，而是会去问“天气预报服务”这个专门提供天气信息的“程序”。这个“问”和“答”的过程，就是 Web 服务在发挥作用。

生活案例：你用支付宝或者微信支付，你的支付 App 并没有直接和银彳的系统打交道，而是通过调用银彳提供的支付 Web 服务来完成交易。Web 服务就像一个“翻译官”，让不同“国家”（系统）的程序能够互相理解。

1. XML-RPC 与 SOAP：远程调用的“双雄”

专业解释：

XML-RPC（XML Remote Procedure Call）是一种基于 XML 和 HTTP 的轻量级远程过程调用协议。它允许客户端程序调用远程服务器上的函数或方法，并将请求和响应数据封装在 XML 格式中，通过 HTTP 进行传输。它的特点是简单、易于实现。
SOAP（Simple Object Access Protocol）也是一种基于 XML 的协议，用于在分布式环境中交换结构化信息。与 XML-RPC 相比，SOAP 更为复杂和强大，它支持更丰富的数据类型、更复杂的传输机制（如 HTTP、SMTP 等），并提供了更严格的规范和安全性特性。SOAP 通常与 WSDL（Web Services Description Language）结合使用，WSDL 用于描述 Web 服务的接口和操作。

大白话解读：

XML-RPC 就像是两个朋友之间用“明信片”交流，明信片上写着“请帮我做这件事”，然后寄过去，收到回信就知道结果了。简单直接。
SOAP 则像是一份严谨的“外交公文”，里面不仅详细说明了“请帮我做这件事”，还规定了公文的格式、加密方式、谁来签收等等。虽然有点繁琐，但非常正式和安全。

示例 Python 代码（XML-RPC 客户端）：

# 假设有一个XML-RPC服务器运行在 
# 服务器端代码（例如：server.py）可能如下：
# from xmlrpc.server import SimpleXMLRPCServer
# def add(x, y): return x + y
# server = SimpleXMLRPCRPCServer(("localhost", 8000))
# server.register_function(add, "add")
# server.serve_forever()

import xmlrpc.client

def xmlrpc_client_example():
    try:
        # 连接到XML-RPC服务器
        proxy = xmlrpc.client.ServerProxy("http://localhost:8000/RPC2")
        
        # 调用远程服务器上的add方法
        result = proxy.add(5, 3)
        print(f"XML-RPC 调用结果：5 + 3 = {result}")
        
        # 尝试调用一个不存在的方法
        try:
            proxy.subtract(10, 2)
        except xmlrpc.client.Fault as e:
            print(f"XML-RPC 错误示例：{e}")

    except ConnectionRefusedError:
        print("错误：无法连接到XML-RPC服务器。请确保服务器已启动并运行在 2")
    except Exception as e:
        print(f"发生错误：{e}")

# 运行示例
# xmlrpc_client_example() # 运行时请确保有XML-RPC服务器在运行
print("XML-RPC 客户端示例代码已准备好，请启动一个XML-RPC服务器后尝试运行。")

2. RESTful API：现代 Web 服务的“王者”

专业解释：REST（Representational State Transfer，表述性状态转移）是一种架构风格，而不是协议。RESTful API 是遵循 REST 架构风格的 API 设计。它主要基于 HTTP 协议，利用 HTTP 方法（GET、POST、PUT、DELETE 等）对资源进行操作，并通过 URL 来标识资源。数据通常以 JSON 或 XML 格式传输，具有无状态性、统一接口、分层系统等特点。

大白话解读：你把 Web 看作一个巨大的图书馆，每本书（资源）都有一个唯一的编号（URL）。你想看书（GET），就告诉管理员书的编号；你想借书（POST），就告诉管理员书的编号和你的信息；你想更新书的信息（PUT），就告诉管理员书的编号和新的信息；你想还书（DELETE），就告诉管理员书的编号。整个过程非常直观，就像和图书馆管理员打交道一样。

生活案例：你用外卖 App 点餐，App 会向外卖平台的 API 发送一个请求（POST），告诉它你要点什么菜、送到哪里。外卖平台收到请求后，处理订单，然后通过 API 返回一个订单成功的消息。这个过程就是典型的 RESTful API 交互。

示例 Python 代码（使用 requests 库调用 RESTful API）：

import requests

def rest_api_example():
    try:
        # 假设我们调用一个公共的API，例如获取GitHub用户信息
        username = "octocat" # GitHub的默认测试用户
        api_url = f"https://api.github.com/users/{username}"
        
        print(f"正在从 {api_url} 获取用户信息...")
        
        # 发送GET请求
        response = requests.get(api_url)
        
        # 检查请求是否成功 (状态码200)
        response.raise_for_status() 
        
        # 解析JSON响应
        user_data = response.json()
        
        print("n获取到的用户信息：")
        print(f"用户名: {user_data.get("login")}")
        print(f"姓名: {user_data.get("name", "N/A")}")
        print(f"公司: {user_data.get("company", "N/A")}")
        print(f"粉丝数: {user_data.get("followers")}")
        print(f"关注数: {user_data.get("following")}")
        print(f"个人主页: {user_data.get("html_url")}")
        
    except requests.exceptions.RequestException as e:
        print(f"请求GitHub API失败：{e}")
    except Exception as e:
        print(f"发生错误：{e}")

# 运行示例
rest_api_example()

四、拓展方案：让你的技能包更“鼓”

1. Scrapy 框架：工业级爬虫利器

专业解释：Scrapy 是一个用于抓取网站并从网页中提取结构化数据的应用框架。它提供了一整套组件，包括调度器、下载器、爬虫、管道等，支持异步请求处理，能够高效地处理大量并发请求，并提供了强大的数据处理和存储机制。

大白话解读：你不是想“搬运”数据吗？Scrapy 就是那个能帮你搭建一个“自动化数据工厂”的框架。你告诉它去哪里“搬”，搬什么，怎么“搬”，它就能自己吭哧吭哧地帮你把数据搬回来，而且搬得又快又好，还能帮你把数据整理得整整齐齐。

生活案例：你开了一家电商网站，想知道竞争对手的商品价格和库存。如果手动去查，那得查到猴年马月。Scrapy 就像你的“商业情报机器人”，能自动帮你坚控竞争对手的网站，把所有商品信息都抓回来，让你随时掌握市场动态。

示例 Python 代码（Scrapy 项目结构和核心代码片段）：

# Scrapy项目通常通过命令行创建：scrapy startproject myproject
# 这是一个Scrapy爬虫的核心代码片段 (myproject/spiders/example_spider.py)

import scrapy

class ExampleSpider(scrapy.Spider):
    name = "example"
    allowed_domains = ["quotes.toscrape.com"]
    start_urls = ["http://quotes.toscrape.com/",]

    def parse(self, response):
        # 提取名言和作者
        for quote in response.css("div.quote"):
            yield {
                "text": quote.css("span.text::text").get(),
                "author": quote.css("small.author::text").get(),
                "tags": quote.css("div.tags a.tag::text").getall(),
            }
        
        # 翻页逻辑
        next_page = response.css("li.next a::attr(href)").get()
        if next_page is not None:
            yield response.follow(next_page, callback=self.parse)

# 运行Scrapy爬虫：在项目根目录执行 scrapy crawl example

2. FastAPI：打造高性能 API 的“新贵”

专业解释：FastAPI 是一个高性能的 Web 框架，它基于 Starlette（用于 Web 部分）和 Pydantic（用于数据验证和序列化）。它利用 Python 3.6+ 的类型提示，自动生成 OpenAPI（以前称为 Swagger）文档，并提供数据验证、依赖注入等功能，使得 API 开发变得极其高效和愉快。

大白话解读：你想开个“数据接口商店”，让别人能方便地从你这里获取数据。FastAPI 就像一个“智能店长”，你告诉它你的“商品”（数据接口）长什么样，它就能自动帮你把“商品说明书”（API 文档）写好，还能帮你检查顾客的“订单”（请求参数）是不是合规，确保你的“商店”高效运转。

生活案例：你开发了一个 App，需要从服务器获取用户数据、商品列表等。FastAPI 就是那个帮你搭建“数据中转站”的工具，它能以闪电般的速度响应 App 的请求，让你的 App 体验飞沙走石。

示例 Python 代码：

# 安装FastAPI和Uvicorn: pip install fastapi uvicorn
from fastapi import FastAPI
from pydantic import BaseModel

# 创建FastAPI应用实例
app = FastAPI()

# 定义请求体的数据模型
class Item(BaseModel):
    name: str
    price: float
    is_offer: bool | None = None

# 定义一个根路径的GET请求
@app.get("/")
async def read_root():
    return {"message": "欢迎来到FastAPI的世界！"}

# 定义一个带路径参数的GET请求
@app.get("/items/{item_id}")
async def read_item(item_id: int, q: str | None = None):
    return {"item_id": item_id, "q": q}

# 定义一个POST请求，接收JSON数据
@app.post("/items/")
async def create_item(item: Item):
    return {"message": "Item received", "item": item}

# 运行FastAPI应用：uvicorn main:app --reload

3. Selenium：驾驭“动态”网页的“终极武器”

专业解释：Selenium 是一个用于 Web 应用程序测试的工具，但它也可以被广泛应用于 Web 抓取。它允许开发者通过编程方式控制浏览器（如 Chrome、Firefox），模拟用户的各种行为，如点击按钮、填写表单、执行 JavaScript、滚动页面等，从而获取动态加载的内容。

大白话解读：有些网站很“狡猾”，你直接用代码去访问，它给你看的是“毛坯房”，什么都没有。但你用浏览器打开，它就给你装修得漂漂亮亮。Selenium 就是那个能帮你“开着浏览器”去访问网站的工具，它能像真人一样点击、输入、等待，直到所有内容都加载出来，然后你再“截图”（抓取数据）。

生活案例：你想抢购某个限量商品，但商品页面需要登录、点击多个按钮、等待加载才能看到抢购按钮。Selenium 就像你的“自动抢购机器人”，它能自动帮你完成所有这些操作，甚至比你手动操作还快！

示例 Python 代码：

# 安装Selenium和对应浏览器的WebDriver：pip install selenium
# 需要下载对应浏览器的WebDriver，例如ChromeDriver，并将其路径添加到系统PATH中

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time

def selenium_example():
    # 初始化Chrome浏览器驱动
    # 确保你的ChromeDriver路径正确，或者已添加到系统PATH
    driver = webdriver.Chrome()
    driver.maximize_window() # 最大化窗口，有时有助于避免元素不可见问题

    try:
        # 访问一个需要动态加载内容的网站，这里以一个简单的示例网站代替
        # 实际应用中，可以是需要登录、点击加载更多的网站
        driver.get("https://www.python.org/")
        print(f"成功访问：{driver.current_url}")

        # 等待某个元素加载完成，例如等待导航栏的某个链接出现
        # WebDriverWait(driver, 10).until(
        #     EC.presence_of_element_located((By.ID, "id-of-an-element"))
        # )
        
        # 模拟点击某个链接，例如点击"About"菜单
        about_link = driver.find_element(By.LINK_TEXT, "About")
        about_link.click()
        print("点击了About链接")
        
        # 等待页面跳转或内容加载
        time.sleep(2) # 简单的等待，实际应使用WebDriverWait
        
        # 获取当前页面的标题
        print(f"当前页面标题：{driver.title}")
        
        # 获取页面内容（包括JS渲染后的）
        # page_source = driver.page_source
        # print(page_source[:500]) # 打印前500个字符

    except Exception as e:
        print(f"Selenium操作失败：{e}")
    finally:
        # 关闭浏览器
        driver.quit()

# 运行示例
selenium_example()