# Python脚本:读取网站HTML并保存至本地文件


背景介绍

随着网页内容的多样化,我们需要在本地环境中直接运行的脚本逐渐成为开发者的重要工具。本脚本通过Python的requests库实现HTTP请求功能,读取指定网页内容并保存至本地文件中,适用于需要网络编程能力的中级开发者。

思路分析

本脚本的核心功能是:
1. 网络请求:使用requests.get()发送HTTP请求获取网页内容;
2. 文件读写:通过文件读写API将内容保存至指定路径;
3. 本地环境可运行:确保脚本在本地环境中直接执行,无需依赖远程服务器。

该脚本要求用户熟悉HTTP请求的参数设置,例如urlheadersverify等选项,以及文件读写的基本框架。

代码实现

import requests

def save_html_to_file(url, output_path):
    try:
        response = requests.get(url, timeout=10)
        response.raise_for_status()  # 避免404错误

        with open(output_path, 'w', encoding='utf-8') as file:
            file.write(response.text)
        print(f"HTML内容已保存到 {output_path}")
    except requests.exceptions.RequestException as e:
        print(f"网络请求失败: {str(e)}")

示例实现

输入:网址和文件保存路径

python script.py https://example.com output.html

输出结果:读取的HTML代码已保存到output.html文件中。

总结

本脚本通过Python的requests库实现了网页内容的本地保存功能,具备良好的可读性和可执行性。它不仅满足了网络编程的基本需求,还为开发者提供了学习HTML解析和本地文件管理的实际场景。该脚本适用于需要网络编程能力的初级或中级开发者,实现难度在1-3天范围内。

import requests

def save_html_to_file(url, output_path):
    try:
        response = requests.get(url, timeout=10)
        response.raise_for_status()  # 避免404错误

        with open(output_path, 'w', encoding='utf-8') as file:
            file.write(response.text)
        print(f"HTML内容已保存到 {output_path}")
    except requests.exceptions.RequestException as e:
        print(f"网络请求失败: {str(e)}")
# 示例运行命令
python script.py https://example.com output.html

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注