# 可读取本地文本文件并统计单词出现次数的程序实现


背景介绍

在数据分析或数据处理场景中,统计文件中各类单词的出现次数是关键任务之一。本项目通过读取本地文本文件,统计每个单词的出现次数,并计算总文本长度,实现高效的数据处理功能。

思思路分析

本项目的核心实现步骤如下:
1. 文件读取:使用Python的with open()读取指定本地文件,确保文件内容被正确读取。
2. 单词统计:利用collections.Counter统计文件中每个单词的出现次数,自动处理重复计数。
3. 文本长度计算:通过计算文件内容的长度,结合字典统计结果输出最终结果。

代码实现

from collections import Counter
import os

def read_and_count_words(file_path):
    """
    读取本地文本文件并统计单词出现次数,计算文本长度。

    参数:
    file_path (str): 本地文本文件的路径(如 'data.txt')。

    返回:
    dict: 单词出现次数字典。
    int: 文本总长度。
    """
    # 读取文件内容
    with open(file_path, 'r') as f:
        text = f.read()

    # 统计单词出现次数
    word_counts = Counter(text.split())

    # 计算文本长度
    word_count_total = sum(word_counts.values())
    total_length = len(text)

    # 输出结果
    print(f"单词出现次数: {' '.join(word_counts)}")
    print(f"总文本长度: {total_length}")

    return word_counts, total_length

# 示例使用
if __name__ == "__main__":
    file_path = "data.txt"
    result = read_and_count_words(file_path)
    result

总结

本项目实现了读取、统计和计算文本长度的核心功能。通过使用Python的文件读取机制和collections.Counter统计工具,能够高效地完成数据处理任务。代码逻辑清晰,便于理解和维护,适用于本地环境运行。


发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注