背景介绍
在数据分析或数据处理场景中,统计文件中各类单词的出现次数是关键任务之一。本项目通过读取本地文本文件,统计每个单词的出现次数,并计算总文本长度,实现高效的数据处理功能。
思思路分析
本项目的核心实现步骤如下:
1. 文件读取:使用Python的with open()读取指定本地文件,确保文件内容被正确读取。
2. 单词统计:利用collections.Counter统计文件中每个单词的出现次数,自动处理重复计数。
3. 文本长度计算:通过计算文件内容的长度,结合字典统计结果输出最终结果。
代码实现
from collections import Counter
import os
def read_and_count_words(file_path):
"""
读取本地文本文件并统计单词出现次数,计算文本长度。
参数:
file_path (str): 本地文本文件的路径(如 'data.txt')。
返回:
dict: 单词出现次数字典。
int: 文本总长度。
"""
# 读取文件内容
with open(file_path, 'r') as f:
text = f.read()
# 统计单词出现次数
word_counts = Counter(text.split())
# 计算文本长度
word_count_total = sum(word_counts.values())
total_length = len(text)
# 输出结果
print(f"单词出现次数: {' '.join(word_counts)}")
print(f"总文本长度: {total_length}")
return word_counts, total_length
# 示例使用
if __name__ == "__main__":
file_path = "data.txt"
result = read_and_count_words(file_path)
result
总结
本项目实现了读取、统计和计算文本长度的核心功能。通过使用Python的文件读取机制和collections.Counter统计工具,能够高效地完成数据处理任务。代码逻辑清晰,便于理解和维护,适用于本地环境运行。