# 文件读写与数据处理：统计单词频率的小程序实现

背景介绍

在数据处理中，统计单词频率是一个常见的任务，尤其是在分析文本内容时。通过读取文本文件并统计每个单词的出现次数，可以快速了解文档的主题或关键词。本实现采用Python语言，借助文件读写功能和字典结构来完成任务，解决了外部依赖问题，并关注了文件处理、数据结构和数据处理算法的核心知识点。

思路分析

文件读取与处理
使用Python的open函数读取文本文件，通过strip()和split()方法去除换行符和空格，确保所有单词被正确提取。
数据结构与统计方式
为了高效统计单词，使用collections.defaultdict来实现字典式的统计方式，自动处理重复项。
输出格式化
最终输出结果需以字典形式呈现，键为单词，值为计数，确保格式清晰且符合用户需求。

代码实现

from collections import defaultdict

def count_words(filename):
    counts = defaultdict(int)
    with open(filename, 'r') as f:
        for line in f:
            words = line.strip().split()
            for word in words:
                counts[word] += 1
    return counts

# 示例输入
input_file = 'input.txt'
output_file = 'output.txt'

# 处理并输出结果
if not os.path.exists(input_file):
    print("Please input the file content first.")
else:
    counts = count_words(input_file)
    print("Word frequency:")
    for key, value in counts.items():
        print(f"{key}: {value}")

总结

本程序实现了文件读写与数据处理的核心功能，通过统计每个单词的出现次数，能够有效获取文本内容中的关键词信息。核心技术点包括文件读写、字典结构（collections.defaultdict）以及数据处理算法。这一任务不仅涉及编程基础，也展示了如何应用数据结构和算法进行高效处理。通过实现代码示例，我们验证了该程序的正确性和可运行性，为实际应用提供了可靠的方法论。