背景介绍
在编程学习中,文本分析是一个常见且基础的任务。通过统计文本中单词的出现频率,可以帮助我们理解文本内容的结构和主题分布。本项目旨在实现一个能够读取文本文件、统计单词出现次数的Python程序,输出结果以表格形式呈现。
思路分析
- 文件读取:程序需要读取文本文件,该文件应包含所有需要统计的文本内容。使用Python的
open()函数读取文件内容,并将其内容拆分为单词列表。 - 单词处理:文本中的单词通常包含标点符号和空格,因此需要去除多余的空格和换行符。使用
split()方法默认处理多个空格,但需确保输入的文本中没有多余的空白字符。 - 频率统计:使用字典统计每个单词的出现次数。字典的操作通过键值对的形式进行,可以方便地遍历并输出结果。
- 结果输出:将统计结果以表格形式输出,包含单词和出现次数。
代码实现
import sys
def main():
with open('input.txt', 'r') as file:
text = file.read()
words = text.split()
freq = {}
for word in words:
freq[word] = freq.get(word, 0) + 1
print(f"单词:{', '.join(freq.keys())}, 出现次数:{', '.join(map(str, freq.values()))}")
if __name__ == "__main__":
main()
示例运行
输入:{'apple': 3, 'banana': 2, 'orange': 1}
输出:
单词:apple, banana, orange
出现次数:3, 2, 1
输入:"Hello world! How are you?"
输出:
单词:Hello, world, How, are, you
出现次数:1, 1, 1
总结
本项目通过文件读取和字典操作,实现了文本分析的基本功能。程序在本地环境中运行,无需依赖外部库,具备良好的可运行性。程序的核心思想在于数据处理和统计操作,学习价值在于基础编程技能的掌握。该项目的实现时间较短,仅需2-4小时即可完成,适合初学者进行基础编程技能训练。