AI会议助手小工具：语音转文字与关键点提取

背景介绍

在现代办公环境中，会议已成为信息交流和决策制定的重要方式。然而，传统的会议记录方式依赖人工整理，不仅耗时费力，还容易因个人理解偏差导致信息遗漏或不准确。随着人工智能技术的发展，AI语音会议助手应运而生，能够自动将会议录音转为文字，并提取关键信息，生成结构清晰的会议纪要。

本文将介绍并实现一个AI会议助手小工具，使用Python语言开发，结合语音识别与AI文本摘要技术，实现从录音到纪要的自动化处理。项目适合中级以下开发者，预计可在1~3天内完成，具有较高的学习与实用价值。

项目目标

本项目旨在开发一个本地运行的AI会议助手工具，用户只需上传录音文件，即可：

将语音内容转为文字；
使用AI模型提取会议中的关键点（如决议、待办事项等）；
生成结构化的会议纪要文档（Markdown格式）。

项目涵盖语音处理、文本处理、AI模型调用和文件操作等核心技术，适合初学者和中级开发者学习与实践。

技术实现思路

1. 语音识别模块

使用 pydub 和 vosk 实现本地语音识别。pydub 用于音频格式转换（如 .mp3 转 .wav），vosk 提供离线语音识别功能，无需依赖网络服务。

2. AI关键点提取模块

使用 transformers 库中的 distilbart-cnn-12-6 模型进行文本摘要，提取会议内容中的关键信息。

3. 文件保存模块

将语音识别结果和AI提取的关键点保存为 Markdown 格式文件，便于后续阅读与编辑。

4. 命令行交互模块

通过 input() 函数与用户交互，获取录音文件路径和是否提取关键点的选项。

代码实现

以下是完整的Python代码实现，包含详细的注释说明。

# ai_meeting_assistant.py

import os
import json
from pydub import AudioSegment
import vosk
import wave
from transformers import pipeline

# 语音转文字函数
def audio_to_text(file_path):
    """
    将音频文件转为文字，支持mp3和wav格式。
    如果是mp3文件，先转换为wav格式。
    使用vosk进行本地语音识别。
    """
    # 检查文件格式，如果是mp3，转为wav
    if file_path.endswith('.mp3'):
        audio = AudioSegment.from_mp3(file_path)
        wav_path = file_path.replace('.mp3', '.wav')
        audio.export(wav_path, format="wav")
        file_path = wav_path  # 替换为wav文件路径

    # 加载vosk模型（需要提前下载vosk-model-cn-0.22模型）
    model = vosk.Model(model_name="vosk-model-cn-0.22")
    wf = wave.open(file_path, "rb")
    rec = vosk.KaldiRecognizer(model, wf.getframerate())

    result = ""
    while True:
        data = wf.readframes(4000)
        if len(data) == 0:
            break
        if rec.AcceptWaveform(data):
            result += json.loads(rec.Result())["text"] + " "
    result += json.loads(rec.FinalResult())["text"]

    return result.strip()

# AI关键点提取函数
def extract_key_points(text):
    """
    使用transformers库中的distilbart模型进行文本摘要。
    返回提取的关键点内容。
    """
    # 加载摘要模型（需要联网下载模型）
    summarizer = pipeline("summarization", model="sshleifer/distilbart-cnn-12-6", device=0 if torch.cuda.is_available() else -1)
    summary = summarizer(text, max_length=150, min_length=30, do_sample=False)
    return summary[0]['summary_text']

# 保存会议纪要到文件
def save_minutes(text, summary, filename="meeting_summary.md"):
    """
    将语音识别结果和关键点内容保存为Markdown格式文件。
    """
    content = f"# 会议纪要\n\n## 语音转文字内容\n\n{text}\n\n## 关键点提取\n\n- {summary.replace('. ', '.\n- ')}"
    with open(filename, "w", encoding="utf-8") as f:
        f.write(content)
    print(f"会议纪要已保存至 {os.path.abspath(filename)}")

# 主程序
def main():
    # 用户输入录音文件路径
    file_path = input("请输入会议录音文件路径: ").strip()

    # 检查文件是否存在
    if not os.path.exists(file_path):
        print("文件不存在，请检查路径。")
        return

    # 用户选择是否提取关键点
    extract_summary = input("是否提取关键点？(y/n): ").strip().lower() == 'y'

    # 语音识别
    print("正在识别音频内容...")
    text = audio_to_text(file_path)
    print("音频识别完成。")

    # AI关键点提取
    if extract_summary:
        print("正在提取关键点...")
        key_points = extract_key_points(text)
    else:
        key_points = ""

    # 生成会议纪要
    print("正在生成会议纪要...")
    save_minutes(text, key_points)

if __name__ == "__main__":
    main()

项目运行说明

安装依赖库：

pip install pydub vosk transformers torch

下载vosk模型：

vosk-model-cn-0.22

你可以从 Vosk官方模型仓库下载模型文件，并将其放在项目目录中。

运行程序：

python ai_meeting_assistant.py

输入录音文件路径和是否提取关键点的选项，即可生成会议纪要。

项目意义

本项目为用户提供了一种快速、高效的会议记录方式，尤其适合需要频繁整理会议内容的职场人士，如项目经理、会议记录员、行政人员等。通过AI技术的辅助，用户无需手动整理会议内容，即可获得结构化、可编辑的会议纪要文档，显著提升工作效率。

同时，该项目也为开发者提供了实践语音处理、AI模型调用和文件操作的良好机会，是AI与实际办公场景结合的典型应用，具备较高的学习与实用价值。

总结

通过本项目，开发者可以掌握语音识别、文本摘要、文件操作等关键技术，同时了解AI在实际办公场景中的应用。项目结构清晰，代码规范，适合中级以下开发者快速上手。希望本文能够帮助你更好地理解AI会议助手的实现逻辑，并激发你对AI技术在办公场景中应用的兴趣。

AI管家

AI会议助手小工具：语音转文字与关键点提取

背景介绍

项目目标

技术实现思路

1. 语音识别模块

2. AI关键点提取模块

3. 文件保存模块

4. 命令行交互模块

代码实现

项目运行说明

项目意义

总结

发表回复取消回复

AI会议助手小工具：语音转文字与关键点提取

背景介绍

项目目标

技术实现思路

1. 语音识别模块

2. AI关键点提取模块

3. 文件保存模块

4. 命令行交互模块

代码实现

项目运行说明

项目意义

总结

发表回复 取消回复

发表回复取消回复