>_ DevTrendszh

语言

首页

语言

板块

前端 后端 移动端 DevOps AI / ML 游戏开发 安全
Go

Scriberr:你的私人转录助手,绝不偷听

2,799 星标

听起来很熟悉吧?你录制了一场重要的会议、一次采访,或者只是在语音消息中记录了一个绝妙的想法。现在你需要把这些全部转换成文字。而问题就来了:要么是按月订阅的付费云服务,要么是隐私政策存疑的免费服务——你的数据会被发送到不知道什么地方。在我的实践中,我经常遇到开发者——也不仅仅是开发者——在便利性、成本和最重要的保密性之间寻找平衡。

这是什么项目,适合谁

这正是 Scriberr 被创建的原因——我最近在 GitHub 上发现的项目,它真正让我印象深刻。这是一个用于转录音频和视频的开源应用,专门为注重隐私、偏好完全掌控自己数据的用户开发。Scriberr 的主要亮点是它可以完全离线运行。不会将你的录音发送到第三方服务器,没有订阅,没有隐藏费用。一切都在你自己的机器上完成。

Scriberr Desktop App

核心功能:不只是转录

Scriberr 不仅仅是一个"音频转文字工具"。它是一个处理语音数据的完整生态系统,提供一系列真正酷炫的功能:

完全隐私和离线运行

也许这正是 Scriberr 脱颖而出的主要原因。项目作者 Rishikanth 在购买 Plaud Note 录音笔时自己也遇到了隐私问题和云服务高昂价格的问题。他的录音被发送到第三方服务器,订阅费用高达每年 240 美元。Scriberr 彻底解决了这个问题:所有计算都在本地进行。这意味着你的机密对话、想法或笔记永远不会离开你的电脑。对于自托管用户来说,这真的是一块宝!

智能说话人识别( diarization)

想象一下:你有一段多人参与的会议录音。通常转录会输出一大段文字,想搞清楚谁说了什么可不容易。Scriberr 使用先进的模型自动识别不同说话人,并标注谁说了哪句话。这对于分析采访、播客或小组讨论非常方便。

Transcript view

带播放追踪和文本搜索的转录视图。

与你的音频对话:LLM 的力量就在应用中

这在我看来是最有趣的功能之一。Scriberr 可以与本地 LLM(通过 Ollama)或 OpenAI API 集成。这能给你带来什么?你可以:

  • 生成长录音的简洁摘要
  • 转录内容提问
  • 与你的音频进行完整对话

想象一下你录制了一个长达数小时的讲座,然后你只需问 Scriberr:"关于 X 主题的主要结论是什么?"或者"谁在什么上下文中提到了 Y 概念?"。这就像拥有一个个人助理,替你听完了所有内容。

Chat with Audio

使用本地 LLM 或 OpenAI 与你的转录对话。

集成到你的工作流程

Scriberr 不仅仅是一个独立应用。它被设计成你自动化的一部分。得益于广泛的 API 和"文件夹监视"功能——可以自动处理指定文件夹中的新文件——你可以轻松将其集成到现有管道中。例如,设置 n8n 或其他自动化工具,将新音频文件发送到 Scriberr 并接收现成的转录。

易用性和美观的界面

尽管底层功能强大,Scriberr 提供了非常愉悦和响应迅速的用户界面。它内置了音频录制器用于快速笔记,支持在转录中标记关键时刻和添加评论。PWA(渐进式网络应用)支持允许你将其作为原生应用安装在桌面或移动设备上,提供无缝体验。

Notes and Highlights

在聆听时标记关键时刻并做笔记。

底层技术:技术和架构

有趣的是,Scriberr 使用 Go 编写,这确保了高性能和跨平台兼容性。对于转录本身,使用了最先进的机器学习模型,如 NVIDIA ParakeetCanary,以及当然还有流行的 Whisper。这保证了文本识别的高准确性,每个单词的时间戳精确到秒。

对于部署,项目提供了几种方便的选项:

  • Homebrew:对于 macOS 和 Linux 用户,这是最简单的安装方式。
  • Docker:如果你偏好容器化,有现成的 docker-compose 文件,适用于 CPU 和 NVIDIA GPU(CUDA)。顺便说一下,对于新 RTX 50 系列显卡的用户,由于 PyTorch 和 CUDA 兼容性的特殊性,甚至有单独的 scriberr-cuda-blackwell 镜像。这体现了作者对细节的关注和使用技术的与时俱进。

首次启动可能需要一些时间,因为 Scriberr 会初始化 Python 环境、下载必要的 ML 模型(Whisper、PyAnnote、NVIDIA NeMo)并设置数据库。但后续启动会快得多,因为所有模型都存储在本地。

实际应用:Scriberr 将在哪些场景大放异彩

Scriberr 可以在哪些场景成为你不可或缺的助手?

  • 开发者和分析师:快速转录会议、站会、用户访谈。能够向 LLM 提问会议结果简直是魔法!
  • 学生和研究人员:录制讲座、研讨会、访谈。自动笔记和关键词搜索。
  • 内容创作者:播客主、YouTuber。字幕生成、博客文章转录、快速搜索音频中需要的片段。
  • 记者:转录采访、新闻发布会。快速搜索引语和事实。
  • 任何注重隐私的人:如果你担心你的语音数据可能被第三方公司使用或分析,Scriberr 是你的选择。

结论:谁应该关注 Scriberr?

Scriberr 不仅仅是一个工具,它是寻求强大、隐私保护和灵活转录系统的完整解决方案。如果你:

  • 是一个自托管用户,喜欢掌控一切。
  • 注重隐私,不想将数据发送到云端。
  • 厌倦了转录服务的月度订阅费用。
  • 想要在本地使用 LLM 能力进行音频分析。
  • 在寻找一款能轻松集成到工作流程的工具

那么 Scriberr 绝对值得你关注。它是一个很好的例子,展示了如何在使用现代技术的同时坚持开源和隐私原则。试试看,也许它会成为你处理音频的新宠工具!

相关项目