voice-to-obsidian - Elton Labs

### Голосовой ввод и диктовка: как превратить речь в текст в Obsidian и не только >[!quote] ![[Pasted image 20250708224716.png]] >[!success] В эпоху цифровых заметок голосовой ввод становится всё более востребованным: речь позволяет быстро фиксировать мысли «на ходу», не отвлекаясь на печатание. Особенно это актуально для продуктивности и личной работы – например, когда вы слушаете лекцию или размышляете о прочитанном и хотите не потерять мгновенную идею. Ниже разберём популярные методы диктовки, их плюсы и минусы, сценарии использования и интеграции с Obsidian. ### Сравнение инструментов голосового ввода (резюме) | Инструмент / сервис | Простота использования | Платформа | Интеграция с Obsidian | | --------------------------------- | --------------------------- | ---------------------------- | ----------------------------------- | | **iOS диктовка** | очень просто (клавиатура) | iPhone/iPad | встроенный Clipboard, Shortcuts | | **Android диктовка** | очень просто (клавиатура) | Android | приложения-перехватчики, Shortcuts | | **Сторонние клавиатуры** | средняя (нужна установка) | Android/iOS (Gboard/Yandex) | не напрямую | | **Telegram (боты/премиум)** | просто (отправил голосовое) | iOS/Android/Web (Telegram) | через плагин Telegram Sync | | **Siri/Shortcuts** | просто (универсально) | iOS/macOS | Shortcuts для Obsidian URI | | **Windows dictation** | очень просто (Win+H) | Windows 10/11 | работaет в любом приложении | | **macOS диктовка** | просто (Fn дважды) | MacOS | работает в любых полях | | **Google Docs Voice** | легко (Chrome Tools) | Windows/macOS/Linux (Chrome) | экспорт в Markdown через Copy | | **Расширения (Voice In)** | просто (Chrome ext.) | Любая ОС (Chrome) | ввод в любом поле браузера | | **Приложения (Speechnotes, др.)** | просто (старт) | Windows/macOS/Android | вручную копировать/передать | | **Otter.ai** | средняя (регистрация) | Web/iOS/Android | можно экспортить текст | | **Whisper (CLI/сервис)** | средняя (командная строка) | Любая (Python/CLI) | через скрипты или плагины | | **NotebookLM (Google)** | средняя (веб-сервис) | Web | нет прямой, можно скармливать текст | | **Whisper API (плагин)** | просто (установить, API) | Obsidian | встроенный плагин | | **GPT Assistant (плагин)** | просто (установить, API) | Obsidian | генерирует ответы по заметкам | | **Telegram Sync (плагин)** | просто (бот+токен) | Obsidian | сохраняет голосовые и текст | --- ## 📱 Мобильный ввод #### 1️⃣ Встроенные функции: На смартфонах и планшетах большинство клавиатур имеют **кнопку** **микрофона** — достаточно коснуться её и начать говорить. Система сама определит конец фразы (или нажмите «Готово»). Голосовой ввод на iOS и Android поддерживает русский язык и обычную пунктуацию (скажите «точка», «запятая» и т.п.). ✔️ **Плюсы**: - всегда под рукой, - не требует сторонних приложений, - хорошо подходит для быстрых заметок. 🔴 **Минусы**: - нужно поправлять пунктуацию или форматировать текст голосом; - фразы воспринимаются буквально (иначе получается «speech to text» без разделения на главы). >[!example] Один участник нашего чата заметил: >_«В аудиофайле заметку не увидишь – не пробежишь глазами, не найдёшь нужное»_. То есть при диктовке сразу в текст вы теряете аудиозапись, но получаете текст, который можно искать и связывать. --- #### 2️⃣ Сторонние клавиатуры (Gboard, Яндекс и др.). Google-клавиатура (Gboard) и другие позволяют тоже диктовать голосом. Настройка: - [ ] добавьте нужную раскладку (русскую) и нажмите микрофон на клавиатуре. - [ ] Поддерживают дополнительные голосовые команды и чаще акцентированы на точность (Yandex.Клавиатура, например, оптимизирована под русский). - [ ] Это просто и знакомо большинству пользователей, хотя технически тут нет тесной интеграции с Obsidian – текст придётся скопировать. --- #### 3️⃣ Telegram-боты и сообщения На ходу можно послать голосовое самому себе или боту в Telegram. *Ранее, мы обсуждали синхронизацию Telegram-бота, который позволяет отправлять текст или аудио прямо в хранилище вашего Obsidian.* *Посмотрите [[obsidian-sync|здесь, способы синхронизации Obsidian]]* 🎙️ Если у вас включена «Транскрипция голосовых сообщений» в **Telegram Premium**, под каждым голосовым станет кнопка «Текст»: по ней получим готовую стенограмму. В чате разработчиков Obsidian советуют ещё один сценарий: - записать сообщение на iPhone (например, «Диктофоном»), - переслать в Telegram, - бот/плагин автоматически транскрибирует его. Например, Telegram Sync плагин может автоматически сохранять текст голосовых сообщений (с платной Premium-транскрипцией) в файлы заметок. Такой подход удобен, если вы уже активно пользуетесь Telegram для заметок. --- #### 4️⃣ Shortcuts (Siri, Google Assistant). iOS и Android имеют голосовых ассистентов (Siri, Google). Можно, например, создать **Shortcuts**: - [ ] включить «Голосовой ввод» как действие в Shortcut, чтобы нажатием кнопки или голосом («Siri, продиктуй заметку Obsidian») сразу записать текст в заметку. - [ ] В Obsidian есть даже пользовательские решения: через Advanced URI можно вызвать создание новой заметки и вставку текста. - [ ] Для Android схожая схема: **Google Assistant** можно попросить «Записать заметку [текст]», а потом экспортировать в Obsidian. --- ## 💻 Десктопный ввод (на компьютере) #### 1️⃣ Google Docs – Диктовка 1. В браузере Chrome откройте Google Docs, 2. выберите в меню **Инструменты → Голосовой ввод**. 3. Появится микрофон: нажмите его и говорите. 4. Google Cloud Speech-to-Text поддерживает русский (код `ru-RU`), так что речь транскрибируется с хорошей точностью. ✔️ **Плюсы**: - часто работает даже через плохой микрофон, - умеет пунктуацию, - бесплатен (до лимита). **Минусы**: - только в браузере, - нужно интернет, и надо потом скопировать текст в Obsidian (либо синхронизировать через свой метод). >[!quote] Простой пример: >диктуете целый черновик статьи или лекции, а затем переносите результат в Markdown. --- #### 2️⃣ Диктовка в macOS На Mac в **Системных настройках → Клавиатура → Диктовка** включите функцию, выберите язык «Русский». 1. Диктовка запускается двойным нажатием Fn (или другой назначенной клавишей). 2. После этого можно говорить любые заметки. ✔️ **Достоинство**: - работает во всех приложениях (включая Obsidian), - поддерживает команды «запятая», «точка» и некоторые действия (удалить это, новый абзац и т.д.). >[!quote] Один пользователь отметил: >в macOS можно добиться очень точного распознавания: главное – выбрать русский язык в настройках. 🔴 **Минусы**: - тоже требует подключения к интернету - действует голосовая команда «Начать диктовать». (В macOS есть и офлайн-режим «улучшенная диктовка», но он хуже понимает русский.) --- #### 3️⃣ Встроенный голосовой ввод Windows. В Windows 10/11 есть система диктовки: достаточно поставить курсор в текстовое поле и нажать сочетание **Win+H**. Появится окно голосового ввода, говорите – слова появятся в документе. Windows 11 официально **поддерживает русский язык** диктовки. ✔️**Преимущества**: - работает в любом приложении, даже в Obsidian (любом текстовом редакторе). 🔴 **Недостатки**: - иногда некорректно ставит точки и запятые, - для «прекратить» надо сказать «Закончить прослушивание» или нажать кнопку. --- ## 🤖 Специализированные приложения #### 1️⃣ Speechnotes (онлайн-блокнот и Android-приложение) >[!info] О приложении: >Speechnotes использует технологии Google и поддерживает русский. На сайте или в приложении можно сразу диктовать заметку – всё автоматически сохранится. ✔️ **Его плюс:** - фокус на диктовке (есть команды пунктуации, автоматическое исправление), - можно бесплатно. 🔴 **Минус:** - надо копировать текст из браузера в Obsidian. - Аналогично с расширением **Voice In – Speech-To-Text** для Chrome: оно добавляет голосовой ввод на любой сайт. По данным разработчиков, Voice In позволяет «диктовать без клавиатуры по-русски» более чем на 10 000 сайтах, включая Google Docs, Gmail, ChatGPT и т.д.. Это очень удобно, если вы часто печатаете из браузера: говорите в любое поле ввода. --- #### 2️⃣ Whisper (CLI и сервисы). OpenAI Whisper – бесплатная модель для расшифровки аудио. Она **поддерживает русский язык** и замечательно распознаёт речь с шумами и акцентами. Можно запустить Whisper у себя (есть Python-клиент, Docker, «Whisper.cpp» для офлайн) или воспользоваться сторонними сервисами (например, сервера на базе Faster-Whisper). --- #### 3️⃣ Wispr Flow – AI-клавиатура-диктовщик Wispr Flow — это приложение на iOS, macOS и Windows, которое превращает вашу речь в текст в любом поле ввода, включая Obsidian, браузеры, мессенджеры, IDE, почтовые клиенты и другие инструменты ✔️ **Плюсы**: - Работает везде: Obsidian, Telegram, VS Code, Gmail и др. - Быстрее печати в 3–4 раза (Flow обещает ~220 слов/мин против ~45 печатных) - Обрабатывает речь локально + AI‑команды + авто‑редактирование текста - Обещают надёжную приватность: данные не используются для тренировки ИИ, пока ты явно не включил это 🔴 **Минусы / замечания**: - Инсталляция весит около 800 МБ, потребляет CPU ≈ 8% даже в простое, и постоянно работает в фоне (подключается к автозапуску) - Пользователи жалуются на внедрение в контекстные меню, мониторинг приложений (Firefox/Chrome), отсутствие прозрачности по сбору данных - Есть вопросы по безопасности: неизвестно, как и что именно передаётся, нет чётких границ --- #### ⭐ В Obsidian доступны плагины и скрипты: например, плагин **Whisper API** позволяет вести запись прямо в заметке или загружать аудиофайл, а он создаёт транскрипт. Это мощный способ: вы просто говорите – и текст автоматически формируется. >[!quote] Главное >– учесть, что большие аудиозаписи придётся обрабатывать дольше. Whisper выгоден тем, что **многоязычен и офлайн** (если установить локальную модель). --- ### Комбинировать подход? Так, например, можно комбинировать: - [ ] быстрый голос в путь, а точные формулировки – диктуйте подольше. - [ ] Кому-то удобнее писать руками, а кто-то получает поток мыслей именно в устной речи. Проводите эксперименты: попробуйте разные плагины и сервисы, чтобы найти свой баланс скорости и точности. >[!quote] Главное – чтобы ваш голос стал помощником в заметках, а не помехой. --- ### 🌍 Что советуют эксперты и техноблоги **Если верить обзорам**, список выглядит так: 1. **Rev** — топ по качеству транскрибации 2. **Dragon Anywhere** — безумно точный, но дорогой 3. **Descript** — идеален для видео и подкастов 4. **Google Voice Typing / Word диктовка** — для ленивых, но быстро 5. **Speechnotes / Braina Pro** — недооценённые, но удобные ### 💬 Что выбирают у нас, в Obsidian & Mind Club ##### 🥇 **Wispr Flow** — безумно быстрый, почти как мысль > «Вставляется в любую программу. Работает как магия». > «Пишу в Obsidian голосом и не парюсь». > — Участники клуба **Плюсы**: универсальный, работает везде, офигенно точный **Минусы**: жрёт ресурсы, постоянно в фоне, трогает браузеры --- #### 🥈 **Telegram Sync + Whisper или Premium диктовка** > «Надиктовал — получил заметку. Просто. Удобно.» **Плюсы**: нативно, мобильно, интеграция с Obsidian **Минусы**: Telegram не всегда стабилен, требует привыкания --- #### 🥉 **Whisper CLI / API / плагины** > «Whisper — это ChatGPT, только для звука. Работает, даже когда всё остальное тупит». **Плюсы**: работает оффлайн, точность на высоте **Минусы**: требует навыков, не для новичков --- #### 🏅 **Siri Shortcuts + Obsidian URI** > «Сказал — создалось». > «Приватность на максимум. Все мысли — внутри устройства». **Плюсы**: автономно, без интернета, кастомно **Минусы**: только iOS, нужно настроить Shortcut --- > [!abstract] Идем дальше? > - 🗃️ [[base/Шаблоны|Шаблоны в Obsidian — примеры и как их создавать]] > - [[Главная страница|⬅️ Назад на главную]]