Откриване и превод на субтитри в реално време, задвижвани от AI

VitaScribe комбинира персонализиран модел за откриване на обекти YOLOv26, PaddleOCR и невронна машинна преводаческа технология, за да преодолее езиковите бариери при видео съдържание.

Прочетете техническата документация →

Резюме

VitaScribe е настолно приложение за Windows, изградено с WPF и .NET 9, което предоставя превод на субтитри в реално време чрез наслагване за всяко видео, което се възпроизвежда на екрана на потребителя. Системата работи в три отделни режима: (1) автоматично разпознаване на субтитри чрез YOLO с OCR и превод, (2) ръчно заснемане на екрана на базата на региони с OCR и превод, и (3) транскрипция на аудио чрез Whisper с превод. Приложението е създадено за образователна достъпност, позволявайки на студентите да консумират лекции и уроци, които съществуват само на чужд език, както и позволявайки на учителите да използват международни образователни ресурси в класните си стаи.

Проблемна област

Най-висококачественото образователно съдържание в света — лекции от MIT OpenCourseWare, специализации в Coursera, специализирани уроци в YouTube — е предимно създадено на английски или малък брой доминиращи езици. Учениците в държави, които не говорят английски, обменните студенти и възрастните учащи често нямат езиковите познания, за да консумират това съдържание ефективно. Съществуващите решения, като функцията за автоматичен превод на YouTube, са бавни, неточни и недостъпни за много видео платформи. VitaScribe адресира тази празнина, като предоставя платформено-независим, локален pipeline за превод в реално време, който работи върху всеки видео източник.

Системен pipeline

Целият процес на обработка работи за под 200ms от край до край. YOLO открива регионите със субтитри, PaddleOCR извлича текста, а преводаческият двигател генерира финалния изход — всичко това паралелно върху GPU.

📸
Заснемане на екран
GDI+ CopyFromScreen
🧠
YOLO Откриване
YOLOv26n ONNX
📝
PaddleOCR
GPU-ускорение
🌐
Превод
LibreTranslate / LLM
🖥️
WPF Наслагване
Click-Through

Ключови показатели

80%+
Точност
<100ms
Латентност
3
Преводачи
10+
Езици

Технологичен стек

Компонент Технология Цел
Frontend WPF (.NET 9, C#) Desktop UI, наслагване, анимации
Откриване на обекти YOLOv26 Nano (ONNX чрез YoloDotNet) Откриване на ограничителната кутия на субтитрите
OCR двигател PaddleOCR v3 (Sdcb.PaddleOCR) Извличане на текст от открити региони
Превод (Локален) LibreTranslate (Self-hosted Python venv) Офлайн превод, фокусиран върху поверителността
Превод (LLM) OpenAI-съвместим API (напр. LM Studio) Контекстуален превод с история
Аудио транскрипция Whisper.net (GGML Base модел, Vulkan → CPU fallback) Системен аудио loopback → текст
Обработка на изображения OpenCvSharp4, SkiaSharp Цветово преобразуване, работа с bitmap
Аудио заснемане NAudio (WASAPI Loopback) Заснемане на системно аудио без микрофон