Откриване и превод на субтитри в реално време, задвижвани от AI

VitaScribe комбинира персонализиран модел за откриване на обекти YOLOv26, PaddleOCR и невронна машинна преводаческа технология, за да преодолее езиковите бариери при видео съдържание.

Прочетете техническата документация →

Резюме

VitaScribe е настолно приложение за Windows, изградено с WPF и .NET 9, което предоставя превод на субтитри в реално време чрез наслагване за всяко видео, което се възпроизвежда на екрана на потребителя. Системата работи в три отделни режима: (1) автоматично разпознаване на субтитри чрез YOLO с OCR и превод, (2) ръчно заснемане на екрана на базата на региони с OCR и превод, и (3) транскрипция на аудио чрез Whisper с превод. Приложението е създадено за образователна достъпност, позволявайки на студентите да консумират лекции и уроци, които съществуват само на чужд език, както и позволявайки на учителите да използват международни образователни ресурси в класните си стаи.

Проблемна област

Най-висококачественото образователно съдържание в света — лекции от MIT OpenCourseWare, специализации в Coursera, специализирани уроци в YouTube — е предимно създадено на английски или малък брой доминиращи езици. Учениците в държави, които не говорят английски, обменните студенти и възрастните учащи често нямат езиковите познания, за да консумират това съдържание ефективно. Съществуващите решения, като функцията за автоматичен превод на YouTube, са бавни, неточни и недостъпни за много видео платформи. VitaScribe адресира тази празнина, като предоставя платформено-независим, локален pipeline за превод в реално време, който работи върху всеки видео източник.

Системен pipeline

Целият процес на обработка работи за под 200ms от край до край. YOLO открива регионите със субтитри, PaddleOCR извлича текста, а преводаческият двигател генерира финалния изход — всичко това паралелно върху GPU.

📸

Заснемане на екран

GDI+ CopyFromScreen

→

🧠

YOLO Откриване

YOLOv26n ONNX

→

📝

PaddleOCR

GPU-ускорение

→

🌐

Превод

LibreTranslate / LLM

→

🖥️

WPF Наслагване

Click-Through

Ключови показатели

80%+

Точност

<100ms

Латентност

Преводачи

10+

Езици

Технологичен стек

Компонент	Технология	Цел
Frontend	WPF (.NET 9, C#)	Desktop UI, наслагване, анимации
Откриване на обекти	YOLOv26 Nano (ONNX чрез YoloDotNet)	Откриване на ограничителната кутия на субтитрите
OCR двигател	PaddleOCR v3 (Sdcb.PaddleOCR)	Извличане на текст от открити региони
Превод (Локален)	LibreTranslate (Self-hosted Python venv)	Офлайн превод, фокусиран върху поверителността
Превод (LLM)	OpenAI-съвместим API (напр. LM Studio)	Контекстуален превод с история
Аудио транскрипция	Whisper.net (GGML Base модел, Vulkan → CPU fallback)	Системен аудио loopback → текст
Обработка на изображения	OpenCvSharp4, SkiaSharp	Цветово преобразуване, работа с bitmap
Аудио заснемане	NAudio (WASAPI Loopback)	Заснемане на системно аудио без микрофон