VitaScribe комбинира персонализиран модел за откриване на обекти YOLOv26, PaddleOCR и невронна машинна преводаческа технология, за да преодолее езиковите бариери при видео съдържание.
Прочетете техническата документация →VitaScribe е настолно приложение за Windows, изградено с WPF и .NET 9, което предоставя превод на субтитри в реално време чрез наслагване за всяко видео, което се възпроизвежда на екрана на потребителя. Системата работи в три отделни режима: (1) автоматично разпознаване на субтитри чрез YOLO с OCR и превод, (2) ръчно заснемане на екрана на базата на региони с OCR и превод, и (3) транскрипция на аудио чрез Whisper с превод. Приложението е създадено за образователна достъпност, позволявайки на студентите да консумират лекции и уроци, които съществуват само на чужд език, както и позволявайки на учителите да използват международни образователни ресурси в класните си стаи.
Най-висококачественото образователно съдържание в света — лекции от MIT OpenCourseWare, специализации в Coursera, специализирани уроци в YouTube — е предимно създадено на английски или малък брой доминиращи езици. Учениците в държави, които не говорят английски, обменните студенти и възрастните учащи често нямат езиковите познания, за да консумират това съдържание ефективно. Съществуващите решения, като функцията за автоматичен превод на YouTube, са бавни, неточни и недостъпни за много видео платформи. VitaScribe адресира тази празнина, като предоставя платформено-независим, локален pipeline за превод в реално време, който работи върху всеки видео източник.
Целият процес на обработка работи за под 200ms от край до край. YOLO открива регионите със субтитри, PaddleOCR извлича текста, а преводаческият двигател генерира финалния изход — всичко това паралелно върху GPU.
| Компонент | Технология | Цел |
|---|---|---|
| Frontend | WPF (.NET 9, C#) | Desktop UI, наслагване, анимации |
| Откриване на обекти | YOLOv26 Nano (ONNX чрез YoloDotNet) | Откриване на ограничителната кутия на субтитрите |
| OCR двигател | PaddleOCR v3 (Sdcb.PaddleOCR) | Извличане на текст от открити региони |
| Превод (Локален) | LibreTranslate (Self-hosted Python venv) | Офлайн превод, фокусиран върху поверителността |
| Превод (LLM) | OpenAI-съвместим API (напр. LM Studio) | Контекстуален превод с история |
| Аудио транскрипция | Whisper.net (GGML Base модел, Vulkan → CPU fallback) | Системен аудио loopback → текст |
| Обработка на изображения | OpenCvSharp4, SkiaSharp | Цветово преобразуване, работа с bitmap |
| Аудио заснемане | NAudio (WASAPI Loopback) | Заснемане на системно аудио без микрофон |