Специализирано решение за компютърно зрение, предназначено да идентифицира и локализира текстови региони във видео кадри. За разлика от стандартния OCR, този модел се фокусира върху високоточната детекция на субтитри, които често имат специфични визуални характеристики — контур, сянка, специфични шрифтове и позициониране. Чрез използването на pipeline за генериране на синтетични данни и архитектурата YOLOv26n, системата постига скорости на inference, подходящи за обработка на видео в реално време.
Традиционните подходи за извличане на субтитри разчитат на full-screen OCR — сканиране на всеки пиксел от всеки кадър за текст. Това е изчислително скъпо и води до значителни грешки (false positives) от UI елементи, водни знаци и графики на екрана.
Нашият подход обръща тази парадигма: вместо да сканираме целия екран за текст, първо използваме object detection модел, за да локализираме точния bounding box, където се появяват субтитрите. След това OCR се прилага само върху този малък регион.
Този двустепенен pipeline (Detection → Recognition) предлага няколко ключови предимства:
В ранните версии моделът показваше значителен брой false positives в интерфейсите на видео плейъри.
Добавихме 30% кадри със UI елементи, но без субтитри. Това обучава модела какво не е субтитър.
Вместо обучение от нулата използвахме best.pt и извършихме повторно обучение с по-силни аугментации.
Създадохме автоматизиран pipeline за генериране на синтетични тренировъчни данни.
Augmentation pipeline включва: resolution jitter, JPEG compression, blur и hard negatives.
High Recall: моделът открива субтитри дори върху сложни фонове.
Speed: <100ms inference на GPU (RTX 3080 Ti).
PyTorch моделът се експортира в ONNX формат за cross-platform inference.
| Свойство | Стойност |
|---|---|
| Архитектура | YOLOv26 Nano |
| Framework | Ultralytics YOLO (PyTorch) |
| Формат | ONNX |
| Размер | ~9.3MB |
| Runtime | YOLODotNet + ONNX Runtime (.NET) |
| Latency | <20ms GPU inference |