Convergence region size research of television signal superposition iteration method for measurement machine vision system
- Authors: Diyazitdinov R.R.1
-
Affiliations:
- Povolzhskiy State University of Telecommunications and Informatics
- Issue: Vol 27, No 2 (2024)
- Pages: 77-84
- Section: Articles
- URL: https://journals.ssau.ru/pwp/article/view/27703
- DOI: https://doi.org/10.18469/1810-3189.2024.27.2.77-84
- ID: 27703
Cite item
Full Text
Abstract
Background. Image processing is used in machine vision measurement systems, which are widely used in industrial applications. One of the important tasks in processing is image superposition. Registration methods must fulfill two basic requirements: satisfactory registration quality and practical processing time. One of the methods that meets these requirements is iterative superposition.
Aim. The aim is to study the size of the area (region of convergence) for the values of the parameters of the initial approximation, which ensures satisfactory superposition. The size of the region determines the performance of the iterative algorithm.
Methods. The size of the region of convergence was determined experimentally: correlation analysis and statistical simulation.
Results. Experiments have shown if a sampling step is no more than 1/10 of the size of the image fragment, then the probability of correct registration is almost equal to one. If this threshold is exceeded, then the probability decreases.
Conclusion. The size of the region of convergence of the iterative image registration method has been established. It is possible to design processing algorithms and predict processing time by obtaining results. The superposition method was introduced into a machine vision system to recognize contact wire clamps on the railway. Image superposition in this system is carried out in real time.
Full Text
Введение
Обработка изображения представляет собой важную область исследования в современном мире. Она является неотъемлемой частью измерительных систем технического зрения, которые широко распространены в различных промышленных сферах. Например, для беспилотных летательных аппаратов обработка изображений используется при корректировке показаний датчиков пространственного положения. При автоматической конвейерной сборке автомобилей применяются роботизированные системы, оснащенные камерами и профильными датчиками. Управление их механическими манипуляторами происходит благодаря обработке изображений. В авиации обработка изображений используется на этапе посадки воздушных судов, предоставляя пилотам дополнительную визуальную информацию при плохих погодных условиях. На железной дороге обработка изображений осуществляется на диагностических комплексах при определении состоянии инфраструктуры железнодорожных путей.
Одной из актуальных задач при обработке является совмещение изображений. Совмещение может представлять собой самостоятельную задачу (например, для измерения скорости протяженных объектов необходимо совмещать два соседних кадра [1], а для трехмерной реконструкции – находить соответствие между фрагментами изображений [2]), а может являться частью предобработки (например, совмещение для последующего детектирования и распознавания объектов, для восстановления формы сигналов и т. д.).
В системе технического зрения особую важность представляют две характеристики:
- стабильность результатов совмещения;
- приемлемое для практического использования время обработки.
Наибольшей стабильностью обладают методы, основанные на полном переборе, однако они требовательны к вычислительным ресурсам, поэтому их применение сильно ограничено требованием времени обработки. В особенности это актуально для систем, работающих в режиме реального времени.
Поэтому наряду с переборными методами в системах технического зрения стали применяться итерационные методы, обладающие более высокой скоростью обработки. Особенность итерационных методов заключается в выборе параметров первого приближения, которые определяют процесс обработки.
Можно выделить две ситуации.
- Значения параметров первого приближения находятся в некоторой окрестности искомых параметров, которые обеспечивают удовлетворительное совмещение.
- Значения параметров первого приближения не принадлежат этой окрестности.
Размер окрестности (рабочей зоны) является важной характеристикой метода, от которой зависит скорость обработки телевизионных сигналов.
1. Исследуемый итерационный метод
В работе [3] описан метод итерационного совмещения телевизионных сигналов. Метод позволяет оценить шесть параметров: смещение вдоль оси абсцисс и ординат, поворот, масштаб, аддитивную и мультипликативную составляющую.
В методе проводится раздельная оценка двух групп параметров:
- смещения вдоль координатных осей с применением декартовой системы координат;
- поворота и масштаба с использованием логарифмически полярной системы координат.
После проведения итерационной обработки оцениваются аддитивная и мультипликативная составляющие.
В основе метода лежит идея, что если известна хотя бы одна реперная точка на изображениях (телевизионных сигналах), то этого будет достаточно для совмещения. Реперная точка на первом изображении соответствует центру, а координаты реперной точки на втором изображении определяются в ходе итерационной обработки. Одновременно с координатами реперной точки оцениваются и параметры совмещения. Для этого метода размер рабочей зоны определяется допустимым отклонением координат реперной точки первого приближения от искомой точки.
Исследованию размера рабочей зоны метода [3] посвящена данная статья.
2. Обзор методов совмещения
Среди методов совмещения изображений можно выделить два основных направления. К первому направлению относятся методы с предварительным распознаванием точек интереса (особых точек, feature points и т. д.), последующим сопоставлением и расчетом параметров совмещения по двум наборам точек [4–6]. Существующий недостаток, связанный с неверным сопоставлением точек интереса, часто устраняют с помощью метода RANSAC [7]. Основной недостаток методов этого направления заключается в том, что для слабоконтрастных (например, съемки во время тумана) или малоинформативных (например, съемка однородных по яркости объектов изображений) метод характеризуется высокой вероятностью ошибок из-за того, что не определяется достаточного количества точек интереса.
Ко второму направлению относятся итерационные методы. Метод совмещения phase-correlation [8; 9] основан на робастном оценивании угла поворота и масштаба с помощью образа изображения, полученного в результате преобразования Фурье, примененного к логарифмически полярному представлению изображения. Рабочая зона определяется допустимым отклонением координат реперной точки второго изображения, не превышающих 10 % от размера исходного изображения. Однако существенным недостаткам является достаточно узкий диапазон оценки масштаба (±20 %) и поворота (±30°).
Еще одним итерационным методом стало совмещение на основе предварительного разложения обрабатываемых сигналов в ряд Тейлора [10]. Однако этот метод предназначен преимущественно для оценки смещений и в некоторых случаях – для оценки поворота [11]. Рабочая зона определяется 2–3 пикселями по смещению и 5–15° по углу в зависимости от вида изображений.
Несколько иной метод на основе стохастического подхода был предложен в работе [12]. Принцип оценки основан на итерационном приближении параметров совмещений. Однако рабочая зона почти такая же, как и у предыдущего метода. Дополнительно метод позволяет оценивать масштаб в диапазоне ±5 %.
Оригинальный метод неподвижной точки был описан в работе [13]. Его идея заключается в предварительной оценке неподвижной точки, относительно которой происходит расчет поворота и масштаба. Высокая вычислительная производительность обеспечивается за счет использования проекций (суммирования изображений вдоль строк и столбцов). Рабочая зона по смещению составляет приблизительно 20 % от размера совмещаемого изображения. Масштаб и поворот оценивались с помощью переборных способов. Однако исследования показывают, что метод чувствителен к аддитивным и мультипликативным составляющим. Поэтому предварительно необходимо проводить нормализацию сигналов по среднему значению и среднеквадратичному отклонению.
Для итерационного метода [3] были приведены экспериментальные исследования, чтобы определить размер рабочей зоны.
3. Определение размера рабочей зоны
На рис. 1 показано изображение, полученное от системы технического зрения, контролирующей подвижной состав. Из исходного изображения g(x, y) (см. рис. 1, б) был взят фрагмент и преобразован в соответствии с параметрами:
- масштаб
- угол поворота
- смещение по оси абсцисс пикселей;
- смещение по оси ординат пикселей;
- мультипликативная составляющая
- аддитивная составляющая у. е. (примечание: условная единица соответствует 1/255 от максимальной яркости, которую способна зафиксировать видеосистема).
Рис. 1. Формирование совмещаемых изображений
Fig. 1. Formation of combined images
В результате было сформировано изображение f(x, y) (см. рис. 1, а).
На рис. 1 отмечено положение реперных точек. Для телевизионного сигнала f(x, y) реперная точка соответствует центру (x0, y0) = (81, 81), для телевизионного сигнала g(x, y) – (x’0, y’0) = (220, 94).
Если использовать эти точки для совмещения, то наблюдается практически полное совпадение сигналов (см. рис. 2). Коэффициент корреляции между изображениями равен 0,99.
Для доказательства, что точка (220, 94) является реперной для точки (81, 81), были проверены все точки изображения g(x, y). Для каждой точки оценивались параметры совмещения, а после совмещения рассчитывался коэффициент корреляции.
Рис. 2. Результат совмещения
Fig. 2. Result of combination
Результат этих проверок показан на рис. 3 и в таблице. На рис. 3 значение коэффициента корреляции описывается яркостью в предположении, что единичное значение соответствует максимальной яркости (белый цвет), а нулевое значение – минимальной яркости (черный цвет).
Как можно видеть из приведенных результатов, точка (x’0, y’0) = (220, 94) обеспечивает максимальное совпадение изображений после совмещения и является единственным глобальным экстремумом. Таким образом, эксперимент подтвердил, что точка (220, 94) является реперной для точки (81, 81).
Таблица. Значение корреляции в окрестности точки (x’0, y’0) = (220, 94)
Table. Correlation for point neighborhood (x’0, y’0) = (220, 94)
№ столбца № строки | 216 | 217 | 218 | 219 | 220 | 221 | 222 | 223 | 224 |
90 | 0,322 | 0,385 | 0,444 | 0,530 | 0,543 | 0,490 | 0,363 | 0,213 | 0,159 |
91 | 0,295 | 0,385 | 0,483 | 0,605 | 0,642 | 0,566 | 0,393 | 0,202 | 0,135 |
92 | 0,273 | 0,381 | 0,520 | 0,695 | 0,766 | 0,680 | 0,458 | 0,259 | 0,175 |
93 | 0,265 | 0,365 | 0,554 | 0,801 | 0,915 | 0,812 | 0,558 | 0,350 | 0,214 |
94 | 0,257 | 0,369 | 0,560 | 0,851 | 0,990 | 0,879 | 0,623 | 0,425 | 0,266 |
95 | 0,255 | 0,351 | 0,520 | 0,787 | 0,925 | 0,834 | 0,627 | 0,454 | 0,334 |
96 | 0,258 | 0,322 | 0,456 | 0,653 | 0,760 | 0,715 | 0,593 | 0,474 | 0,380 |
97 | 0,278 | 0,291 | 0,415 | 0,532 | 0,593 | 0,587 | 0,526 | 0,474 | 0,405 |
98 | 0,280 | 0,281 | 0,391 | 0,456 | 0,472 | 0,462 | 0,478 | 0,454 | 0,402 |
Рис. 3. Коэффициент корреляции для всех точек g(x, y)
Fig. 3. Correlation coefficient for image points g(x, y)
Второй эксперимент был проведен с целью определения точек в окрестности (220, 94), которые позволяют корректно совместить телевизионные сигналы в результате обработки по итерационному методу. В эксперименте проверялась окрестность размером ±20 пикселей (см. рис. 4). Белым цветом были отмечены точки, обеспечивающие корректные совмещения.
Пример траектории измерения реперной точки в ходе итерационной процедуры обработки приведен на рис. 5. Цифрами от 1 до 3 показан номер итерации. Таким образом, для выбранной точки совмещение изображений произошло за три итерации.
Рис. 4. Эксперимент по определению точек, обеспечивающих корректное совмещение
Fig. 4. Experiment: points of acceptable superpostion
Рис. 5. Пример итерационной оценки положения реперной точки
Fig. 5. Example: iteration estimation of reference point coordinate
Как можно видеть, наибольшее количество точек сосредоточено в квадратной области на расстоянии 10 пикселей от реперной точки. После совмещения фрагмент имеет размеры 107 × 107 пикселей (примечание: 161/1,5 = 107,3 пикселей), то есть для этих изображений размер рабочей зоны составил приблизительно 1/10 от размеров совмещаемого фрагмента.
Подобные эксперименты были проведены еще для 10 изображений. Во всех случаях были получены практически одинаковые результаты. Однако время обработки достаточно велико. Чтобы проверить итерационный метод на большом количестве изображений (примечание: выборка из 10 000 изображений), использовался статистический способ.
Реперные точки (x’0, y’0) выбирались с равномерным шагом прореживания (см. рис. 6).
Чем меньше шаг прореживания, тем выше вероятность, что выбранная точка окажется в окрестности искомой точки, и наоборот. Результаты экспериментов показали, что при использовании шага прореживания, не превышающего 1/10 от размера совмещаемого фрагмента, вероятность корректного совмещения практически равняется единице. При превышении этого порога вероятность совмещения начинает уменьшаться.
Рис. 6. Выбор реперных точек
Fig. 6. Selecting reference points
Таким образом, оба эксперимента привели к одним и тем же результатам.
Заключение
В ходе исследования метода итерационного совмещения [3] было установлено, что размеры рабочей зоны составляют приблизительно 1/10 от размера совмещаемого телевизионного сигнала.
На основании полученных результатов можно проводить проектирование системы технического зрения с программным обеспечением, в котором реализован итерационный метод совмещения.
В частности, метод был внедрен в систему технического зрения для распознавания фиксаторов контактного провода на железной дороге [14], в которой происходит совмещение разномасштабных изображений в режиме реального времени. Оптимизация по скорости обработки проводилась с учетом полученных в статье результатов.
About the authors
Rinat R. Diyazitdinov
Povolzhskiy State University of Telecommunications and Informatics
Author for correspondence.
Email: rinat.diyazitdinov@gmail.com
ORCID iD: 0000-0001-6360-0351
Candidate of Technical Sciences, associate professor of the Department of Networks and Communication Systems
Russian Federation, 23, L. Tolstoy Street, Samara, 443010References
- N. N. Vasin and V. Yu. Kurinskiy, “Video signal processing method for measuring the speed of extended objects,” Infokommunikacionnye tehnologii, vol. 8, no. 2, pp. 36‒39, 2010, url: https://elibrary.ru/item.asp?id=15182359. (In Russ.)
- V. V. Kolyakin, V. I. Averchenkov, and M. V. Terekhov, “Methods for estimating model parameters for solving the problem of three-dimensional reconstruction of complex models of real objects,” Vestnik Bryanskogo gosudarstvennogo tekhnicheskogo universiteta, no. 3 (51), pp. 233–242, 2016, doi: https://doi.org/10.12737/22120. (In Russ.)
- R. R. Diyazitdinov, “Iterative algorithm for offsets, scale and rotate estimation for television image superposition with additive and multiplicative noise,” Physics of Wave Processes and Radio Systems, vol. 25, no. 1, pp. 36–44, 2022, doi: https://doi.org/10.18469/1810-3189.2022.25.1.36-44. (In Russ.)
- D. G. Lowe, “Distinctive image features from scale-invariant keypoints,” International Journal Computer Vision, vol. 60, no. 2, pp. 91−110, 2004, doi: https://doi.org/10.1023/B:VISI.0000029664.99615.94.
- P. Schwind et al., “Applicability of the SIFT operator to geometric SAR image registration,” International Journal Remote Sens, vol. 31, no. 8, pp. 1959−1980, 2010, doi: https://doi.org/10.1080/01431160902927622.
- H. Bay et al., “SURF: Speeded up robust features,” Computer Vision and Image Understanding, vol. 110, no. 3, pp. 346−359, 2008, doi: https://doi.org/10.1016/j.cviu.2007.09.014.
- O. Chum, “Two-view geometry estimation by random sample and consensus,” Ph.D. dissertation, Prague, 1993, url: https://cmp.felk.cvut.cz/~chum/papers/Chum-PhD.pdf.
- E. V. Myasnikov, “Determining the parameters of geometric transformations for combining portrait images,” Komp’yuternaya optika, vol. 31, no. 3, pp. 77–82, 2007, url: https://www.computeroptics.ru/KO/Annot/KO31-3/14.html. (In Russ.)
- A. Alba et al., “Phase correlation based image alignment with subpixel accuracy,” 11th Mexican International Conference on Artificial Intelligence (MICAI 2012), vol. 7629, pp. 171–182, 2012, doi: https://doi.org/10.1007/978-3-642-37807-2_15.
- B. D. Lucas and T. Kanade, “An iterative image registration technique with an application to stereo vision,” Proceedings of the 7th International Joint Conference on Artificial Intelligence (IJCAI), Vancouver, Canada, 24–28 August, pp. 121–130, 1981.
- R. R. Diyazitdinov, “Offset and rotate measurement for video signal superposition,” Physics of Wave Processes and Radio Systems, vol. 22, no. 2, pp. 57–61, 2019, doi: https://doi.org/10.18469/1810-3189.2019.22.2.57-61. (In Russ.)
- A. G. Tashlinskiy, G. L. Safina, and R. O. Kovalenko, “Optimization criterion for algorithms for estimating parameters of interframe geometric deformations of digital images based on the rate of convergence of parameter estimates,” DSPA: Voprosy primeneniya tsifrovoy obrabotki signalov, vol. 8, no. 3, pp. 204–208, 2018, url: https://www.elibrary.ru/item.asp?id=36430350. (In Russ.)
- V. R. Krasheninnikov and A. D. Kadeev, “Algorithm for estimating image shift and rotation based on the fixed point method,” Izvestiya Samarskogo nauchnogo tsentra Rossiyskoy akademii nauk, vol. 15, no. 4, pp. 931–935, 2013, url: https://cyberleninka.ru/article/n/algoritm-otsenivaniya-sdviga-i-povorota-izobrazheniy-na-osnove-metoda-nepodvizhnoy-tochki?ysclid=lwi4fr69ec414039685. (In Russ.)
- R. R. Diyazitdinov, “Combination of multi-scale images for video surveillance systems for railway applications in real time,” Elektrosvyaz’, no. 11, pp. 84–90, 2023, doi: https://doi.org/10.34832/ELSV.2023.48.11.013. (In Russ.)