Resumen: El Reconocimiento de Patrones es el estudio de cómo las máquinas pueden observar el ambiente o entorno, aprender a distinguir patrones de interés a partir de la experiencia, y tomar decisiones razonables con respecto a las categorías a las que pertenecen dichos patrones. El mejor reconocedor de patrones conocido hasta ahora es el ser humano, no sabiéndose a ciencia cierta cuál es el proceso mediante el cual los humanos realizamos esta tarea. El Reconocimiento Optico de Caracteres (OCR) es uno de los tópicos más antiguos dentro del Reconocimiento de Patrones y una de las areas de investigación más importante y activa, que en la actualidad presenta desafío: la precisión en el reconocimiento asociada tanto a caracteres impresos en una imagen degradada o a caracteres manuscritos es aún insuficiente, existiendo errores en el reconocimiento. El Reconocimiento de Dígitos Manuscritos es un tema destacado dentro de OCR, por las aplicaciones relacionadas, como el procesamiento automático de cheques bancarios, la clasificación de correo en base a la lectura de códigos postales, la lectura automática de formularios y documentos con escritura manuscrita, dispositivos de lectura para ciegos, reconocimiento de escritura en computadoras manuales PDA, y porque constituye un problema modelo que incluye desafíos comunes con otros tópicos. Por esta razón, es tomado como referencia para la aplicación y testeo de nuevas teorías y algoritmos del area de Reconocimiento de Patrones en general. En este trabajo de tesis de doctorado se propone una nueva estrategia Bayesiana de combinación de clasificadores que permite detectar ambigüedades y resolverlas, lo que constituye la novedad y principal contribución de la tesis. Se propone, a su vez, un sistema completo de reconocimiento de patrones en dos niveles, con una arquitectura modular y paralelizable, que utiliza distintas características extraídas de los patrones de entrada según el problema a resolver junto con la estrategia Bayesiana ya mencionada que decide la respuesta del sistema. Como elementos componentes del reconocedor, en una primera capa o nivel, se utilizan clasificadores relativamente sencillos y bien posicionados para el problema a tratar. Los elementos pertenecientes a la segunda capa se utilizan para estimar cuán confiable es la respuesta de cada clasificador individual frente a un patrón de entrada, permitiendo decidir cuándo un patrón debe ser considerado bien definido o ambiguo, y en este ultimo caso con qué clases podrá confundirse. Adicionalmente, se proponen y aplican estrategias de selección de clasificadores en la etapa de construcción del reconocedor. El sistema reconocedor de patrones presentado fue aplicado al problema del reconocimiento de dígitos manuscritos off-line, como forma de testear su desempeño. En función de esto, se proponen descriptores basados en características de multirresolución a través del uso de la Transformada Wavelet CDF 9/7 y de Análisis de Componentes Principales, que permiten disminuir considerablemente el tamaño del patrón de entrada y aumentar la calidad de la representación. La experimentación se realizó sobre las bases de datos CENPARMI y MNIST, ampliamente referenciadas para este problema. Se obtuvieron altos porcentajes en el reconocimiento que alcanzaron un 97,40 y 99,32 % para las bases CENPARMI y MNIST respectivamente. Dichos valores son comparables a los resultados publicados considerados representativos.
Abstract: Pattern Recognition is the study of how machines can observe the environment, learn to distinguish patterns of interest from their background, and make sound and reasonable decisions about the categories of the patterns. The best pattern recognizers in most instances are humans, yet we do not understand how humans recognize patterns. Optical character recognition (OCR) is one of the most traditional topics in the context of Pattern Recognition that includes as a key issue the automatic recognition of handwritten characters. The subject has many interesting applications, such as automatic recognition of postal codes, recognition of amounts in banking checks and automatic processing of application forms. Handwritten numeral classification is a difficult task because of the wide variety of styles, strokes and orientations of digit samples. One of the main difficulties lies in the fact that the intra-class variance is high, due to the different forms associated with the same pattern, because of the particular writing style of each individual. Many models have been proposed to deal with this problem, but none of them has succeeded in obtaining levels of response comparable to human ones. This thesis presents a pattern recognition system that is able to detect ambiguous patterns and ex- plain its answers using a Bayesian strategy which is the main contribution of this work. The recogniser is composed of two levels. The first one is formed by a collection of independent classifiers, each one spe- cialised in a different feature extracted from the input pattern. The second level consists of an analyzing module in charge of defining and explaining the output of the system. This module is integrated by the following elements: the table of reliability and two parameters adjustable while running the system. The system has been applied to the off-line recognition of handwritten digits. Descriptors based on the CDF 9/7 wavelet transform and Principal Component Analysis are proposed in order to reduce the size of the input pattern while increasing the quality of its representation. Strategies for selecting classifiers for the system are also proposed. The experiments were carried out on the MNIST and CENPARMI handwritten digit databases, which are generally accepted as standards in most of the literature in the field. Recognition rates obtained are comparable with results from representative work, reaching 97.40 and 99.32 % for CENPARMI and MNIST databases respectively.
Título :
Reconocimiento de patrones utilizando técnicas estadísticas y conexionistas aplicadas a la clasificación de dígitos manuscritos = Pattern recognition using statistical techniques and neural networks: application to handwritten digit classification
Autor :
Seijas, Leticia María
Director :
Segura, Enrique Carlos
Consejero de estudios :
Ruedin, Ana
Jurados :
Estevez Valencia, Pablo ; Zanutto, Bonifacio Silvano ; D´Atellis, Carlos
Año :
2011
Editor :
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Filiación :
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
Grado obtenido :
Doctor de la Universidad de Buenos Aires en el área de Ciencias de la Computación
Cita tipo APA: Seijas, Leticia María . (2011). Reconocimiento de patrones utilizando técnicas estadísticas y conexionistas aplicadas a la clasificación de dígitos manuscritos. Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. http://digital.bl.fcen.uba.ar/Download/Tesis/Tesis_4997_Seijas.pdf
Cita tipo Chicago: Seijas, Leticia María. "Reconocimiento de patrones utilizando técnicas estadísticas y conexionistas aplicadas a la clasificación de dígitos manuscritos". Tesis de Doctorado. Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. 2011. http://digital.bl.fcen.uba.ar/Download/Tesis/Tesis_4997_Seijas.pdf
Resumen: El problema de reconocer automáticamente una acción llevada a cabo en un video está recibiendo mucha atención en la comunidad de visión por computadora, con aplicaciones que van desde el reconocimiento de personas hasta la interacción persona-computador. Podemos pensar al cuerpo humano como un sistema de segmentos rígidos conectados por articulaciones, y al movimiento del cuerpo como una transformación continua de la configuración espacial de dichos segmentos. La llegada de cámaras de profundidad de bajo costo hizo posible el desarrollo de un algoritmo de seguimiento de personas preciso y eficiente, que obtiene la ubicación 3D de varias articulaciones del esqueleto humano en tiempo real. Esta tesis presenta contribuciones al modelado de la evolución temporal de los esqueletos. El modelado de la evolución temporal de descriptores de esqueleto plantea varios desafíos. En primer lugar, la posición 3D estimada para las articulaciones suele ser imprecisa. En segundo lugar, las acciones humanas presentan gran variabilidad intra-clase. Esta variabilidad puede encontrarse no sólo en la configuración de los esqueletos por separado (por ejemplo, la misma acción da lugar a diferentes configuraciones para diestros y para zurdos) sino tambión en la dinámica de la acción: diferentes personas pueden ejecutar una misma acción a distintas velocidades; las acciones que involucran movimientos periódicos (como aplaudir) pueden presentar diferentes cantidades de repeticiones de esos movimientos; dos videos de la misma acción puede estar no-alineados temporalmente; etc. Por último, acciones diferentes pueden involucrar configuraciones de esqueleto y movimientos similares, dando lugar a un escenario de gran similaridad inter-clase. En este trabajo exploramos dos enfoques para hacer frente a estas dificultades. En el primer enfoque presentamos una extensión a Edit Distance on Real sequence (EDR), una medida de similaridad entre series temporales robusta y precisa. Proponemos dos mejoras clave a EDR: una función de costo suave para el alineamiento de puntos y un algoritmo de alineamiento modificado basado en el concepto de Instancia-a-Clase (I2C, por el término en inglés: Instance-to-Class). La función de distancia resultante tiene en cuenta el ordenamiento temporal de las secuencias comparadas, no requiere aprendizaje de parámetros y es altamente tolerante al ruido y al desfasaje temporal. Además, mejora los resultados de métodos no-paramótricos de clasificación de secuencias, sobre todo en casos de alta variabilidad intra-clase y pocos datos de entrenamiento. En el segundo enfoque, reconocemos que la cantidad de esqueletos discriminativos en una secuencia puede ser baja. Los esqueletos restantes pueden ser ruidosos, tener configuraciones comunes a varias acciones (por ejemplo, la configuración correspondiente a un esqueleto sentado e inmóvil) u ocurrir en instantes de tiempo poco comunes para la acción del video. Por lo tanto, el problema puede ser naturalmente encarado como uno de Aprendizaje Multi Instancia (MIL por el término en inglés Multiple Instance Learning). En MIL, las instancias de entrenamiento se organizan en conjuntos o bags. Cada bag de entrenamiento tiene asignada una etiqueta que indica la clase a la que pertenece. Un bag etiquetado con una determinada clase contiene instancias que son características de la clase, pero puede (y generalmente así ocurre) también contener instancias que no lo son. Siguiendo esta idea, representamos los videos como bags de descriptores de esqueleto con marcas de tiempo, y proponemos un framework basado en MIL para el reconocimiento de acciones. Nuestro enfoque resulta muy tolerante al ruido, la variabilidad intra-clase y la similaridad inter-clase. El framework propuesto es simple y provee un mecanismo claro para regular la tolerancia al ruido, a la poca alineación temporal y a la variación en las velocidades de ejecución. Evaluamos los enfoques presentados en cuatro bases de datos públicas capturadas con cámaras de profundidad. En todos los casos, se trata de bases desafiantes. Los resultados muestran una comparación favorable de nuestras propuestas respecto al estado del arte.
Abstract: The problem of automatically identifying an action performed in a video is receiving a great deal of attention in the computer vision community, with applications ranging from people recognition to human computer interaction. We can think the human body as an articulated system of rigid segments connected by joints, and human motion as a continuous transformation of the spatial arrangement of those segments. The arrival of low-cost depth cameras has made possible the development of an accurate and efficient human body tracking algorithm, that computes the 3D location of several skeleton joints in real time. This thesis presents contributions concerning the modeling of the skeletons temporal evolution. Modeling the temporal evolution of skeleton descriptors is a challenging task. First, the estimated location of the 3D joints are usually inaccurate. Second, human actions have large intra-class variability. This variability may be found not only in the spatial configuration of individual skeletons (for example, the same action involves different configurations for righthanded and left-handed people) but also on the action dynamics: different people have different execution speeds; actions with periodic movements (like clapping) may involve different numbers of repetitions; two videos of the same action may be temporally misaligned; etc. Finally, different actions may involve similar skeletal configurations, as well as similar movements, effectively yielding large inter-class similarity. We explore two approaches to the problem that aim at tackling this difficulties. In the first approach, we present an extension to the Edit Distance on Real sequence (EDR), a robust and accurate similarity measure between time series. We introduce two key improvements to EDR: a weighted matching scheme for the points in the series and a modified aligning algorithm based on the concept of Instance-to-Class distance. The resulting distance function takes into account temporal ordering, requires no learning of parameters and is highly tolerant to noise and temporal misalignment. Furthermore, it improves the results of non-parametric sequence classification methods, specially in cases of large intra-class variability and small training sets. In the second approach, we explicitly acknowledge that the number of discriminative skeletons in a sequence might be low. The rest of the skeletons might be noisy or too person-specific, have a configuration common to several actions (for example, a sit still configuration), or occur at uncommon frames. Thus, the problem can be naturally treated as a Multiple Instance Learning (MIL) problem. In MIL, training instances are organized into bags. A bag from a given class contains some instances that are characteristic of that class, but might (and most probably will) contain instances that are not. Following this idea, we represent videos as bags of time-stamped skeleton descriptors, and we propose a new MIL framework for action recognition from skeleton sequences. We found that our approach is highly tolerant to noise, intra-class variability and inter-class similarity. The proposed framework is simple and provides a clear way of regulating tolerance to noise, temporal misalignment and variations in execution speed. We evaluate the proposed approaches on four publicly available challenging datasets captured by depth cameras, and we show that they compare favorably against other state-of-the-art methods.
Título :
Reconocimiento de acciones en videos de profundidad = Action recognition in depth videos
Autor :
Ubalde, Sebastián
Director :
Mejail, Marta Estela
Consejero de estudios :
Mejail, Marta Estela
Jurados :
Ballarin, Virginia ; Sánchez, Jorge Adrián ; Sappa, Angel
Año :
2016-03-22
Editor :
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Filiación :
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales Departamento de Computación
Grado obtenido :
Doctor de la Universidad de Buenos Aires en el área de Ciencias de la Computación
VIDEO DE PROFUNDIDAD; APRENDIZAJE MULTI INSTANCIA; CITATION-KNN; EDIT DISTANCE ON REAL SEQUENCE; INSTANCIA-A-CLASE; DEPTH VIDEO; MULTIPLE INSTANCE LEARNING; CITATION-KNN; EDIT DISTANCE ON REAL SEQUENCE; INSTANCE-TO-CLASS
Resumen: El movimiento es una característica fundamental para el procesamiento de video y sus posteriores aplicaciones. La estimación de movimiento en video es de gran utilidad para definir la correspondencia de puntos en una escena, calcular sus velocidades y así poder discriminar objetos, acciones, segmentar movimiento, etc. El objetivo de este trabajo es realizar un seguimiento preciso y una estimación de movimiento de un gran conjunto de puntos. Esto se conoce como estimación densa de movimiento. Para ello, se proponen dos líneas principales de estudio: modelos estadísticos de movimiento utilizando texturas dinámicas y el cálculo del flujo óptico minimizando la energía con graph cuts, en ambos casos considerando secuencias de imágenes RGB y RGB-D. El modelo de texturas dinámicas está muy bien condicionado para la segmentación de movimiento, y dentro de este contexto desarrollamos una aplicación con características novedosas: (i) proceso de aprendizaje desacoplado y (ii) algoritmos optimizados para trabajar en placas gráficas GPU (Graphic Process Unit). Además, el modelo ha sido extendido para contemplar secuencias de imágenes RGB-D, el cual no había sido estudiado hasta el momento, permitiéndonos identificar procesos visuales en 3D. Experimentos sobre la base de datos DynTex muestran resultados exitosos de performance y de clasificación para la mayoría de las casos. Luego, nuestros análisis sobre secuencias RGB-D revelan la viabilidad de este modelo para aplicaciones 3D. El problema de la estimación del flujo óptico (optical flow) fue abordado mediante la minimización de la energía del campo de vectores utilizando la técnica de graph cuts con una formulación novedosa de la energía. Ampliamos esta formulación para tener en cuenta la profundidad y así calcular el flujo de la escena (scene flow). Hasta donde sabemos, en la literatura, nunca se había utilizado graph cuts para estimar el scene flow. Los resultados obtenidos sobre el dataset Middlebury muestran que nuestros algoritmos son competitivos comparados con los presentes en el estado del arte y los mejores con en términos de error angular.
Abstract: Motion is a fundamental cue for video processing and its further applications. Video motion estimation is very useful to find correspondences of points in a scene, computing their velocities, discriminate objects, actions, segment motion, etc. The aim of this work is to accurately track the motion of a large set of points in videos. This is known as dense motion estimation. To this end, two main lines of study were proposed: statistical models of motion using dynamic textures and optical flow calculation using graph cuts for energy minimization, considering in both cases sequences of RGB and RGB-D images. The dynamic textures model is well suited for motion segmentation, and in this context we develop an application with novel features: (i) a decoupled learning step (ii) GPU-translated algorithms optimized to work on GPU (Graphic Process Unit). Also, the model has been extended to process RGB-D sequences, which had not been studied so far, allowing us to identify visual processes in 3D. Experiments on the Dyntex dataset show successful results of performance and classification for most cases. Then our analysis of RGB-D sequences reveal the viability of this model for 3D applications. The problem of optical flow estimation was addressed by minimizing the energy of the vector field using the graph cuts method with a novel formulation of energy. We extend this formulation to take depth into account and thus estimate the Scene Flow. To the best of our knowledge, scene flow estimation using graph cuts has never been used in the literature. The results obtained on the Middlebury dataset show that our algorithms are competitive with the state of the art and the best performing in terms of angular error.
Título :
Estimación de movimiento en secuencias de imágenes RGB y RGB-D = Motion estimation in RGB and RGB-D image sequences
Autor :
Gómez Fernández, Francisco Roberto
Director :
Mejail, Marta Pardo Piccone, Alvaro D.
Consejero de estudios :
Mejail, Marta
Jurados :
Gómez, Juan Carlos ; Ferreira Vázquez, Enrique ; Wachs, Juan P.
Año :
2016-03-30
Editor :
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Filiación :
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales Departamento de Computación
Grado obtenido :
Doctor de la Universidad de Buenos Aires en el área de Ciencias de la Computación
Cita tipo Chicago: Gómez Fernández, Francisco Roberto. "Estimación de movimiento en secuencias de imágenes RGB y RGB-D". Tesis de Doctorado. Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. 2016-03-30. http://digital.bl.fcen.uba.ar/Download/Tesis/Tesis_5985_GomezFernandez.pdf
http://digital.bl.fcen.uba.ar
Biblioteca Central Dr. Luis Federico Leloir - Facultad de Ciencias Exactas y Naturales - Universidad de Buenos Aires
Intendente Güiraldes 2160 - Ciudad Universitaria - Pabellón II - C1428EGA - Tel. (54 11) 4789-9293 int 34