Resumen: Los algoritmos tradicionales orientados a la extracción de reglas de decisión y modelos de clasificación, han demostrado resultados no deseados al trabajar con conjuntos de datos con ciertas particularidades. Entre ellos se puede mencionar: árboles de decisión, regresiones logísticas, redes neuronales, algoritmos genéticos, etc. En cualquiera de estos algoritmos, es necesario configurar una gran cantidad de parámetros hasta lograr un resultado deseable. El manejar los parámetros inadecuadamente genera modelos probabilísticos con aparentemente buenos resultados. Estos modelos al ser validados no reflejan los resultados esperados. Este problema es conocido como overfitting. Muchas veces ocurre, que los individuos que se quieren clasificar son muy pocos comparados con la población total. Este inconveniente es conocido como “desbalanceo” de la clase. Los algoritmos tradicionales, en muchos de estos casos, no trabajan adecuadamente o es costoso hacerlos funcionar. Si las variables tienen un número reducido de valores muy alejados de los valores centrales, estos “valores extremos” deben ser tratados previamente para evitar el mal funcionamiento de los algoritmos. Todos estos inconvenientes han llevado a tratar de encontrar otras alternativas para obtener modelos con “reglas” que permitan predecir comportamientos o clasificar en diferentes segmentos. Son numerosos los autores que han escrito trabajos para generar combinaciones de predicados y utilizar la curva ROC para seleccionar los mejores. Entre algunos de ellos se pueden citar: Provost and Fawcett, 1998; Provost ad Fawcett, 2002; Ferri, C. Flash, P., Hernández –Orallo, 2002; Fawcett, 2003;Fürnkranz, J. and Flash, 2005. Esta tesis presenta un nuevo algoritmo, llamado DO-ROC2, para generar todas las combinaciones de reglas posibles de a 2 variables y seleccionar aquellas reglas que maximizan el área bajo la curva ROC. DO-ROC2 tiene como ventajas sobre los algoritmos tradicionales: no es afectado por el “desbalanceo”; tampoco por “valores extremos”; no necesita parámetros para su ejecución y el “overfitting” está controlado.
Título :
Nuevo Algoritmo de clasificación supervisado sin parámetros, no afectado por el desbalanceo y overfitting
Autor :
Poloni, Pablo Alberto
Director :
Denicolay, Gustavo
Año :
2014-02-24
Editor :
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Filiación :
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
Grado obtenido :
Magister de la Universidad de Buenos Aires en Explotación de Datos y Descubrimiento del Conocimiento
Explotación de Datos y Descubrimiento del Conocimiento
Palabras claves :
MINERIA DE DATOS; DATA MINING; ALGORITMOS PARA DATA MINING; MAXIMIZAR EL AREA BAJO LA CURVA ROC; CASCARA CONVEXA; CURVA ROC; AUC; ROC; AROC; OVERFITTING; DESBALANCEO DE LA CLASE; VALORES EXTREMOS; REGLAS SIMPLES; ACCURACY;
Cita tipo APA: Poloni, Pablo Alberto . (2014-02-24). Nuevo Algoritmo de clasificación supervisado sin parámetros, no afectado por el desbalanceo y overfitting. Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. http://digital.bl.fcen.uba.ar/Download/Tesis/Tesis_5839_Poloni.pdf
Cita tipo Chicago: Poloni, Pablo Alberto. "Nuevo Algoritmo de clasificación supervisado sin parámetros, no afectado por el desbalanceo y overfitting". Tesis de Doctorado. Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. 2014-02-24. http://digital.bl.fcen.uba.ar/Download/Tesis/Tesis_5839_Poloni.pdf
Cita tipo APA: Avalos Serrano, Verónica Nathalí . (2016-02-22). Estrategia integrada basada en procesos, requerimientos, medición y evaluación para la construcción de almacenes de datos. Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. http://digital.bl.fcen.uba.ar/Download/Tesis/Tesis_5861_AvalosSerrano.pdf
Cita tipo Chicago: Avalos Serrano, Verónica Nathalí. "Estrategia integrada basada en procesos, requerimientos, medición y evaluación para la construcción de almacenes de datos". Tesis de Doctorado. Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. 2016-02-22. http://digital.bl.fcen.uba.ar/Download/Tesis/Tesis_5861_AvalosSerrano.pdf
Resumen: Entender fenómenos sociales utilizando datos provenientes de la interacción de personas en plataformas online es un área de estudio que cobra cada vez mayor relevancia. En el presente trabajo se utilizan técnicas de procesamiento del lenguaje natural y de aprendizaje automático para analizar si, sobre la base información obtenida de posts de un popular foro bursátil online de Argentina, se puede extraer información que contenga poder predictivo sobre el retorno diario futuro de un grupo de acciones. En concreto, para un conjunto de acciones, se procesan y normalizan los posts diarios que pertenecen al tema de cada acción, utilizando el modelo de bolsa de palabras para representar los posts de cada acción. Luego se lleva adelante un proceso de reducción de dimensionalidad (descomposición truncada en valores singulares). Como resultado de este proceso se obtiene una serie de atributos que, se presume, tienen contenido semántico y pueden ser asociados a tópicos que se debaten en los foros. Una vez hecho esto, se intenta responder dos preguntas. Primero, ¿tienen estos tópicos información predictiva referida al retorno futuro diario de una acción? Segundo, de haber información predictiva, ¿es la misma novedosa, o simplemente es otra forma de obtener información que ya se encontraba presente en el comportamiento pasado de los precios de una acción, y que podría ser captada simplemente analizando indicadores técnicos? Los resultados obtenidos son alentadores, pues parecen indicar que efectivamente los tópicos contienen información con valor predictivo y que la misma estaría complementando información contenida en el precio pasado de las acciones. Un resultado adicional interesante es que los tópicos detectados parecieran captar idiosincrasias de carácter político y económico que com´unmente se asocian a las empresas que la acción estudiada representa.
Título :
Predicción de los rendimientos de acciones en Argentina en base a indicadores técnicos y al modelado de tópicos en foros bursátiles
Autor :
Gálvez, Ramiro Heraclio
Director :
Gravano, Agustín
Jurados :
Castaño, José ; Denicolay Pacheco, Gustavo ; Soria, Marcelo
Año :
2016-03-28
Editor :
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Filiación :
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales Facultad de Ingeniería
Grado obtenido :
Magíster de la Universidad de Buenos Aires en Explotación de Datos y Descubrimiento del Conocimiento
Cita tipo APA: Gálvez, Ramiro Heraclio . (2016-03-28). Predicción de los rendimientos de acciones en Argentina en base a indicadores técnicos y al modelado de tópicos en foros bursátiles. Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. http://digital.bl.fcen.uba.ar/Download/Tesis/Tesis_6103_Galvez.pdf
Cita tipo Chicago: Gálvez, Ramiro Heraclio. "Predicción de los rendimientos de acciones en Argentina en base a indicadores técnicos y al modelado de tópicos en foros bursátiles". Tesis de Doctorado. Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. 2016-03-28. http://digital.bl.fcen.uba.ar/Download/Tesis/Tesis_6103_Galvez.pdf
Resumen: El análisis de redes de interacciones se aplica en forma creciente en investigación biológica. Se han reportado análisis derivados de los métodos desarrollados para análisis de redes sociales en diferentes organismos y con distintos objetivos. Para el análisis de redes biológicas se manipulan estructuras de datos en memoria que en su mayoría no están optimizadas para grandes cantidades de datos y en las cuales no es posible realizar exploración de datos conectados en red de manera ágil y flexible. Una alternativa de uso creciente para este tipo de situaciones, no solo en biología, es el uso de bases de datos no relacionales orientadas a grafos. En este trabajo investigamos el uso de bases de datos no relacionales orientadas a grafos para el análisis de datos moleculares de la bacteria Mycobacterium tuberculosis, causante de la tuberculosis humana. Específicamente utilizamos datos de experimentos que cubren diversos procesos biológicos: expresión génica, interacciones proteína - proteína e interacciones proteína - ADN. Este tipo de enfoque integrado se conoce como biología de sistemas y es un área donde el uso de bases de datos de grafos todavía está en su infancia, pero tiene enorme potencial. Para los análisis se construye un multigrafo mixto y se definen preguntas a nivel biológico que posteriormente se traducen en patrones de consultas con quasi-cliques; las consultas se implementan en dos bases de datos no relacionales orientadas a grafos: Neo4J (http://neo4j.com/) y Titan (http://thinkaurelius.github.io/titan/) haciendo uso de lenguajes de consulta tales como Cypher y Gremlin.
Abstract: The Interaction Network Analysis applies increasingly in biological research. Derivatives methods have been reported developed for analysis of social networks in different organisms and different objectives. For the analysis of biological networks in memory data structures that mostly are not optimized for large amounts of data and where not possible exploration network data online swiftly and flexibly handled. An alternative scenario growing use such situations, not only in biology, is the use of non-relational graph databases. We investigated the use of non-relational graph databases oriented to analysis of molecular data of the bacterium Mycobacterium tuberculosis, which causes human tuberculosis. Specifically, we use data from experiments covering various biological processes: gene expression, protein-protein interactions and protein – DNA interactions. Such an approach known as Integrated Systems Biology and is an area where the use of bases graph databases is still in its infancy but has huge potential. For analyzes a mixed multigraph is constructed and biologically questions later translate into patterns of queries with quasi-cliques are defined; the queries are implemented in two non-relational graph databases: Neo4J (http://neo4j.com/) and Titan (http://thinkaurelius.github.io/titan/) by use query languages like Cypher and Gremlin.
Título :
Búsqueda de mecanismos regulatorios en redes biológicas usando multigrados en base de datos no relacionadas
Autor :
Cardona Velásquez, Crhistian
Director :
Soria, Marcelo
Jurados :
Bigi, Fabiana ; Ruz, Cecilia ; Henrión, Guillermo Gabriel
Año :
2016-08-18
Editor :
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Filiación :
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales Departamento de Computación
Grado obtenido :
Magister de la Universidad de Buenos Aires en Exploración de Datos y Descubrimiento de Conocimiento
Explotación de Datos y Descubrimiento del Conocimiento
Palabras claves :
QUASI-CLIQUE; BASE DE DATOS DE GRAFOS; MULTIGRAFO; MECANISMO REGULATORIO; MYCOBACTERIUM TUBERCULOSIS; QUASI-CLIQUE; GRAPH DATABASE; MULTIGRAPH; REGULATORY MECHANISMS; MYCOBACTERIUM TUBERCULOSIS
Cita tipo APA: Cardona Velásquez, Crhistian . (2016-08-18). Búsqueda de mecanismos regulatorios en redes biológicas usando multigrados en base de datos no relacionadas. Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. http://digital.bl.fcen.uba.ar/Download/Tesis/Tesis_6182_CardonaVelasquez.pdf
Cita tipo Chicago: Cardona Velásquez, Crhistian. "Búsqueda de mecanismos regulatorios en redes biológicas usando multigrados en base de datos no relacionadas". Tesis de Doctorado. Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. 2016-08-18. http://digital.bl.fcen.uba.ar/Download/Tesis/Tesis_6182_CardonaVelasquez.pdf
Resumen: Culturomics es la aplicación de recopilación y análisis de datos para el estudio de la cultura humana. La minería de textos temporal se presenta como una herramienta para alcanzar los objetivos de Culturomics, mediante el procesamiento automático y el establecimiento de patrones para explicar la historia. El objetivo de este trabajo fue utilizar técnicas de explotación de datos y aprendizaje automático para detectar la existencia patrones temporales en las letras del rock y del folklore argentino. Para ello se armó un corpus de letras de rock y folklore comprendidas entre 1960 y 2014. A este corpus se le aplicaron técnicas de agrupamiento de tópicos y de clasificación para determinar la existencia de una relación entre los tópicos y los hitos históricos.
Abstract: Culturomics is the application of high-throughput data collection and analysis to the study of human culture. Text mining is presented as a useful methodology to achieve the goals of Culturomics, performing automatic processing, and setting patterns to explain history. The aim of this study is to use data mining techniques and machine learning to detect any patterns in Argentine rock and folklore songs throughout history. For this purpose, a corpus of rock and folk song lyrics was built considering the periods between the year 1960 and 2014. This corpus was subject to clustering and classification of topics techniques to determine the presence of a relationship between topics and milestones.
Título :
Descubrimiento de patrones temporales en un corpus de letras de música folklórica y del rock rioplatense
Autor :
Bach, Ana Josefina
Director :
Castaño, Jose
Jurados :
Alonso Alemany, Laura ; Acevedo, Daniel Germán ; Ruedín, Ana María Clara
Año :
2016-10-07
Editor :
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Filiación :
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales Departamento de Computación
Grado obtenido :
Magíster de la Universidad de Buenos Aires en Explotación de Datos y Descubrimiento de Conocimiento
Cita tipo APA: Bach, Ana Josefina . (2016-10-07). Descubrimiento de patrones temporales en un corpus de letras de música folklórica y del rock rioplatense. Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. http://digital.bl.fcen.uba.ar/Download/Tesis/Tesis_6106_Bach.pdf
Cita tipo Chicago: Bach, Ana Josefina. "Descubrimiento de patrones temporales en un corpus de letras de música folklórica y del rock rioplatense". Tesis de Doctorado. Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. 2016-10-07. http://digital.bl.fcen.uba.ar/Download/Tesis/Tesis_6106_Bach.pdf
Resumen: En esta última década, el acceso masivo a las nuevas tecnológicas con medios de almacenamiento reducidos en tamaño y precios accesibles han impulsado la creación y manipulaci´on de grandes volúmenes de datos. En este trabajo se utilizan datos públicos, abiertos, libres de origen gubernamental. Existen ciertos datos, que como resultado de la gestión de un país y puestos a disposición de la sociedad, significan un enorme beneficio. Los datos abiertos fortalecen la participación democrática motivando a los científicos de datos a utilizar su conocimiento para responder ciertas preguntas ó resolver problemas a través de la tecnología. Nuestro estudio consistió en tomar los Datos Abiertos Electorales que corresponden a las elecciones de diputados y senadores en Argentina, Buenos Aires, Capital Federal el 27 de Octubre de 2013 y nos propusimos comparar un mismo dato proveniente de dos fuentes diferentes de formato distinto: dígitos tipeados a partir de formularios en papel e imágenes escaneadas. Las planillas manuscritas escaneadas utilizadas en este trabajo albergan datos numéricos, que son datos certeros, ya que son producto del conteo manual supervisado por todos los actores presentes en el evento. Conociendo la metodología utilizada sabemos que este dato debería corresponderse entre ambas fuentes. Se busca determinar si existe una tasa de error entre dos orígenes de datos que deberían coincidir en sus valores. Se describe el preprocesamiento de las planillas-imágenes para detectar las regiones de interés que localizan cada número que luego será segmentado en sus correspondientes dígitos. La dificultad de decodificar el símbolo numérico que corresponde a cada número manuscrito se encuentra en la necesidad de utilizar técnicas de procesamiento de imágenes y aprendizaje automático. En esta tesis se evaluó la aplicación de un método de lectura artificial automatizado que clasifica los dígitos manuscritos de los telegramas y luego los compara con los datos tipeados manualmente buscando inconsistencias. En diferentes etapas de este trabajo se aplica minería de datos: se utilizan árboles de decisión en la clasificación de las regiones del telegrama y redes neuronales convolucionales en la clasificación de los dígitos manuscritos.
Título :
Lectura artificial de números manuscritos en datos abiertos de elecciones legislativas en la Ciudad de Buenos Aires
Autor :
Lamagna, Walter Marcelo
Director :
Buemi, María Elena
Jurados :
Acevedo, Daniel Germán ; Mora Cofre, Daniel Marco Antonio ; Aubin, Verónica Inés
Año :
2016-11-24
Editor :
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Filiación :
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
Grado obtenido :
Magíster de la Universidad de Buenos Aires en Explotación de Datos y Descubrimiento de Conocimiento
Cita tipo APA: Lamagna, Walter Marcelo . (2016-11-24). Lectura artificial de números manuscritos en datos abiertos de elecciones legislativas en la Ciudad de Buenos Aires. Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. http://digital.bl.fcen.uba.ar/Download/Tesis/Tesis_6105_Lamagna.pdf
Cita tipo Chicago: Lamagna, Walter Marcelo. "Lectura artificial de números manuscritos en datos abiertos de elecciones legislativas en la Ciudad de Buenos Aires". Tesis de Doctorado. Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. 2016-11-24. http://digital.bl.fcen.uba.ar/Download/Tesis/Tesis_6105_Lamagna.pdf
http://digital.bl.fcen.uba.ar
Biblioteca Central Dr. Luis Federico Leloir - Facultad de Ciencias Exactas y Naturales - Universidad de Buenos Aires
Intendente Güiraldes 2160 - Ciudad Universitaria - Pabellón II - C1428EGA - Tel. (54 11) 4789-9293 int 34