Biblioteca Digital | FCEN-UBA

Biblioteca Digital ¿Por qué?
Objetivos
Impactos
Estadísticas
Documentos
Presentaciones
Notas
Autores y derechos
¿Por qué depositar?
¿Cómo depositar?
Autorización
Depositar y publicar
Editoriales
Publicar mi tesis Formulario Tesis Posgrado
Formulario Tesis Grado
Normativa
Res. CD 2053/05
Res. CD 2533/09
Res. CD 0272/13
Res. CD 2793/15

Colecciones Tesis Doctorales
Fotografías
Publicaciones
Archivo
Libros
Reportes Técnicos

Tesis > TEMA

Explotación de Datos y Descubrimiento del Conocimiento [ 6 tesis ]

Poloni, Pablo Alberto. "Nuevo Algoritmo de clasificación supervisado sin parámetros, no afectado por el desbalanceo y overfitting" (2014-02-24) Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires

pdf

Resumen Registro Cita

Resumen:
Los algoritmos tradicionales orientados a la extracción de reglas de decisión y modelos de clasificación, han demostrado resultados no deseados al trabajar con conjuntos de datos con ciertas particularidades. Entre ellos se puede mencionar: árboles de decisión, regresiones logísticas, redes neuronales, algoritmos genéticos, etc. En cualquiera de estos algoritmos, es necesario configurar una gran cantidad de parámetros hasta lograr un resultado deseable. El manejar los parámetros inadecuadamente genera modelos probabilísticos con aparentemente buenos resultados. Estos modelos al ser validados no reflejan los resultados esperados. Este problema es conocido como overfitting. Muchas veces ocurre, que los individuos que se quieren clasificar son muy pocos comparados con la población total. Este inconveniente es conocido como “desbalanceo” de la clase. Los algoritmos tradicionales, en muchos de estos casos, no trabajan adecuadamente o es costoso hacerlos funcionar. Si las variables tienen un número reducido de valores muy alejados de los valores centrales, estos “valores extremos” deben ser tratados previamente para evitar el mal funcionamiento de los algoritmos. Todos estos inconvenientes han llevado a tratar de encontrar otras alternativas para obtener modelos con “reglas” que permitan predecir comportamientos o clasificar en diferentes segmentos. Son numerosos los autores que han escrito trabajos para generar combinaciones de predicados y utilizar la curva ROC para seleccionar los mejores. Entre algunos de ellos se pueden citar: Provost and Fawcett, 1998; Provost ad Fawcett, 2002; Ferri, C. Flash, P., Hernández –Orallo, 2002; Fawcett, 2003;Fürnkranz, J. and Flash, 2005. Esta tesis presenta un nuevo algoritmo, llamado DO-ROC2, para generar todas las combinaciones de reglas posibles de a 2 variables y seleccionar aquellas reglas que maximizan el área bajo la curva ROC. DO-ROC2 tiene como ventajas sobre los algoritmos tradicionales: no es afectado por el “desbalanceo”; tampoco por “valores extremos”; no necesita parámetros para su ejecución y el “overfitting” está controlado.

Avalos Serrano, Verónica Nathalí. "Estrategia integrada basada en procesos, requerimientos, medición y evaluación para la construcción de almacenes de datos" (2016-02-22) Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires

pdf

Registro Cita

Gálvez, Ramiro Heraclio. "Predicción de los rendimientos de acciones en Argentina en base a indicadores técnicos y al modelado de tópicos en foros bursátiles" (2016-03-28) Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires

pdf

Resumen Registro Cita

Cardona Velásquez, Crhistian. "Búsqueda de mecanismos regulatorios en redes biológicas usando multigrados en base de datos no relacionadas" (2016-08-18) Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires

pdf

Resumen Registro Cita

Resumen:
El análisis de redes de interacciones se aplica en forma creciente en investigación biológica. Se han reportado análisis derivados de los métodos desarrollados para análisis de redes sociales en diferentes organismos y con distintos objetivos. Para el análisis de redes biológicas se manipulan estructuras de datos en memoria que en su mayoría no están optimizadas para grandes cantidades de datos y en las cuales no es posible realizar exploración de datos conectados en red de manera ágil y flexible. Una alternativa de uso creciente para este tipo de situaciones, no solo en biología, es el uso de bases de datos no relacionales orientadas a grafos. En este trabajo investigamos el uso de bases de datos no relacionales orientadas a grafos para el análisis de datos moleculares de la bacteria Mycobacterium tuberculosis, causante de la tuberculosis humana. Específicamente utilizamos datos de experimentos que cubren diversos procesos biológicos: expresión génica, interacciones proteína - proteína e interacciones proteína - ADN. Este tipo de enfoque integrado se conoce como biología de sistemas y es un área donde el uso de bases de datos de grafos todavía está en su infancia, pero tiene enorme potencial. Para los análisis se construye un multigrafo mixto y se definen preguntas a nivel biológico que posteriormente se traducen en patrones de consultas con quasi-cliques; las consultas se implementan en dos bases de datos no relacionales orientadas a grafos: Neo4J (http://neo4j.com/) y Titan (http://thinkaurelius.github.io/titan/) haciendo uso de lenguajes de consulta tales como Cypher y Gremlin.

Abstract:
The Interaction Network Analysis applies increasingly in biological research. Derivatives methods have been reported developed for analysis of social networks in different organisms and different objectives. For the analysis of biological networks in memory data structures that mostly are not optimized for large amounts of data and where not possible exploration network data online swiftly and flexibly handled. An alternative scenario growing use such situations, not only in biology, is the use of non-relational graph databases. We investigated the use of non-relational graph databases oriented to analysis of molecular data of the bacterium Mycobacterium tuberculosis, which causes human tuberculosis. Specifically, we use data from experiments covering various biological processes: gene expression, protein-protein interactions and protein – DNA interactions. Such an approach known as Integrated Systems Biology and is an area where the use of bases graph databases is still in its infancy but has huge potential. For analyzes a mixed multigraph is constructed and biologically questions later translate into patterns of queries with quasi-cliques are defined; the queries are implemented in two non-relational graph databases: Neo4J (http://neo4j.com/) and Titan (http://thinkaurelius.github.io/titan/) by use query languages like Cypher and Gremlin.

Bach, Ana Josefina. "Descubrimiento de patrones temporales en un corpus de letras de música folklórica y del rock rioplatense" (2016-10-07) Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires

pdf

Resumen Registro Cita

Lamagna, Walter Marcelo. "Lectura artificial de números manuscritos en datos abiertos de elecciones legislativas en la Ciudad de Buenos Aires" (2016-11-24) Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires

pdf

Resumen Registro Cita

Resumen:
En esta última década, el acceso masivo a las nuevas tecnológicas con medios de almacenamiento reducidos en tamaño y precios accesibles han impulsado la creación y manipulaci´on de grandes volúmenes de datos. En este trabajo se utilizan datos públicos, abiertos, libres de origen gubernamental. Existen ciertos datos, que como resultado de la gestión de un país y puestos a disposición de la sociedad, significan un enorme beneficio. Los datos abiertos fortalecen la participación democrática motivando a los científicos de datos a utilizar su conocimiento para responder ciertas preguntas ó resolver problemas a través de la tecnología. Nuestro estudio consistió en tomar los Datos Abiertos Electorales que corresponden a las elecciones de diputados y senadores en Argentina, Buenos Aires, Capital Federal el 27 de Octubre de 2013 y nos propusimos comparar un mismo dato proveniente de dos fuentes diferentes de formato distinto: dígitos tipeados a partir de formularios en papel e imágenes escaneadas. Las planillas manuscritas escaneadas utilizadas en este trabajo albergan datos numéricos, que son datos certeros, ya que son producto del conteo manual supervisado por todos los actores presentes en el evento. Conociendo la metodología utilizada sabemos que este dato debería corresponderse entre ambas fuentes. Se busca determinar si existe una tasa de error entre dos orígenes de datos que deberían coincidir en sus valores. Se describe el preprocesamiento de las planillas-imágenes para detectar las regiones de interés que localizan cada número que luego será segmentado en sus correspondientes dígitos. La dificultad de decodificar el símbolo numérico que corresponde a cada número manuscrito se encuentra en la necesidad de utilizar técnicas de procesamiento de imágenes y aprendizaje automático. En esta tesis se evaluó la aplicación de un método de lectura artificial automatizado que clasifica los dígitos manuscritos de los telegramas y luego los compara con los datos tipeados manualmente buscando inconsistencias. En diferentes etapas de este trabajo se aplica minería de datos: se utilizan árboles de decisión en la clasificación de las regiones del telegrama y redes neuronales convolucionales en la clasificación de los dígitos manuscritos.

http://digital.bl.fcen.uba.ar

Biblioteca Central Dr. Luis Federico Leloir - Facultad de Ciencias Exactas y Naturales - Universidad de Buenos Aires
Intendente Güiraldes 2160 - Ciudad Universitaria - Pabellón II - C1428EGA - Tel. (54 11) 4789-9293 int 34