Resumen: El trabajo aquí presentado trata acerca de las mediciones de biodiversidad en comunidades microbianas que suelen involucrar dos aspectos: la riqueza y la distribución de los taxones. Una metodología usual para estudiar esas comunidades comprende la utilización de genes marcadores, tal como el que codifica para el rRNA 16S. Se presenta un estado del arte referido a las técnicas de procesamiento computacional que son empleadas, en esos análisis, sobre las secuencias de ADN del gen marcador. También se reseñan las formas de estimación estadística de la diversidad más comúnmente usadas. Se evalúan y detallan las limitaciones que surgen de la aplicación de esos métodos, que comprenden procedimientos habituales en explotación de datos afectados, en este caso, por la presencia de taxones dominantes y de otros que resultan raros aunque no menos importantes desde el punto de vista del análisis del ecosistema. Se proponen alternativas de estimación por simulación para el descubrimiento del conocimiento sobre cantidad de taxones y distribución de los mismos. Los estimadores desarrollados procuran describir las características de la comunidad hallando un patrón distintivo a partir de los datos. En particular se utiliza una idea de Alan Turing acerca de la probabilidad de selección de una especie aun no contabilizada, para construir un Algoritmo de Recuento de Especies (ARE) que expande la muestra original poniendo en evidencia la distribución real y la riqueza. Se emplea también la idea de cobertura muestral para proponer distintas correcciones a este procedimiento y se construye un algoritmo de estimación que combina el uso de ambos estimadores con el de la entropía, que mide la cantidad de información muestral. Los resultados de las pruebas realizadas muestran el desempeño más eficiente de los algoritmos construidos respecto de las mediciones por estimación no paramétrica o por rarefacción, las que a menudo subestiman los valores de riqueza de la población microbiana.
Título :
Aplicaciones de data mining al estudio de la biodiversidad en relevamientos metagenómicos
Autor :
Santa María, Cristóbal Raúl
Director :
Soria, Marcelo A.
Jurados :
Diblasi, Angela Magdalena ; Naya Monteverde, Hugo Mario ; Figuerola, Eva
Año :
2011
Editor :
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Filiación :
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales Departamento de Computación
Grado obtenido :
Magíster de la Universidad de Buenos Aires en Explotación de Datos y Descubrimiento del Conocimiento
Cita tipo APA: Santa María, Cristóbal Raúl . (2011). Aplicaciones de data mining al estudio de la biodiversidad en relevamientos metagenómicos. Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. http://digital.bl.fcen.uba.ar/Download/Tesis/Tesis_4990_SantaMaria.pdf
Cita tipo Chicago: Santa María, Cristóbal Raúl. "Aplicaciones de data mining al estudio de la biodiversidad en relevamientos metagenómicos". Tesis de Doctorado. Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. 2011. http://digital.bl.fcen.uba.ar/Download/Tesis/Tesis_4990_SantaMaria.pdf
Resumen: El objetivo del presente trabajo es descubrir potenciales sitios regulatorios dentro de las regiones intergénicas de Mycobacterium tuberculosis. Se utilizaron experimentos con microarreglos (microarrays) depositados en el NCBI, a los cuales se le aplicaron diversos algoritmos de agrupamientos y biagrupamientos, con el fin de obtener grupos de genes con patrones de expresión génica similar. Los grupos así obtenidos fueron validados estadística y semánticamente: la primera validación de acuerdo a las recomendaciones del algoritmo aplicado y la segunda utilizando la medida de similitud semántica de superposición de términos (term overlap) sobre la ontología génica GO, para garantizar que los grupos obtenidos tengan relevancia tanto estadística como biológica. Para cada grupo de genes válido se procedió a recuperar la región intergénica de sus integrantes, a las cuales se le aplicaron algoritmos de búsqueda de patrones de manera de determinar la existencia de posibles sitios regulatorios comunes a todo el grupo.
Título :
Descubrimiento de sitios regulatorios potenciales en las regiones intergénicas de Mycobacterium tuberculosis utilizando técnicas de minería de datos
Autor :
Henrión, Guillermo Gabriel
Director :
Soria, Marcelo A.
Jurados :
Agüero, Fernán ; Fernandez, Elmer Andrés ; Figuerola, Eva
Año :
2013
Editor :
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Filiación :
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
Grado obtenido :
Magíster de la Universidad de Buenos Aires en Explotación de Datos y Descubrimiento del Conocimiento
Cita tipo APA: Henrión, Guillermo Gabriel . (2013). Descubrimiento de sitios regulatorios potenciales en las regiones intergénicas de Mycobacterium tuberculosis utilizando técnicas de minería de datos. Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. http://digital.bl.fcen.uba.ar/Download/Tesis/Tesis_5413_Henrion.pdf
Cita tipo Chicago: Henrión, Guillermo Gabriel. "Descubrimiento de sitios regulatorios potenciales en las regiones intergénicas de Mycobacterium tuberculosis utilizando técnicas de minería de datos". Tesis de Doctorado. Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. 2013. http://digital.bl.fcen.uba.ar/Download/Tesis/Tesis_5413_Henrion.pdf
Cita tipo APA: Lenton, Antonio A. . (2013). Correlaciones periodístico-legislativos en la Argentina durante los años 2006-2011. Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. http://digital.bl.fcen.uba.ar/Download/Tesis/Tesis_5351_Lenton.pdf
Cita tipo Chicago: Lenton, Antonio A.. "Correlaciones periodístico-legislativos en la Argentina durante los años 2006-2011". Tesis de Doctorado. Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. 2013. http://digital.bl.fcen.uba.ar/Download/Tesis/Tesis_5351_Lenton.pdf
Resumen: La mayoría de los sistemas de recomendación actuales que usan técnicas de filtrado colaborativo basado en memoria predicen las preferencias de un usuario usando solamente la información de los ítems sobre los que el usuario expresó su preferencia. Sin embargo no utilizan el contexto de elección del usuario, esto es, el conjunto de ítems que fueron recomendados al usuario pero que fueron ignorados. En este trabajo de tesis presentamos las modificaciones hechas a los algoritmos clásicos de filtrado colaborativo basado en memoria para que utilicen el contexto de elección del usuario al momento de predecir sus preferencias por nuevos ítems. Como no se conocen conjuntos de datos públicos que tengan el contexto de elección del usuario y que nos permitan probar los algoritmos modificados, implementamos dichas modificaciones en un sistema de recomendación real para poder recolectar los datos necesarios para la etapa de experimentación. Finalmente, realizamos una serie de experimentos sobre tres conjuntos de datos, que nos permitieron verificar que nuestra propuesta tiene un mejor desempeño que los sistemas de recomendación clásicos.
Abstract: Most of existing recommendation systems use memory-based collaborative filtering techniques to predict the preferences of a user using only the information of the items for which the user expressed a preference. However, existent systems do not use the context of user choice, that is, the set of items that were recommended to the user but were ignored by her. In this thesis we present the modifications made to the classic memory-based collaborative filtering algorithms to use the context of user choice in the prediction of the user preferences. Since there are no known public datasets including the context of user choice that could allow us to test the modified algorithms, we implemented these changes in a real recommender system that allowed us to build a dataset with the information required. Finally, we conducted a series of experiments on three datasets, which allowed us to verify that our proposal has better performance than the traditional recommendation systems.
Título :
Inducción de preferencias a partir del contexto de elección del usuario en sistemas de recomendación
Autor :
Abalde, Roberto
Director :
Armentano, Marcelo
Jurados :
Rodríguez, Ricardo Oscar ; Castaño, José M. ; Gravano, Agustín
Año :
2014-02-28
Editor :
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Filiación :
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales Departamento de Computación
Grado obtenido :
Magíster de la Universidad de Buenos Aires en Explotación de Datos y Descubrimiento de Conocimiento
Cita tipo APA: Abalde, Roberto . (2014-02-28). Inducción de preferencias a partir del contexto de elección del usuario en sistemas de recomendación. Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. http://digital.bl.fcen.uba.ar/Download/Tesis/Tesis_5611_Abalde.pdf
Cita tipo Chicago: Abalde, Roberto. "Inducción de preferencias a partir del contexto de elección del usuario en sistemas de recomendación". Tesis de Doctorado. Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. 2014-02-28. http://digital.bl.fcen.uba.ar/Download/Tesis/Tesis_5611_Abalde.pdf
Resumen: El siguiente trabajo presenta una metodología para la generación automática de múltiples árboles de decisión y la posterior evaluación de los resultados en forma visual e interactiva. El foco principal reside en el análisis de la incidencia de los parámetros de configuración de árboles de decisión en los resultados de los múltiples modelos generados. El objetivo del mismo consiste en contribuir a la creciente disciplina de Visual Analytics, la cual es en una combinación de técnicas de Visualización de la Información y Minería de Datos con el fin de involucrar a las personas en los procesos de aprendizaje automático. El enfoque presentado se basa en herramientas disponibles en el mercado, sugiriendo la adaptación de las mismas para lograr los objetivos de interacción del usuario. Con el fin de demostrar la potencialidad de la metodología se presenta al finalizar un caso de uso real de una empresa de Telecomunicaciones.
Abstract: The following work presents a methodology to automatically generate multiple decision trees and to evaluate their results in an interactive and visual way. The focal point is the analysis of the influence of the configuration of decision trees’ parameters in the several results generated. The goal is to contribute to the growing Visual Analytics discipline, which consists on a combination of Information Visualization and Data Mining techniques that aims to involve people in automatic processes. The developed approach is based on available software solutions in the market, suggesting their modifications to achieve human interaction. To demonstrate the application of the methodology we present a real use case from a Telecommunications company.
Título :
Comparación interactiva de modelos de minería de datos utilizando técnicas de visualización = Interactive comparison of data mining models using visualization techniques
Autor :
Padua, Luciana María
Director :
Delrieux, Claudio
Jurados :
Bustos, Oscar Humberto ; Soria, Marcelo Abel ; De Cristóforis, Pablo Esteban
Año :
2014-07-24
Editor :
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Filiación :
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales Universidad de Buenos Aires (UBA), Facultad de Ciencias Exactas y Naturales (FCEN), Universidad de Buenos Aires (UBA). Facultad de Ingeniería
Grado obtenido :
Magíster de la Universidad de Buenos Aires en Explotación de datos y descubrimiento del conocimiento
VISUALIZACION; MINERIA DE DATOS; ARBOLES DE DECISION; VISUAL ANALYTICS; EXPLORACION ESPACIO DE PARAMETROS; VISUALIZATION; DATA MINING; DECISION TREES; VISUAL ANALYTICS; PARAMETER SPACE EXPLORATION
Cita tipo APA: Padua, Luciana María . (2014-07-24). Comparación interactiva de modelos de minería de datos utilizando técnicas de visualización. Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. http://digital.bl.fcen.uba.ar/Download/Tesis/Tesis_5612_Padua.pdf
Cita tipo Chicago: Padua, Luciana María. "Comparación interactiva de modelos de minería de datos utilizando técnicas de visualización". Tesis de Doctorado. Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. 2014-07-24. http://digital.bl.fcen.uba.ar/Download/Tesis/Tesis_5612_Padua.pdf
Resumen: Este trabajo consiste en un análisis sobre la percepción de la confianza en las instituciones públicas del gobierno, usando técnicas de Minería de datos, se busca obtener los 5 factores más influyentes en el año 2014, con respecto a la percepción de confianza en las instituciones del gobierno del Perú, y cómo es su comportamiento desde el 2007 al 2014. Para conseguir este objetivo se usan datos públicos de encuestas, que están disponibles en el repositorio digital del Instituto Nacional de Estadísticas e Informática de Perú (INEI), que, siendo órgano rector de las estadísticas del Perú, ejecuta todos los años un programa de Encuestas Nacional de Hogares (ENAHO), el cual cuenta con 29 categorías de estudios, siendo algunas de ellas: Educación, Empleabilidad, Características del hogar, Gobernabilidad y Democracia. El trabajo comenzó con la búsqueda de datos en los repositorios del INEI, continúo con la carga en una base de datos, luego se efectuó la limpieza e integración usando SQL, hasta la construcción de una tabla Analítica. Sobre estos datos se aplicaron métodos descriptivos para la selección de variables potenciales. Luego ejecutando el algoritmo de árbol de decisión, se obtuvieron las 5 variables más influyentes, con el Análisis Factorial de correspondencias se vio las atracciones entre las modalidades de estas variables y la confianza. Los resultados del trabajo muestran que el Congreso de la República es la institución con mayor desconfianza, seguida por el Gobierno regional, La Policía Nacional y el Poder Judicial. Estas instituciones fueron las que se seleccionaron para realizar el análisis de influencia, no combinando estas ya que las instituciones son autónomas y se sospecha que las influencias son independientes. Las variables más influyentes son: , y y estas son las mismas para las instituciones estudiadas, las variables restantes son y , y . El trabajo también muestra la evolución temporal de influencia, comportamiento de las variables.
Título :
Caracterización de la confianza en las instituciones del gobierno del Perú
Autor :
Arcaya Arhuata, Ludmer Edward
Director :
Ruz, Cecilia
Año :
2016-07-12
Editor :
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Filiación :
Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales Departamento de Computación Facultad de Ingeniería
Grado obtenido :
Magíster de la Universidad de Buenos Aires en Explotación de Datos y Descubrimiento del Conocimiento
Cita tipo Chicago: Arcaya Arhuata, Ludmer Edward. "Caracterización de la confianza en las instituciones del gobierno del Perú". Tesis de Doctorado. Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. 2016-07-12. http://digital.bl.fcen.uba.ar/Download/Tesis/Tesis_6061_ArcayaArhuata.pdf
http://digital.bl.fcen.uba.ar
Biblioteca Central Dr. Luis Federico Leloir - Facultad de Ciencias Exactas y Naturales - Universidad de Buenos Aires
Intendente Güiraldes 2160 - Ciudad Universitaria - Pabellón II - C1428EGA - Tel. (54 11) 4789-9293 int 34