Tesis doctorales
Permanent URI for this collection
Texto completo de Tesis leídas por los alumnos de la Universitat Politècnica de València con la finalidad de incrementar su visibilidad y garantizar su accesibilidad y preservación.
La difusión de las tesis leídas en la UPV por parte de RiuNet cumple con el Real Decreto 99/2011, de 28 de enero, por el que se regulan las enseñanzas oficiales de doctorado indica en su artículo 14.5: Una vez aprobada la tesis doctoral, la universidad se ocupará de su archivo en formato electrónico abierto en un repositorio institucional
Browse
Browsing Tesis doctorales by UPV Entity "Centro Propio de Investigación Pattern Recognition and Human Language Technology"
Now showing 1 - 20 of 40
Results Per Page
Sort Options
- PublicationA Cross-domain and Cross-language Knowledge-based Representation of Text and its Meaning(Universitat Politècnica de València, 2017-07-03) Franco Salvador, Marc; Rosso, Paolo; Dpto. de Sistemas Informáticos y Computación; Escuela Técnica Superior de Ingeniería Informática; Centro Propio de Investigación Pattern Recognition and Human Language TechnologyNatural Language Processing (NLP) is a field of computer science, artificial intelligence, and computational linguistics concerned with the interactions between computers and human languages. One of its most challenging aspects involves enabling computers to derive meaning from human natural language. To do so, several meaning or context representations have been proposed with competitive performance. However, these representations still have room for improvement when working in a cross-domain or cross-language scenario. In this thesis we study the use of knowledge graphs as a cross-domain and cross-language representation of text and its meaning. A knowledge graph is a graph that expands and relates the original concepts belonging to a set of words. We obtain its characteristics using a wide-coverage multilingual semantic network as knowledge base. This allows to have a language coverage of hundreds of languages and millions human-general and -specific concepts. As starting point of our research we employ knowledge graph-based features - along with other traditional ones and meta-learning - for the NLP task of single- and cross-domain polarity classification. The analysis and conclusions of that work provide evidence that knowledge graphs capture meaning in a domain-independent way. The next part of our research takes advantage of the multilingual semantic network and focuses on cross-language Information Retrieval (IR) tasks. First, we propose a fully knowledge graph-based model of similarity analysis for cross-language plagiarism detection. Next, we improve that model to cover out-of-vocabulary words and verbal tenses and apply it to cross-language document retrieval, categorisation, and plagiarism detection. Finally, we study the use of knowledge graphs for the NLP tasks of community questions answering, native language identification, and language variety identification. The contributions of this thesis manifest the potential of knowledge graphs as a cross-domain and cross-language representation of text and its meaning for NLP and IR tasks. These contributions have been published in several international conferences and journals.
- PublicationA Probabilistic Formulation of Keyword Spotting(Universitat Politècnica de València, 2019-02-18) Puigcerver I Pérez, Joan; Toselli, Alejandro Héctor; Vidal Ruiz, Enrique; Centro Propio de Investigación Pattern Recognition and Human Language Technology[ES] La detección de palabras clave (Keyword Spotting, en inglés), aplicada a documentos de texto manuscrito, tiene como objetivo recuperar los documentos, o partes de ellos, que sean relevantes para una cierta consulta (query, en inglés), indicada por el usuario, entre una gran colección de documentos. La temática ha recogido un gran interés en los últimos 20 años entre investigadores en Reconocimiento de Formas (Pattern Recognition), así como bibliotecas y archivos digitales. Esta tesis, en primer lugar, define el objetivo de la detección de palabras clave a partir de una perspectiva basada en la Teoría de la Decisión y una formulación probabilística adecuada. Más concretamente, la detección de palabras clave se presenta como un caso particular de Recuperación de la Información (Information Retrieval), donde el contenido de los documentos es desconocido, pero puede ser modelado mediante una distribución de probabilidad. Además, la tesis también demuestra que, bajo las distribuciones de probabilidad correctas, el marco de trabajo desarrollada conduce a la solución óptima del problema, según múltiples medidas de evaluación utilizadas tradicionalmente en el campo. Más tarde, se utilizan distintos modelos estadísticos para representar las distribuciones necesarias: Redes Neuronales Recurrentes o Modelos Ocultos de Markov. Los parámetros de estos son estimados a partir de datos de entrenamiento, y las respectivas distribuciones son representadas mediante Transductores de Estados Finitos con Pesos (Weighted Finite State Transducers). Con el objetivo de hacer que el marco de trabajo sea práctico en grandes colecciones de documentos, se presentan distintos algoritmos para construir índices de palabras a partir de modelos probabilísticos, basados tanto en un léxico cerrado como abierto. Estos índices son muy similares a los utilizados por los motores de búsqueda tradicionales. Además, se estudia la relación que hay entre la formulación probabilística presentada y otros métodos de gran influencia en el campo de la detección de palabras clave, destacando cuáles son las limitaciones de los segundos. Finalmente, todas la aportaciones se evalúan de forma experimental, no sólo utilizando pruebas académicas estándar, sino también en colecciones con decenas de miles de páginas provenientes de manuscritos históricos. Los resultados muestran que el marco de trabajo presentado permite construir sistemas de detección de palabras clave muy rápidos y precisos, con una sólida base teórica.
- PublicationAdvanced techniques for domain adaptation in Statistical Machine Translation(Universitat Politècnica de València, 2019-03-04) Chinea Ríos, Mara; Casacuberta Nolla, Francisco; Sanchis Trilles, Germán; Centro Propio de Investigación Pattern Recognition and Human Language Technology[ES] La Traducción Automática Estadística es un sup-campo de la lingüística computacional que investiga como emplear los ordenadores en el proceso de traducción de un texto de un lenguaje humano a otro. La traducción automática estadística es el enfoque más popular que se emplea para construir estos sistemas de traducción automáticos. La calidad de dichos sistemas depende en gran medida de los ejemplos de traducción que se emplean durante los procesos de entrenamiento y adaptación de los modelos. Los conjuntos de datos empleados son obtenidos a partir de una gran variedad de fuentes y en muchos casos puede que no tengamos a mano los datos más adecuados para un dominio específico. Dado este problema de carencia de datos, la idea principal para solucionarlo es encontrar aquellos conjuntos de datos más adecuados para entrenar o adaptar un sistema de traducción. En este sentido, esta tesis propone un conjunto de técnicas de selección de datos que identifican los datos bilingües más relevantes para una tarea extraídos de un gran conjunto de datos. Como primer paso en esta tesis, las técnicas de selección de datos son aplicadas para mejorar la calidad de la traducción de los sistemas de traducción bajo el paradigma basado en frases. Estas técnicas se basan en el concepto de representación continua de las palabras o las oraciones en un espacio vectorial. Los resultados experimentales demuestran que las técnicas utilizadas son efectivas para diferentes lenguajes y dominios. El paradigma de Traducción Automática Neuronal también fue aplicado en esta tesis. Dentro de este paradigma, investigamos la aplicación que pueden tener las técnicas de selección de datos anteriormente validadas en el paradigma basado en frases. El trabajo realizado se centró en la utilización de dos tareas diferentes de adaptación del sistema. Por un lado, investigamos cómo aumentar la calidad de traducción del sistema, aumentando el tamaño del conjunto de entrenamiento. Por otro lado, el método de selección de datos se empleó para crear un conjunto de datos sintéticos. Los experimentos se realizaron para diferentes dominios y los resultados de traducción obtenidos son convincentes para ambas tareas. Finalmente, cabe señalar que las técnicas desarrolladas y presentadas a lo largo de esta tesis pueden implementarse fácilmente dentro de un escenario de traducción real.
- PublicationAdvances in Document Layout Analysis(Universitat Politècnica de València, 2020-03-05) Bosch Campos, Vicente; Toselli, Alejandro Héctor; Vidal Ruiz, Enrique; Centro Propio de Investigación Pattern Recognition and Human Language Technology[EN] Handwritten Text Segmentation (HTS) is a task within the Document Layout Analysis field that aims to detect and extract the different page regions of interest found in handwritten documents. HTS remains an active topic, that has gained importance with the years, due to the increasing demand to provide textual access to the myriads of handwritten document collections held by archives and libraries. This thesis considers HTS as a task that must be tackled in two specialized phases: detection and extraction. We see the detection phase fundamentally as a recognition problem that yields the vertical positions of each region of interest as a by-product. The extraction phase consists in calculating the best contour coordinates of the region using the position information provided by the detection phase. Our proposed detection approach allows us to attack both higher level regions: paragraphs, diagrams, etc., and lower level regions like text lines. In the case of text line detection we model the problem to ensure that the system's yielded vertical position approximates the fictitious line that connects the lower part of the grapheme bodies in a text line, commonly known as the baseline. One of the main contributions of this thesis, is that the proposed modelling approach allows us to include prior information regarding the layout of the documents being processed. This is performed via a Vertical Layout Model (VLM). We develop a Hidden Markov Model (HMM) based framework to tackle both region detection and classification as an integrated task and study the performance and ease of use of the proposed approach in many corpora. We review the modelling simplicity of our approach to process regions at different levels of information: text lines, paragraphs, titles, etc. We study the impact of adding deterministic and/or probabilistic prior information and restrictions via the VLM that our approach provides. Having a separate phase that accurately yields the detection position (base- lines in the case of text lines) of each region greatly simplifies the problem that must be tackled during the extraction phase. In this thesis we propose to use a distance map that takes into consideration the grey-scale information in the image. This allows us to yield extraction frontiers which are equidistant to the adjacent text regions. We study how our approach escalates its accuracy proportionally to the quality of the provided detection vertical position. Our extraction approach gives near perfect results when human reviewed baselines are provided.
- PublicationAdvances in Fully-Automatic and Interactive Phrase-Based Statistical Machine Translation(Universitat Politècnica de València, 2011-10-14T11:47:43Z) Ortiz Martínez, Daniel; Casacuberta Nolla, Francisco; García Varea, Ismael; Centro Propio de Investigación Pattern Recognition and Human Language TechnologyThis thesis presents different contributions in the fields of fully-automatic statistical machine translation and interactive statistical machine translation. In the field of statistical machine translation there are three problems that are to be addressed, namely, the modelling problem, the training problem and the search problem. In this thesis we present contributions regarding these three problems. Regarding the modelling problem, an alternative derivation of phrase-based statistical translation models is proposed. Such derivation introduces a set of statistical submodels governing different aspects of the translation process. In addition to this, the resulting submodels can be introduced as components of a log-linear model. Regarding the training problem, an alternative estimation technique for phrase-based models that tries to reduce the strong heuristic component of the standard estimation technique is proposed. The proposed estimation technique considers the phrase pairs that compose the phrase model as part of complete bisegmentations of the source and target sentences. We theoretically and empirically demonstrate that the proposed estimation technique can be efficiently executed. Experimental results obtained with the open-source THOT toolkit also presented in this thesis, show that the alternative estimation technique obtains phrase models with lower perplexity than those obtained by means of the standard estimation technique. However, the reduction in the perplexity of the model did not allow us to obtain improvements in the translation quality. To deal with the search problem, we propose a search algorithm which is based on the branch-and-bound search paradigm. The proposed algorithm generalises different search strategies that can be accessed bymodifying the input parameters. We carried out experiments to evaluate the performance of the proposed search algorithm.
- PublicationAdvances on the Transcription of Historical Manuscripts based on Multimodality, Interactivity and Crowdsourcing(Universitat Politècnica de València, 2017-09-01) Granell Romero, Emilio; Martínez Hinarejos, Carlos David; Romero Gómez, Verónica; Dpto. de Sistemas Informáticos y Computación; Escuela Politécnica Superior de Gandia; Escuela Técnica Superior de Ingeniería Informática; Centro Propio de Investigación Pattern Recognition and Human Language TechnologyNatural Language Processing (NLP) is an interdisciplinary research field of Computer Science, Linguistics, and Pattern Recognition that studies, among others, the use of human natural languages in Human-Computer Interaction (HCI). Most of NLP research tasks can be applied for solving real-world problems. This is the case of natural language recognition and natural language translation, that can be used for building automatic systems for document transcription and document translation. Regarding digitalised handwritten text documents, transcription is used to obtain an easy digital access to the contents, since simple image digitalisation only provides, in most cases, search by image and not by linguistic contents (keywords, expressions, syntactic or semantic categories). Transcription is even more important in historical manuscripts, since most of these documents are unique and the preservation of their contents is crucial for cultural and historical reasons. The transcription of historical manuscripts is usually done by paleographers, who are experts on ancient script and vocabulary. Recently, Handwritten Text Recognition (HTR) has become a common tool for assisting paleographers in their task, by providing a draft transcription that they may amend with more or less sophisticated methods. This draft transcription is useful when it presents an error rate low enough to make the amending process more comfortable than a complete transcription from scratch. Thus, obtaining a draft transcription with an acceptable low error rate is crucial to have this NLP technology incorporated into the transcription process. The work described in this thesis is focused on the improvement of the draft transcription offered by an HTR system, with the aim of reducing the effort made by paleographers for obtaining the actual transcription on digitalised historical manuscripts. This problem is faced from three different, but complementary, scenarios: · Multimodality: The use of HTR systems allow paleographers to speed up the manual transcription process, since they are able to correct on a draft transcription. Another alternative is to obtain the draft transcription by dictating the contents to an Automatic Speech Recognition (ASR) system. When both sources (image and speech) are available, a multimodal combination is possible and an iterative process can be used in order to refine the final hypothesis. · Interactivity: The use of assistive technologies in the transcription process allows one to reduce the time and human effort required for obtaining the actual transcription, given that the assistive system and the palaeographer cooperate to generate a perfect transcription. Multimodal feedback can be used to provide the assistive system with additional sources of information by using signals that represent the whole same sequence of words to transcribe (e.g. a text image, and the speech of the dictation of the contents of this text image), or that represent just a word or character to correct (e.g. an on-line handwritten word). · Crowdsourcing: Open distributed collaboration emerges as a powerful tool for massive transcription at a relatively low cost, since the paleographer supervision effort may be dramatically reduced. Multimodal combination allows one to use the speech dictation of handwritten text lines in a multimodal crowdsourcing platform, where collaborators may provide their speech by using their own mobile device instead of using desktop or laptop computers, which makes it possible to recruit more collaborators.
- PublicationAportaciones al diagnóstico de cáncer asistido por ordenador(Universitat Politècnica de València, 2008-05-06T11:42:04Z) Llobet Azpitarte, Rafael; Pérez Cortés, Juan Carlos; Paredes Palacios, Roberto; Instituto Universitario Mixto de Tecnología de Informática; Escuela Técnica Superior de Ingeniería de Telecomunicación; Dpto. de Sistemas Informáticos y Computación; Escuela Técnica Superior de Ingeniería Informática; Centro Propio de Investigación Pattern Recognition and Human Language TechnologyPara diagnosticar un cáncer se realiza, entre otras pruebas, algún test de imagen, como puede ser una radiografía, ecografía o resonancia magnética. Mediante estos tests pueden detectarse zonas con alta sospecha tumoral, cuyo diagnóstico debe confirmase finalmente mediante la realización de una biopsia. Este tipo de imágenes, sin embargo, no son fáciles de interpretar, lo que provoca que el profesional encargado de analizarlas, a pesar de su experiencia, no sea capaz de detectar en ellas un porcentaje importante de tumores (falsos negativos). Una posibilidad para mejorar el diagnóstico y disminuir el número de falsos negativos consiste en utilizar sistemas de diagnóstico asistido por ordenador o computer-aided diagnosis (CAD). Un sistema de CAD analiza la imagen médica y trata de detectar zonas sospechosas de contener alguna anomalía. Estas zonas son marcadas sobre la propia imagen con un doble objetivo: llamar la atención del profesional encargado de analizarla hacia la zona sospechosa y aportar una segunda opinión respecto al diagnóstico. En esta tesis se presentan y evaluan diversas técnicas de visión por computador y reconocimiento de formas orientadas a la detección de tumores en imágenes médicas, con el objetivo de diseñar sistemas de CAD que permitan un mejor diagnóstico. El trabajo se ha centrado en el diagnóstico de cáncer de próstata a partir de imágenes de ecografía, y en el diagnóstico de cáncer de mama a partir de imágenes de radiografía. Se han evaluado diversos métodos de extracción de características basados en la intensidad, frecuencia, texturas o en gradientes. En la etapa de clasificación se ha utilizado un clasificador no paramétrico basado en distancias (k-vecinos más cercanos) y otro paramétrico basado en modelos de Markov. A lo largo del trabajo se evidencian las distintas problemáticas que surgen en este tipode tareas y se proponen soluciones a cada una de ellas. El diagnóstico de cáncer de próstata asistido por ordenador es una tarea extrema
- PublicationAportaciones al reconocimiento automático de texto manuscrito(Universitat Politècnica de València, 2008-05-06T10:53:08Z) Pastor Gadea, Moisés; Vidal Ruiz, Enrique; Toselli, Alejandro Héctor; Dpto. de Sistemas Informáticos y Computación; Escuela Técnica Superior de Ingeniería Informática; Centro Propio de Investigación Pattern Recognition and Human Language TechnologyEn esta tesis se estudia el problema de la robustez en los sistemas de reconocimiento automático de texto manuscrito off-line. Los sistemas de reconocimiento automático de texto manuscrito estarán maduros para su uso generalizado, cuando sean capaces de ofrecer a cualquier usuario, sin ningún tipo de preparación o adiestramiento para su utilización, una productividad razonable. Se hace necesario pues, construir sistemas flexibles y robustos en cuanto a la entrada, de tal manera que no se requiera del escritor ningún esfuerzo extra, que no haría si escribiese para ser leído por un humano. La intención del preproceso de la señal es hacer el sistema invariante a fuentes de variabilidad que no ayuden a la clasificación. En la actualidad no hay definida una solución general para conseguir invariabilidad al estilo de escritura, y cada sistema desarrolla la suya ad-hoc. En esta tesis se explorarán diferentes métodos de normalización de la señal de entrada off-line. Para ello se hace un amplio estudio de algoritmos de preproceso, tanto a nivel de toda la imagen: umbralización, reducción del ruido y corrección del desencuadre; como a nivel de texto: slope, slant y normalización del tamaño de los caracteres. Los sistemas dependientes del escritor obtienen mejores tasas de acierto que los independientes del escritor. Por otra parte, los sistemas independientes del escritor tienen más facilidad para reunir muestras de entrenamiento. En esta tesis seestudiará la adaptación de sistemas independientes del escritor para su utilizaciónpor un único escritor, con la intención de que a partir de una pocas muestras producidas por este escritor se mejore la productividad del sistema (para este escritor), o lo que es lo mismo, que éste pueda escribir de manera más relajada sin que el sistema pierda productividad. Los sistemas de reconocimiento de texto manuscrito no están exentos de errores. No sólo interesa saber el número de errores que producirá
- PublicationAprendizaje de transductores estocásticos de estados finitos y su aplicación en traducción automática(Universitat Politècnica de València, 2009-10-22T10:49:46Z) González Mollá, Jorge; Casacuberta Nolla, Francisco; Dpto. de Sistemas Informáticos y Computación; Escuela Técnica Superior de Ingeniería Informática; Centro Propio de Investigación Pattern Recognition and Human Language TechnologyTraducción automática es un área de lingüística computacional que investiga el uso de software para traducir texto o voz en lenguaje natural hacia su representación en un idioma destino, también mediante lenguaje natural. En las últimas décadas ha habido un fuerte impulso sobre la utilización de técnicas estadísticas para el desarrollo de sistemas de traducción automática. Para la aplicación de estos métodos sobre un par de lenguas en concreto, se requiere la disponibilidad de un corpus paralelo para dicho par de idiomas. El atractivo de estas técnicas radica en que el desarrollo de un sistema se realiza sin necesidad de trabajo experto por parte de especialistas en lingüística. Los modelos de estados finitos llevan bastante tiempo empleándose con éxito en múltiples y variadas disciplinas dentro de la investigación científica aplicada al lenguaje natural, incluyendo su uso en traducción automática. Los modelos de estados finitos presentan una serie de ventajas con respecto a otros modelos estadísticos, como su sencilla integración en entornos de reconocimiento de voz, su aplicación en sistemas de traducción asistida, o su capacidad para procesar la información sin necesidad de que esté completa, por medio de una arquitectura basada en las populares cadenas de montaje. El objetivo de la investigación consiste en el estudio y la explotación de las técnicas de traducción automática basadas en modelos de estados finitos. El trabajo presentado en esta tesis es un análisis detallado de la metodología GIATI para el aprendizaje de transductores estocásticos de estados finitos para su aplicación eficaz y eficiente como modelos en traducción automática, permitiendo su uso sobre tareas de traducción con un gran volumen de datos.
- PublicationArabic named entity recognition(Universitat Politècnica de València, 2010-05-24T07:14:21Z) Benajiba, Yassine; Rosso, Paolo; Dpto. de Sistemas Informáticos y Computación; Escuela Técnica Superior de Ingeniería Informática; Centro Propio de Investigación Pattern Recognition and Human Language TechnologyEn esta tesis doctoral se describen las investigaciones realizadas con el objetivo de determinar las mejores tecnicas para construir un Reconocedor de Entidades Nombradas en Arabe. Tal sistema tendria la habilidad de identificar y clasificar las entidades nombradas que se encuentran en un texto arabe de dominio abierto. La tarea de Reconocimiento de Entidades Nombradas (REN) ayuda a otras tareas de Procesamiento del Lenguaje Natural (por ejemplo, la Recuperacion de Informacion, la Busqueda de Respuestas, la Traduccion Automatica, etc.) a lograr mejores resultados gracias al enriquecimiento que a~nade al texto. En la literatura existen diversos trabajos que investigan la tarea de REN para un idioma especifico o desde una perspectiva independiente del lenguaje. Sin embargo, hasta el momento, se han publicado muy pocos trabajos que estudien dicha tarea para el arabe. El arabe tiene una ortografia especial y una morfologia compleja, estos aspectos aportan nuevos desafios para la investigacion en la tarea de REN. Una investigacion completa del REN para elarabe no solo aportaria las tecnicas necesarias para conseguir un alto rendimiento, sino que tambien proporcionara un analisis de los errores y una discusion sobre los resultados que benefician a la comunidad de investigadores del REN. El objetivo principal de esta tesis es satisfacer esa necesidad. Para ello hemos: 1. Elaborado un estudio de los diferentes aspectos del arabe relacionados con dicha tarea; 2. Analizado el estado del arte del REN; 3. Llevado a cabo una comparativa de los resultados obtenidos por diferentes tecnicas de aprendizaje automatico; 4. Desarrollado un metodo basado en la combinacion de diferentes clasificadores, donde cada clasificador trata con una sola clase de entidades nombradas y emplea el conjunto de caracteristicas y la tecnica de aprendizaje automatico mas adecuados para la clase de entidades nombradas en cuestion. Nuestros experimentos han sido evaluados sobre nueve conjuntos de test.
- PublicationAuthor Profiling en Social Media: Identificación de Edad, Sexo y Variedad del Lenguaje(Universitat Politècnica de València, 2016-07-07) Rangel Pardo, Francisco Manuel; Rosso, Paolo; Dpto. de Sistemas Informáticos y Computación; Escuela Técnica Superior de Ingeniería Informática; Centro Propio de Investigación Pattern Recognition and Human Language Technology[EN] The possibility of knowing people traits on the basis of what they write is a field of growing interest named author profiling. To infer a user's gender, age, native language or personality traits, simply by analysing her texts, opens a wide range of possibilities from the point of view of forensics, security and marketing. Furthermore, social media proliferation, which allows for new communication models and human relations, strengthens this wide range of possibilities to bounds never seen before. Idiosyncrasy inherent to social media makes them a special environment of communication, where freedom of expression, informality and spontaneous generation of topics and trends, enhances the knowledge of the daily reality of people in their use of language. However, the same idiosyncrasy makes difficult, or extremely costly, the application of linguistic techniques. In this work we have proposed EmoGraph, a graph-based approach with the aim at modelling the way that users express their emotions, and the way they include them in their discourse, bearing in mind not only their frequency of occurrence, but also their position and relationship with other elements in the discourse. Our starting hypothesis is that users express themselves and their emotions differently depending on their age and gender, and besides, we think that this is independent on their language and social media where they write. We have collaborated in the creation of a common framework of evaluation at the PAN Lab of CLEF, generating resources that allowed us to verify our hypothesis achieving comparable and competitive results with the best ones obtained by other researchers on the field. In addition, we have investigated whether the expression of emotions would help to differentiate among users of different varieties of the same language, for example, Spanish from Spain, Mexican and Argentinian, or Portuguese from Portugal and Brazil. Our hypothesis is that the variation among languages is based more on lexical aspects, and we have corroborated it after comparing EmoGraph with representations based on word patterns, distributed representations and a representation that uses the whole vocabulary, but reducing its dimensionality to only 6 features per class, what is suitable for its application to big data environments such as social media.
- PublicationBuilding task-oriented machine translation systems(Universitat Politècnica de València, 2012-09-20T06:42:03Z) Sanchis Trilles, Germán; Casacuberta Nolla, Francisco; Centro Propio de Investigación Pattern Recognition and Human Language TechnologyLa principal meta de esta tesis es desarrollar sistemas de traduccion interactiva que presenten mayor sinergia con sus usuarios potenciales. Por ello, el objetivo es hacer los sistemas estado del arte mas ergonomicos, intuitivos y eficientes, con el fin de que el experto humano se sienta mas comodo al utilizarlos. Con este fin se presentan diferentes t�ecnicas enfocadas a mejorar la adaptabilidad y el tiempo de respuesta de los sistemas de traduccion automatica subyacentes, as�ÿ como tambien se presenta una estrategia cuya finalidad es mejorar la interaccion hombre-m�aquina. Todo ello con el proposito ultimo de rellenar el hueco existente entre el estado del arte en traduccion automatica y las herramientas que los traductores humanos tienen a su disposici�on. En lo que respecta al tiempo de respuesta de los sistemas de traducci�on autom�atica, en esta tesis se presenta una t�ecnica de poda de los par�ametros de los modelos de traducci�on actuales, cuya intuici�on est�a basada en el concepto de segmentaci�on biling¤ue, pero que termina por evolucionar hacia una estrategia de re-estimaci�on de dichos par�ametros. Utilizando esta estrategia se obtienen resultados experimentales que demuestran que es posible podar la tabla de segmentos hasta en un 97%, sin mermar por ello la calidad de las traducciones obtenidas. Adem�as, estos resultados son coherentes en diferentes pares de lenguas, lo cual evidencia que la t�ecnica que se presenta aqu�ÿ es efectiva en un entorno de traducci�on autom�atica tradicional, y por lo tanto podr�ÿa ser utilizada directamente en un escenario de post-edici�on. Sin embargo, los experimentos llevados a cabo en traducci�on interactiva son ligeramente menos convincentes, pues implican la necesidad de llegar a un compromiso entre el tiempo de respuesta y la calidad de los sufijos producidos. Por otra parte, se presentan dos t�ecnicas de adaptaci�on, con el prop�osito de mejorar la adaptabilidad de los sistemas de traducci�on autom�atica. La primera
- PublicationContributions on Automatic Recognition of Faces using Local Texture Features(Universitat Politècnica de València, 2012-07-19T06:50:44Z) Monzó Ferrer, David; Albiol Colomer, Alberto; Escuela Técnica Superior de Ingeniería de Telecomunicación; Dpto. de Comunicaciones; Centro Propio de Investigación Pattern Recognition and Human Language TechnologyUno de los temas más destacados del área de visión artifical se deriva del análisis facial automático. En particular, la detección precisa de caras humanas y el análisis biométrico de las mismas son problemas que han generado especial interés debido a la gran cantidad de aplicaciones que actualmente hacen uso de estos mecnismos. En esta Tesis Doctoral se analizan por separado los problemas relacionados con detección precisa de caras basada en la localización de los ojos y el reconomcimiento facial a partir de la extracción de características locales de textura. Los algoritmos desarrollados abordan el problema de la extracción de la identidad a partir de una imagen de cara ( en vista frontal o semi-frontal), para escenarios parcialmente controlados. El objetivo es desarrollar algoritmos robustos y que puedan incorpararse fácilmente a aplicaciones reales, tales como seguridad avanzada en banca o la definición de estrategias comerciales aplicadas al sector de retail. Respecto a la extracción de texturas locales, se ha realizado un análisis exhaustivo de los descriptores más extendidos; se ha puesto especial énfasis en el estudio de los Histogramas de Grandientes Orientados (HOG features). En representaciones normalizadas de la cara, estos descriptores ofrecen información discriminativa de los elementos faciales (ojos, boca, etc.), siendo robustas a variaciones en la iluminación y pequeños desplazamientos. Se han elegido diferentes algoritmos de clasificación para realizar la detección y el reconocimiento de caras, todos basados en una estrategia de sistemas supervisados. En particular, para la localización de ojos se ha utilizado clasificadores boosting y Máquinas de Soporte Vectorial (SVM) sobre descriptores HOG. En el caso de reconocimiento de caras, se ha desarrollado un nuevo algoritmo, HOG-EBGM (HOG sobre Elastic Bunch Graph Matching). Dada la imagen de una cara, el esquema seguido por este algoritmo se puede resumir en pocos pasos: en una primera etapa se ext
- PublicationContributions to Deep Learning Models(Universitat Politècnica de València, 2016-03-01) Mansanet Sandín, Jorge; Albiol Colomer, Alberto; Paredes Palacios, Roberto; Escuela Técnica Superior de Ingeniería de Telecomunicación; Dpto. de Sistemas Informáticos y Computación; Dpto. de Comunicaciones; Escuela Técnica Superior de Ingeniería Informática; Centro Propio de Investigación Pattern Recognition and Human Language Technology[EN] Deep Learning is a new area of Machine Learning research which aims to create computational models that learn several representations of the data using deep architectures. These methods have become very popular over the last few years due to the remarkable results obtained in speech recognition, visual object recognition, object detection, natural language processing, etc. The goal of this thesis is to present some contributions to the Deep Learning framework, particularly focused on computer vision problems dealing with images. These contributions can be summarized in two novel methods proposed: a new regularization technique for Restricted Boltzmann Machines called Mask Selective Regularization (MSR), and a powerful discriminative network called Local Deep Neural Network (Local-DNN). On the one hand, the MSR method is based on taking advantage of the benefits of the L2 and the L1 regularizations techniques. Both regularizations are applied dynamically on the parameters of the RBM according to the state of the model during training and the topology of the input space. On the other hand, the Local-DNN model is based on two key concepts: local features and deep architectures. Similar to the convolutional networks, the Local-DNN model learns from local regions in the input image using a deep neural network. The network aims to classify each local feature according to the label of the sample to which it belongs, and all of these local contributions are taken into account during testing using a simple voting scheme. The methods proposed throughout the thesis have been evaluated in several experiments using various image datasets. The results obtained show the great performance of these approaches, particularly on gender recognition using face images, where the Local-DNN improves other state-of-the-art results.
- PublicationContributions to High-Dimensional Pattern Recognition(Universitat Politècnica de València, 2011-05-20T11:40:35Z) Villegas Santamaría, Mauricio; Paredes Palacios, Roberto; Dpto. de Sistemas Informáticos y Computación; Escuela Técnica Superior de Ingeniería Informática; Centro Propio de Investigación Pattern Recognition and Human Language TechnologyThis thesis gathers some contributions to statistical pattern recognition particularly targeted at problems in which the feature vectors are high-dimensional. Three pattern recognition scenarios are addressed, namely pattern classification, regression analysis and score fusion. For each of these, an algorithm for learning a statistical model is presented. In order to address the difficulty that is encountered when the feature vectors are high-dimensional, adequate models and objective functions are defined. The strategy of learning simultaneously a dimensionality reduction function and the pattern recognition model parameters is shown to be quite effective, making it possible to learn the model without discarding any discriminative information. Another topic that is addressed in the thesis is the use of tangent vectors as a way to take better advantage of the available training data. Using this idea, two popular discriminative dimensionality reduction techniques are shown to be effectively improved. For each of the algorithms proposed throughout the thesis, several data sets are used to illustrate the properties and the performance of the approaches. The empirical results show that the proposed techniques perform considerably well, and furthermore the models learned tend to be very computationally efficient.
- PublicationCross-view Embeddings for Information Retrieval(Universitat Politècnica de València, 2017-03-03) Gupta, Parth Alokkumar; Banchs, Rafael E; Rosso, Paolo; Dpto. de Sistemas Informáticos y Computación; Escuela Técnica Superior de Ingeniería Informática; Centro Propio de Investigación Pattern Recognition and Human Language TechnologyIn this dissertation, we deal with the cross-view tasks related to information retrieval using embedding methods. We study existing methodologies and propose new methods to overcome their limitations. We formally introduce the concept of mixed-script IR, which deals with the challenges faced by an IR system when a language is written in different scripts because of various technological and sociological factors. Mixed-script terms are represented by a small and finite feature space comprised of character n-grams. We propose the cross-view autoencoder (CAE) to model such terms in an abstract space and CAE provides the state-of-the-art performance. We study a wide variety of models for cross-language information retrieval (CLIR) and propose a model based on compositional neural networks (XCNN) which overcomes the limitations of the existing methods and achieves the best results for many CLIR tasks such as ad-hoc retrieval, parallel sentence retrieval and cross-language plagiarism detection. We empirically test the proposed models for these tasks on publicly available datasets and present the results with analyses. In this dissertation, we also explore an effective method to incorporate contextual similarity for lexical selection in machine translation. Concretely, we investigate a feature based on context available in source sentence calculated using deep autoencoders. The proposed feature exhibits statistically significant improvements over the strong baselines for English-to-Spanish and English-to-Hindi translation tasks. Finally, we explore the the methods to evaluate the quality of autoencoder generated representations of text data and analyse its architectural properties. For this, we propose two metrics based on reconstruction capabilities of the autoencoders: structure preservation index (SPI) and similarity accumulation index (SAI). We also introduce a concept of critical bottleneck dimensionality (CBD) below which the structural information is lost and present analyses linking CBD and language perplexity.
- PublicationDependency Syntax in the Automatic Detection of Irony and Stance(Universitat Politècnica de València, 2021-11-29) Cignarella, Alessandra Teresa; Bosco, Cristina; Rosso, Paolo; Dpto. de Sistemas Informáticos y Computación; Escuela Técnica Superior de Ingeniería Informática; Centro Propio de Investigación Pattern Recognition and Human Language Technology[ES] The present thesis is part of the broad panorama of studies of Natural Language Processing (NLP). In particular, it is a work of Computational Linguistics (CL) designed to study in depth the contribution of syntax in the field of sentiment analysis and, therefore, to study texts extracted from social media or, more generally, online content. Furthermore, given the recent interest of the scientific community in the Universal Dependencies (UD) project, which proposes a morphosyntactic annotation format aimed at creating a "universal" representation of the phenomena of morphology and syntax in a manifold of languages, in this work we made use of this format, thinking of a study in a multilingual perspective (Italian, English, French and Spanish). In this work we will provide an exhaustive presentation of the morphosyntactic annotation format of UD, in particular underlining the most relevant issues regarding their application to UGC. Two tasks will be presented, and used as case studies, in order to test the research hypotheses: the first case study will be in the field of automatic Irony Detection and the second in the area of Stance Detection. In both cases, historical notes will be provided that can serve as a context for the reader, an introduction to the problems faced will be outlined and the activities proposed in the computational linguistics community will be described. Furthermore, particular attention will be paid to the resources currently available as well as to those developed specifically for the study of the aforementioned phenomena. Finally, through the description of a series of experiments, both within evaluation campaigns and within independent studies, I will try to describe the contribution that syntax can provide to the resolution of such tasks. This thesis is a revised collection of my three-year PhD career and collocates within the growing trend of studies devoted to make Artificial Intelligence results more explainable, going beyond the achievement of highest scores in performing tasks, but rather making their motivations understandable and comprehensible for experts in the domain. The novel contribution of this work mainly consists in the exploitation of features that are based on morphology and dependency syntax, which were used in order to create vectorial representations of social media texts in various languages and for two different tasks. Such features have then been paired with a manifold of machine learning classifiers, with some neural networks and also with the language model BERT. Results suggest that fine-grained dependency-based syntactic information is highly informative for the detection of irony, and less informative for what concerns stance detection. Nonetheless, dependency syntax might still prove useful in the task of stance detection if firstly irony detection is considered as a preprocessing step. I also believe that the dependency syntax approach that I propose could shed some light on the explainability of a difficult pragmatic phenomenon such as irony.
- PublicationDetección de opinion spam usando PU-learning(Universitat Politècnica de València, 2016-07-20) Hernández Fusilier, Donato; Guzmán Cabrera, Rafael; Montes Gomez, Manuel; Rosso, Paolo; Dpto. de Sistemas Informáticos y Computación; Escuela Técnica Superior de Ingeniería Informática; Centro Propio de Investigación Pattern Recognition and Human Language Technology[EN] Abstract The detection of false or true opinions about a product or service has become nowadays a very important problem. Recent studies show that up to 80% of people have changed their final decision on the basis of opinions checked on the web. Some of these opinions may be false, positive in order to promote a product/service or negative to discredit it. To help solving this problem in this thesis is proposed a new method for detection of false opinions, called PU-Learning*, which increases the precision by an iterative algorithm. It also solves the problem of lack of labeled opinions. To operate the method proposed only a small set of opinions labeled as positive and another large set of opinions unlabeled are needed. From this last set, missing negative opinions are extracted and used to achieve a two classes binary classification. This scenario has become a very common situation in the available corpora. As a second contribution, we propose a representation based on n-grams of characters. This representation has the advantage of capturing both the content and the writing style, allowing for improving the effectiveness of the proposed method for the detection of false opinions. The experimental evaluation of the method was carried out by conducting three experiments classification of opinions, using two different collections. The results obtained in each experiment allow seeing the effectiveness of proposed method as well as differences between the use of several types of attributes. Because the veracity or falsity of the reviews expressed by users becomes a very important parameter in decision making, the method presented here, can be used in any corpus where you have the above characteristics.
- PublicationDetección de reutilización de código fuente monolingüe y translingüe(Universitat Politècnica de València, 2016-07-01) Flores Sáez, Enrique; Moreno Boronat, Lidia Ana; Rosso, Paolo; Dpto. de Sistemas Informáticos y Computación; Escuela Técnica Superior de Ingeniería Informática; Centro Propio de Investigación Pattern Recognition and Human Language Technology[EN] Automatic detection of source code re-use consists in determining whether a (piece of) code has been created considering another source.Plagiarism and forks in software projects are two examples of types of re-use in source codes. With the advent of the Web and electronic media it has grown enormously the ease of access to source code to be read, copied or modified. This represents a great temptation for developers with the aim of reducing (time or economic) costs, decide to use previously debugged and tested source codes. This phenomenon has caused experts in programming languages to study the problem. The large amount of resources available on the Web makes impossible a manual analysis of suspect source codes of being re-used. Therefore, there is an urgent need to develop automated tools that can accurately detect re-used cases. Automatic re-use detection tools based on natural language processing techniques and information retrieval are able to perform many comparisons of source codes efficiently. In this thesis we propose a set of models that are suitable at both monolingual or crosslingual level. That is, two source codes written in the same, or different, programming language can be compared. Therefore, it allows us to make comparisons between almost any pair of programming languages unlike the proposals of the state of the art. First, we studied the most common changes made by programmers to avoid the detection. To address these changes and improve the detection, we have proposed a set of pre-processing. The models have been evaluated and analysed in real academic settings as well as large-scale scenarios. Finally, our best proposals were compared with some of the state of the art proposals within the same evaluation framework. These tests of our models were performed millions of monolingual and crosslingual comparisons using several techniques that were effective when applied to detection re-use in texts written in natural language. Most of the resources developed in the framework of this thesis are freely available to the scientific community. Using part of these resources, we have set up two evaluation scenarios (monolingual and crosslingual) that are a reference for current and future research works can adjust and compare their proposals.
- PublicationDetecting Deception, Partisan, and Social Biases(Universitat Politècnica de València, 2022-09-06) Sánchez Junquera, Juan Javier; Montes Gómez, Manuel; Ponzetto, Simone Paolo; Rosso, Paolo; Dpto. de Sistemas Informáticos y Computación; Escuela Técnica Superior de Ingeniería Informática; Centro Propio de Investigación Pattern Recognition and Human Language Technology; Agencia Estatal de Investigación[ES] En la actualidad, el mundo político tiene tanto o más impacto en la sociedad que ésta en el mundo político. Los líderes o representantes de partidos políticos hacen uso de su poder en los medios de comunicación, para modificar posiciones ideológicas y llegar al pueblo con el objetivo de ganar popularidad en las elecciones gubernamentales.A través de un lenguaje engañoso, los textos políticos pueden contener sesgos partidistas y sociales que minan la percepción de la realidad. Como resultado, los seguidores de una ideología, o miembros de una categoría social, se sienten amenazados por otros grupos sociales o ideológicos, o los perciben como competencia, derivándose así una polarización política con agresiones físicas y verbales. La comunidad científica del Procesamiento del Lenguaje Natural (NLP, según sus siglas en inglés) contribuye cada día a detectar discursos de odio, insultos, mensajes ofensivos, e información falsa entre otras tareas computacionales que colindan con ciencias sociales. Sin embargo, para abordar tales tareas, es necesario hacer frente a diversos problemas entre los que se encuentran la dificultad de tener textos etiquetados, las limitaciones de no trabajar con un equipo interdisciplinario, y los desafíos que entraña la necesidad de soluciones interpretables por el ser humano. Esta tesis se enfoca en la detección de sesgos partidistas y sesgos sociales, tomando como casos de estudio el hiperpartidismo y los estereotipos sobre inmigrantes. Para ello, se propone un modelo basado en una técnica de enmascaramiento de textos capaz de detectar lenguaje engañoso incluso en temas controversiales, siendo capaz de capturar patrones del contenido y el estilo de escritura. Además, abordamos el problema usando modelos basados en BERT, conocidos por su efectividad al capturar patrones sintácticos y semánticos sobre las mismas representaciones de textos. Ambos enfoques, la técnica de enmascaramiento y los modelos basados en BERT, se comparan en términos de desempeño y explicabilidad en la detección de hiperpartidismo en noticias políticas y estereotipos sobre inmigrantes. Para la identificación de estos últimos, se propone una nueva taxonomía con fundamentos teóricos en sicología social, y con la que se etiquetan textos extraídos de intervenciones partidistas llevadas a cabo en el Parlamento español. Los resultados muestran que los enfoques propuestos contribuyen al estudio del hiperpartidismo, así como a identif i car cuándo los ciudadanos y políticos enmarcan a los inmigrantes en una imagen de víctima, recurso económico, o amenaza. Finalmente, en esta investigación interdisciplinaria se demuestra que los estereotipos sobre inmigrantes son usados como estrategia retórica en contextos políticos.