Desarrollo de un software para la detección automática de tópicos en documentos textuales basada en taxonomía (original) (raw)
Related papers
Procesamiento Del Lenguaje Natural, 2017
La extracción automática de frases relevantes constituye una tarea de gran importancia para muchas soluciones computacionales en el área del procesamiento de lenguaje natural y la minería de texto. En este trabajo se propone un nuevo método no supervisado para la extracción de frases relevantes en textos, en el cual se combina el uso de patrones léxico-sintácticos con una estrategia de análisis de tópicos basada en grafo. El método fue evaluado con los corpus SemEval-2010 e INSPEC y comparado con otras propuestas del estado del arte, obteniéndose resultados muy prometedores. Palabras claves: Extracción automática de frases relevantes, minería de texto, procesamiento de lenguaje natural
QuarryMeaning: Una aplicación para el modelado de tópicos enfocado a documentos en español
Proces. del Leng. Natural, 2018
Esta demostracion presenta una aplicacion standalone que permite entrenar y probar un modelo de topicos. Tal aplicacion considera filtros para reducir ruido en los resultados. Asi, por una parte, se incluye una lista de palabras base no relevantes que se puede complementar con otros vocabularios, ya sean propuestos por el usuario, o bien obtenidos mediante un enfoque comparativo usando un corpus de referencia. Por otro lado, es posible considerar unicamente las palabras que tienen un valor semantico alto usando etiquetas de partes de la oracion. Ademas, se incluye un despliegue visual de nubes de palabras que muestra los primeros 10 topicos derivados del entrenamiento, con el objetivo de explorar visualmente los resultados. Finalmente, se realizo la evaluacion de la herramienta considerando una tarea de clasificacion de documentos. El modelo logro niveles de precision superiores al 95% en el conjunto de prueba.
Análisis automático de documentación técnica informática
V Congreso AESLA. Pamplona, 1987, 1987
La selección del vocabulario específico para la enseñanza de lenguajes especializados ha de estar fundamentada en estudios lexicográficos rigurosos, para los cuales es posible hoy da contar con las técnicas usuales de la informática documental. En esta comunicación se presenta un ejemplo práctico de una metodología, con la que los autores vienen trabajando desde hace algún tiempo, encaminada al análisis de los aspectos léxicos de los textos que se emplean en la enseñanza de la lengua inglesa para fines específicos (E.S.P.). El trabajo parte de la creación de una base de datos documental, a partir de la cual se realiza automáticamente el análisis estadístico de frecuencias que permita establecer cuáles son los términos específicos ms utilizados en la documentación informática. Para ello se ha procesado un corpus textual de más de doscientas mil palabras.
2021
Una de las características principales de cualquier texto es referirse a un tema concreto, así como contener palabras clave que lo definan, que pueden permitirnos clasificar dicho texto en función de uno o varios temas principales. El objetivo de este proyecto ha sido poder automatizar todo este proceso mediante técnicas de Text Mining, Procesamiento del Lenguaje Natural y Machine Learning utilizando el lenguaje de programación Python 3, uno de los lenguajes más utilizados en la actualidad y con mayor proyección a futuro. Para ello, hemos aplicado diferentes procedimientos, como son, el establecer un directorio de trabajo que incluya el corpus a analizar, la lectura de los datos de dicho corpus, el procesado de los mismos y la aplicación del algoritmo LDA (Latent Dirichlet Allocation) para modelado de tópicos con técnicas de aprendizaje no supervisado, consiguiendo la clasificación automática del texto sin partir de un conjunto predefinido de temas de clasificación. En nuestro caso ...
Categorización automática de documentos en español: algunos resultados experimentales
Jornadas de Bibliotecas Digitales, 2000
La categorización automática puede contemplarse como un proceso de aprendizaje, durante el cual un programa capta las características que distinguen cada categoría o clase de las demás, es decir, aquéllas que deben poseer los documentos para pertenecer a esa categoría. De otro lado, pocos experimentos se han efectuado todavía con documentos en español. Se muestran las posibilidades de elaborar vectores patrón que recojan las características de distintas clases o categorías de documentos, utilizando técnicas basadas en aquéllas aplicadas en la expansión de consultas por relevancia. Al mismo tiempo, se describe un experimento consistente en la aplicación de esas técnicas a una colección de noticias de prensa en español, para su categorización. Los resultados obtenidos son, en conjunto, homologables o incluso mejores que los obtenidos en experimentos similares; para algunas de las categorías, estos resultados han sido muy favorables.
Tonos digital: Revista electrónica de estudios filológicos, 2018
Este artículo pretende aplicar métodos de aprendizaje automático supervisado a una base de datos con información textual según el grado de especialización para comprobar la relevancia teórica de métodos numéricos de clasificación empleados a priori. Los resultados destacan las debilidades de trabajar con clasificaciones cuantitativas y las fortalezas de predicción de clase al usar el algoritmo J48.
La originalidad de nuestro proyecto consiste en darse los medios para acceder al contenido semántico de los textos con el objetivo de extraer secuencias particularmente pertinentes orientadas según un perfil de usuario. A esos efectos nos proponemos explotar conocimientos de naturaleza puramente lingüística, y más precisamente semántica, apoyándonos en el método de exploración contextual. La plataforma ContextO está actualmente operativa sobre textos en español y en francés tratando textos con un límite superior de 250 páginas.
Tesis de Maestría en Computación, Centro de Investigación en Computación, Instituto Politécnico Nacional, 2018
A prototype called Noti-Explorer is presented, a tool for the analysis of daily news in various Internet newspapers. The system implements diverse data mining techniques that help to understand a large amount of news that has been collected, The user interface provides the options to reduce the size of the corpus that you want to analyze; allows entering words of interest, in a period of time and by classic sections such as: Politics, Health, Science and Technology, Sports, National, States, International, Society, Opinion Security, among others. We suggest a visual analysis system that combines interactive visualizations in a web interface, the implementation of unsupervised learning methods and the recognition of entities. Currently, there are some web applications that integrate different digital newspapers such as Google News that recommend it on a basis to a query and a sample of a list of possible news to a search, NewsStand a geographical map and Analytix that only displays the number of mentions extracted from the the Facebook or Twitter API. Noti-Explorer uses Natural Language Processing (NLP) techniques, Transformation Extraction and Data Loading (ETL) processes, Named Entity Recognition (NER), a probabilistic model of unsupervised learning, and Latent Dirichlet Allocation (LDA) and different techniques such as Tree Maps to interact with generated groups, word clouds to observe words more frequently, line graphs to see the number of publications per day, title and image located geographically. In the present system is based on the idea that the modeling of probabilistic topics can help the summarization, organization and exploration of large collections of documents, the different visualization techniques that combine shapes, colors, figures, images, maps and text can increase visual perception and cognitive capacity of the people who interact with the tool, the use of named entities also comes to be of great help a moment of the search of the news that are usually interesting for an analyst in particular. With the use of a visual analysis tool, it is expected that the people in charge of reading a large number of journalistic texts reduce the time they use to visit each digital newspaper separately, reduce the workload when selecting the news that they are interested in analyzing and increase cognitive capacity when searching for new knowledge. The prototype is in the test phase, it extracts from 32 digital newspapers of Mexico an average of 1,800 news daily and currently has more than 400 million news that can appear possible situations of interest to the user that interacts with it. The first version of the system can be visited at the address http://148.204.66.228:8000/Noti-Explorer.