Imagen de cubierta local
Imagen de cubierta local
Imagen de Google Jackets

Normalización de texto en español de Argentina / Alan Bracco; director Franco M. Luque.

Por: Colaborador(es): Detalles de publicación: [S.l. : s.n. ], 2018.Descripción: 67 h. : il. ; 30 cmTema(s): Recursos en línea: Nota de disertación: Tesis (Lic. en Cs. de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2018. Resumen: En la actualidad la cantidad de datos que consume y genera una sola persona es gigantesca. Los datos cada vez son más, ya que cualquiera puede generarlos. Esto trae consigo un aumento en el ruido que hay en esos datos. Es por eso que el texto de las redes sociales se caracteriza por ser ruidoso, lo que es un problema cuando se quiere trabajar sobre ellos. En este trabajo construimos un corpus de tweets en español de Argentina. Recolectamos un conjunto grande de tweets y luego los seleccionamos manualmente para obtener una muestra representativa de los errores típicos de normalización. Luego, definimos criterios claros y explícitos de corrección y los utilizamos para proceder a la anotación manual del corpus. Además, presentamos un sistema de normalización de texto que trabaja sobre tweets. Dado un conjunto de tweets como entrada, el sistema detecta y corrige las palabras que deben ser estandarizadas. Para ello, utiliza una serie de componentes como recursos léxicos, sistemas de reglas y modelos de lenguaje. Finalmente, realizamos experimentos con diferentes corpus, entre ellos el nuestro, y diferentes configuraciones del sistema para entender las ventajas y desventajas de cada uno.
Etiquetas de esta biblioteca: No hay etiquetas de esta biblioteca para este título.
Existencias
Tipo de ítem Biblioteca actual Signatura URL Copia número Estado Notas Fecha de vencimiento Código de barras Reserva de ítems
Trabajo Especial de Grado Trabajo Especial de Grado FaMAF Secc. Tesis y Trabajos especiales Trabajo Especial Computación CAJA 24 - 23566 Enlace al Recurso 1 Disponible Disponible también en línea 23566
Total de reservas: 0

Tesis (Lic. en Cs. de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2018.

Bibliografía: h. 65-67.

En la actualidad la cantidad de datos que consume y genera una sola persona es gigantesca. Los datos cada vez son más, ya que cualquiera puede generarlos. Esto trae consigo un aumento en el ruido que hay en esos datos. Es por eso que el texto de las redes sociales se caracteriza por ser ruidoso, lo que es un problema cuando se quiere trabajar sobre ellos. En este trabajo construimos un corpus de tweets en español de Argentina. Recolectamos un conjunto grande de tweets y luego los seleccionamos manualmente para obtener una muestra representativa de los errores típicos de normalización. Luego, definimos criterios claros y explícitos de corrección y los utilizamos para proceder a la anotación manual del corpus. Además, presentamos un sistema de normalización de texto que trabaja sobre tweets. Dado un conjunto de tweets como entrada, el sistema detecta y corrige las palabras que deben ser estandarizadas. Para ello, utiliza una serie de componentes como recursos léxicos, sistemas de reglas y modelos de lenguaje. Finalmente, realizamos experimentos con diferentes corpus, entre ellos el nuestro, y diferentes configuraciones del sistema para entender las ventajas y desventajas de cada uno.

cc Creative Commons Atribución-NoComercial-Compartir Igual 4.0 Internacional CC BY-NC-SA

https://creativecommons.org/licenses/by-nc-sa/4.0/

Haga clic en una imagen para verla en el visor de imágenes

Imagen de cubierta local


Nuestras Redes Sociales

facebook Instagram

Horario de la Biblioteca: lunes a viernes de 8:30 a 18:30hs

Av. Medina Allende s/n , Ciudad Universitaria, Córdoba, Argentina

Tel: +54 351 5353701 int. 41127 (Atención al Público) int. 41151 (Dirección)

biblio@famaf.unc.edu.ar (Dirección)

publicofamaf@gmail.com (Atención al público)