lunes, septiembre 16, 2013

Minería de texto en transcripciones telefónicas ¿Búsqueda de conocimiento o vulneración de la intimidad?

La reciente denuncia de varios países europeos ante la monitorizacion de conversaciones de sus líderes ha provocado un debate sobre la extracción de conocimiento a partir de textos o transcripciones de conversaciones. A continuación voy a detallar en qué consiste el proceso. 

La búsqueda libre de texto en documentos de una corporación, en una administración pública o consejo de investigación, puede ser indiscutiblemente útil para indexar y clasificar ficheros por temas o asuntos de interés, en lo que ya se conocía como gestión documental. Pero, en los últimos años, gracias a la minería de texto (text mining), además, es posible extraer el contexto de una frase en diversas fuentes a disposición de un algoritmo, que, mediante inducción, inferencia, o lógica de predicados, puede construir proposiciones completas con mayor cantidad de información que los textos originales.

  Así, considerando, que, según el ministerio de trabajo, el 80 por ciento de la información de una compañía está almacenada en forma de documentos, y que ha habido grandes avances en las técnicas de categorización de texto, procesamiento de lenguaje natural, extracción y recuperación de la información o aprendizaje automático, entre otros, la minería de texto se ha convertido en una técnica útil y factible que ha crecido muy rápidamente.   Las aplicaciones de la minería de textos se utilizan principalmente para:  

   Extraer información relevante de un documento.
   Agregar y comparar información automáticamente.
   Clasificar y organizar documentos según su contenido.
   Organizar depósitos para búsqueda y recuperación.
   Clasificar textos e indexarlos en el Web.  

    De modo que podemos definir la minería de texto como un área de la ingeniería lingüística que combina los conocimientos sobre la estructura del lenguaje humano con sistemas informáticos, de manera que sea posible reconocer, comprender, interpretar y generar lenguaje escrito u oral.

     En los centenares de documentos que cualquier empresa o institución genera diariamente: textos, correos, registros, etc, de ser extraída su información, serviría, por ejemplo, para hacer análisis, identificar competencias, monitorear el mercado e, incluso, detectar fraudes. Las entidades y agencias tributarias de algunos países, están comenzando a usar la minería de texto para extraer información de sus contribuyentes sobre contratos, propiedades, registros, recibos, escrituras, extractos bancarios, facturas cruzadas cliente-proveedor, etc. 

    El potencial de la aplicación en medicina, mediante la creación de una gran base de conocimiento a partir de la experiencia recogida en los casos de estudio y las relaciones causa-efecto de las más diversas patologías y sus tratamientos, es prometedor.   En el ámbito personal, por ejemplo, Google, en respuesta a las peticiones de transparencia que se han cursado sobre su base de conocimiento, ha publicado  un tablero con la información que tiene de cada usuario (https://www.google.com/dashboard/?hl=en). Los anuncios adwords oportunos y personalizados que ofrecen a sus usuarios, han hecho sospechar a muchos de éstos, que se estén usando algoritmos de minería de texto en el correo (web mining) para la selección de supuestos temas de interésales    

     En definitiva, la minería de texto, consiste en un proceso que se ocupa del descubrimiento de conocimiento que no existe en el texto, y que surge al relacionar el contenido de varios documentos, a partir de técnicas de aprendizaje automático de  patrones que se encuentran en ellos de forma no estructurada. Esto conforma la particularidad esencial respecto a la minería de datos en sentido amplio que extrae información a partir de estructuras de datos. Y si el objetivo es el espacio web (hosting, correo, etc) de una corporación, y sus relaciones en Internet, se denomina minería Web.   La minería de textos en el sector comercial ha demostrado que puede generar un aumento de la eficacia en modelos predictivos y mejora la efectividad de los costes y del tiempo así como la capacidad de respuesta a las necesidades de clientes y proveedores. En la investigación, a pesar de las trabas de propiedad intelectual, se pueden conseguir avances muy significativos.      

                                                             

Fuentes:  
http://administracionelectronica.gob.es/recursos/pae_020000470.pdf
http://mineria-textos-web.awardspace.com/
http://bitnavegante.blogspot.com.es/2012/05/mineria-de-textos-que-tienen-los.html



No hay comentarios: