miércoles, junio 04, 2008

BORRAR Y MAS BORRAR (III)

Imagen: A Thom Yorke también le gustan los borradores. Ya me dirán cómo es la cosa sus fanáticos. Tomada de la página de Thom Yorke en Amie Street.

Se alargó y se alargó la trilogía sobre la conferencia de Oxford, hasta tal punto que ya no voy a hablar en ella de las charlas más importantes de mis gurúes académicos: Sven Aerts, Dominic Widdows y Peter Bruza. Y de otras charlas muy interesantes. Voy a saltar de una vez a la parte donde se entiende por qué la trilogía hace referencia a los borradores. No es porque las penas no se borren con un borrador de tiza, ni con el trago que me embriaga.

La idea es la siguiente: Aerts, Widdows y Bruza han mostrado cómo el lenguaje natural tiene rasgos que se acomodan más a una descripción construída sobre la lógica cuántica que sobre la lógica booleana normal , pero yo pretendo extender eso un poco: tal vez las mediciones lexicográficas que se hacen sobre documentos de texto en lenguaje natural también funcionen mejor representadas con un esquema cuántico.

De acuerdo con la teoría cuántica, cuando se escoge un conjunto de observables para medir en un sistema, al medirlos se borrará irremediablemente la información acerca de otros observables que no se midieron. Es decir, al medir una cosa, se borra otra.

Mi modesto aporte, para decirlo de una vez, consiste en tres cosas:
  1. Definir borradores selectivos, que borran todo lo que no está en la vecindad de la aparición de una palabra en el texto, y mostrar que tienen muchas de las características de mediciones cuánticas ideales: se comportan como un cierto tipo de operadores llamados proyectores.
  2. Explorar las posibles relaciones lógicas entre los borradores selectivos definidos con diferentes palabras y diferentes tamaños de vecindad, todo bajo la luz de lo que se conoce sobre lógica cuántica
  3. Proponer la manera como se pueden utilizar estas características cuánticas de las mediciones lexicográficas para representar documentos de texto en un sistema de búsqueda de información.
La idea es que un documento de texto puede pensarse como un estado de un sistema físico. Hay un sistema físico, no importa si es un disco, un papel, o lo que sea, y lo que está escrito ahí es un estado del sistema. Lo que está escrito, además, no está definido hasta que el lector no ha escogido el punto de vista desde el cual lo va a leer. Las palabras se consideran, en este enfoque, como entes con un significado muy dependiente del contexto, cuya representación, si pretende llevar un contenido semántico, debería depender fuertemente del punto de vista.

Cuando dos borradores son compatibles, el orden en el que se aplican no importa, y con ellos se pueden definir las operaciones lógicas habituales (uno Y el otro, uno O el otro, etc.). Cuando no son compatibles , la lógica booleana no tiene mucho que decir de sus relaciones, y hay que comenzar a escarbar en lo que se ha desarrollado de la lógica cuántica, una lógica con puntos de vista (hay otras, pero son bastante más complicadas).

Como tengo que aplicar este esquema a experimentos prácticos de búsqueda de información, ya comencé a aprender a poner ese tipo de cosas a funcionar con un computador. Algo que estoy haciendo, es practicar con texto sacado de blogs. Lo que he hecho hasta ahora a nivel informal (de mi trabajo formal no hablo aún) es encontrar la manera de sacar una matriz de similaridad entre palabras según su uso, partiendo de un documento de texto.

El lector suficientemente geek puede encontrar en este enlace un programa que calcula la matriz de co-ocurrencias. Se baja como documento de texto a CoOcurrencias.sh, y se le fijan los permisos como ejecutable. Eso se puede hacer con

wget http://www.dcs.gla.ac.uk/~alvaro/CoOcurrencias.sh
chmod +x CoOcurrencias.sh
# La siguiente linea hay que añadírsela a /etc/rc.local con privilegios de administrador:
alias CoOcurrencias="/CoOcurrencia.sh"

Para usarlo, sugiero crear una carpeta con sólo la lista de palabras y el archivo de texto. Se ubica en esa carpeta, y le da el siguiente comando:

CoOcurrencias [lista de términos] [archivo de texto] [ancho de ventana]


El programa creará algunos archivos temporales que se borran solos, y una carpeta "ventanas" donde pondrá unos archivos .dat con los conteos alrededor de cada palabra. Finalmente, quedan los siguientes archivos:

TerminosContados.txt - Conteo de los términos que aparecen
resultadosCC.out - Los pares de palabras, con las veces que aparecen cerca
resultadosCCN.out - Las palabras reemplazadas por números, para procesamiento matemático posterior.


Recomiendo que para estos cálculos se utilicen archivos de texto de al menos cientos de miles de palabras, pues de otro modo la matriz de coocurrencias queda muy vacía.

Inicialmente, apliqué este procedimiento al primer pantallazo del blog Pensemos País Bizarro, de donde saqué 223044 palabras (tokens) que son distintas ocurrencias de 19701 términos, 12958 aparecen sólo una o dos veces, 6743 aparecen más veces. Por ahora, sólo mencionaré un par de datos curiosos que encontré en el citado blog:

  • Entre las palabras más frecuentes está "Colombia" que sale 598 (mas frecuente que 19292 palabras, menos que 31)
  • La palabra "nunca", una muletilla epistemológica que me causa gracia del autor del blog, aparece 90 veces (mas frecuente que 19090 términos, menos frecuente que 233)
  • La palabra "siempre", otra cara de la misma muletilla, aparece 229 veces (mas frecuente que 19240 términos, menos frecuente que 83)
  • La palabra "izquierda" tiene una frecuencia de co-ocurrencia con la palabra "antepasado" que es toda una rareza en el lenguaje natural. Altísima. "antepasado" sólo aparece en la vecindad de "izquierda". Habría que juntar este pantallazo con otros, para validar este resultado en un texto más largo.
Finalmente, ya que estamos hablando de lenguaje, les dejo acá un video hilarante que se encontró Shoegazer sobre el lenguaje que se usa en Glasgow:



Buen provecho. Ya me dirán los que la conocen si la presentadora no se parece a mi mamá cuando era joven.

6 comentarios:

richard van egas dijo...

lógica cuántica en lugar de lógica booleana......hmmm??? siempre he pensado que el lenguaje se construye sobre algo más simple y básico.....lógica aristotélica (sofismas y silogismos) que dan lugar a un mapa mental en forma de diagrama de flujo........LO DE LA LÓGICA CUÁNTICA puede ser aceptable e irrefutable si es una aplicación numérica de la disciplina aristotélica.....EN MODO BINARIO....como se programaban los primeros computadores......no se si hoy día se mantenga la base del lenguaje binario como consecuencia de un diagrama de flujo para programar pcs

Apelaez dijo...

A mi me gusta usar leximancer, pero tal vez al autor le parecezca una maricada ese sofguar.

Interesantes resultados lo de don Jaime. Para el bizarro, Jimenez de Quesada era un protoizquierdista. Bien, bien.

Lanark dijo...

Richard: Hombre, honor que le hace a la lógica cuántica aceptando la posibilidad de que sea "aceptable e irrefutable". Me saluda a los sofismas aristotélicos.

Apeláez: Leximancer me parece muy chévere. La interfaz gráfica está poderosísima y se lleva muchos puntos por integración de distintas funciones.

La teoría con la que funciona es muy sólida, e incluso funciona con cantidades grandecitas de texto, pero tiene problemas de escalabilidad más allá. Principalmente, creo que los problemas vienen de que la teoría funciona sólo para palabras que aparecen justamente juntas (no con palabras en medio) de modo que hay que hacer muchos trucos para compensar eso.

Tal vez los problemas de escalabilidad puedan superarse con algunos métodos que se están apenas probando y desarrollando (por ahí le trabajé a un método que creo que le es bastante familiar al contradictor profesional Daniel Vaughan).

Yo creo que en un post que vendrá posiblemente haga un mini-análisis muy informal de diversos blogs, el de don Jaime entre ellos, pero también el de A. Gaviria y el suyo. Es una manera amena de cacharrear y aprender a hacer cosas que tengo que aprender a hacer.

richard van egas dijo...

ejemplo de mi hipótesis:

1 si verdadero, 0 si falso

TODOS LOS COLOMBIANOS SON BUENOS (1)
TODOS LOS URIBISTAS SON COLOMBIANOS(1)

SOFISMA: TODOS LOS URIBISTAS SON BUENOS (0)

aunque de la primera premisa no estoy seguro....y esto es lógica aristotélica con un matiz binario

Anónimo dijo...

微風成人區小魔女成人貼圖亞洲無碼電影下載hi5 tv免費成人影片小魔女貼影片卡通18美少女圖sexy girl video moviesex520貼片區成人影音live秀redtube影片下載999成人性站咆嘯小老鼠嘟嘟成年人網杜蕾斯成人影片史萊姆好玩遊戲第一頁愛島交友聊天室ut影音視訊聊天室13077色情遊戲下載站台灣情色成人論壇QQ便利聊天室成人做愛影片免費色咪咪影片網性愛情小說美國a片下載kiss文學區成人小說論壇都都成人站火影忍者漫畫連載a383girl影音城洪爺bt電影下載微風論壇短片區歐美模特兒寫真愛情國小 交友聊天室自拍美女聊天室18成人dvd亞洲風暴情色貼圖網艾噹洛學院無限討論區pro論壇無名相簿密碼破解色情熟婦dvd影片080 聊天室 6k聊天館後宮電影院入口麗的線上小遊戲玩美女人 免費影音秀 - PlayGirl痴漢俱樂部playboy國際中文網play104遊藝線上情色貼圖aa影片下載城18進不禁的影片成人夜色影音分享布蘭妮貼影區xvediox 免費成人頻道Badjojo免費女優電影無碼a片下載好玩遊戲第一頁69成人論壇嘟嘟圖片區卡通美女短片免費試看日本成人影音視訊聊天室性虐待影片櫻井莉亞三點全露寫真集情色圖貼tw18台灣18成人網免費色情小電影小高聊天室日本成人短片金瓶影片交流區情色網站18成人圖片亞洲成人圖片區情色成人論壇洪爺情色貼圖區情色文學成人小說林志玲寫真集台北情色 聊天室豆豆交友聊天室美女聊天室自拍密錄館85cc成人論壇免費色情貼圖櫻井美春 a片下載免費a片短片下載艾當落學院QQ美女交友聊天室美女圖片貼圖區癡漢俱樂部成人文章 免費分享區嘟嘟情人色網曼雪兒H卡通圖片情色性愛貼圖sex999免費a片女人色色網線上aa片免費看sex383色情娛樂場遊戲天堂楓之谷SEX520免費影片girl5320免費性愛影片彩虹頻道a片下載SEX520免費影片av1688影音娛樂網myweb嘟嘟 成人 貼圖QQ美美色情文學網SEX520免費影片SEX520免費影片哈啦色美媚部落格成人色情卡通漫畫圖片sex999免費影片SEX520免費影片SEX520免費影片99770在線漫畫免費a長片線上看亞洲成人圖片區成人愛情小說傳播妹援交偷拍影片平水相逢遊戲區sex999 免費影片免費色情貼圖貼片大奶妹做愛影片ok論壇米克成人情色論壇18成人網自拍美女聊天室視訊交友高雄網亂倫小說網色情漫畫論壇哈啦免費遊戲網

Anónimo dijo...

小遊戲天堂成人情色貼圖區美女短片免費試看新豆豆聊天室丁字褲性感影片六一歌詞帝國成人情色小說本土自拍貼圖天堂成人動畫論壇a片免費看小幻好玩遊戲ndsl遊戲下載癡漢論壇守護甜心遊戲洪爺色情電影線上免費a片xvediox影片下載教學aaa片免費看短片080聊天網85cc成人影片哈啦部落格捷克 論壇成人短片論壇台灣a片王愛愛成人電影院plus論壇p2p無碼av直播室歐美a免費線上看080中部人聊天室美少女自拍貼圖成人漫畫論壇a383成人影城洪爺 影片下載區sex888影城色情小說成人遊戲論壇ET成人文學美美情色 文學小說免費豆豆聊天室新6k聊天室嘟嘟成人聊天室免費色情電影觀賞八國聯軍成人小說色情 遊戲八國聯軍成人論壇夜未眠成人影城wikipedia - 維基百科波波情色貼圖百分百成人貼圖片區成人聊天室080援交友聊天室色情卡通成人動畫網波波線上遊戲網微風 成人 論壇大眾 論壇本土a片下載米克情色論壇免費線上看A片mcy論壇壞朋友論壇fliendo情色故事成人動畫免費看使萊姆好玩遊區第一頁777成人區維克斯討論區女生自衛影片性愛影片下載一葉情貼圖片區內衣模特兒寫真情人視訊辣妹聊天網嘟嘟成人論壇絕色成人影城甜心寶貝貼影區日本美女寫真集SEX520免費電影免費線上a片情色成人影片sex999 免費影片平水相逢 gba 遊戲區火影忍者直播室777成人論壇Ben10 遊戲天堂SEX520免費影片觀賞Ikariam免費網頁遊戲小弟弟貼影片區絕色影城383洪爺影城曼雪兒免費情色小說航海王h短片分享免費a片線上看免費a片線上看免費a片線上看免費a片線上看免費a片線上看免費a片線上看免費a片線上看免費a片線上看aa片免費看aa片免費看aa片免費看aa片免費看aa片免費看aa片免費看aa片免費看aa片免費看aa片免費看一葉晴貼影片一葉晴貼影片一葉晴貼影片一葉晴貼影片一葉晴貼影片一葉晴貼影片SEX520免費影片SEX520免費影片

COMPREN, COMPREN