domingo, junio 08, 2008

PEQUEÑO PASEO LEXICOGRÁFICO

Imagen: Catálogo de pajaritos sumerio de hace muuucho tiempo. Tomada de la sección lexicográfica de la página web de la colección Schoyen.

Como lo había mencionado antes, me puse a bajar texto de unos cuantos blogs (5) para ver qué resultados de co-ocurrencia de palabras salen, con mi programita. Quería hacer eso también con el blog del Juglar del Zipa, pero resultó que tiene demasiado pocas palabras. Para llenar el hueco metodológico, decidí más bien recurrir a nuestro amigo Addiction Kerberos. Tomé el texto de "Crónicas desde el Trasero del mundo", pero increíblemente no resultó suficiente, por lo que acudí a "Joural Malédiction". Como me dio pereza romperme la cabeza escogiendo la fuente de los textos, tomé ese, dos blogs del prolífico y prostático Jaime Ruiz ("Pensemos" y "Vislumbrando el Milagro Colombiano") el de Alejandro Gaviria y el de Alejandro Peláez (Machete), blogs que visito con alguna frecuencia.

Como de costumbre, la matriz de coocurrencia (una columna para cada palabra, una fila para cada palabra, y en cada sitio el número de veces que salen en una misma vecindad) es descepcionantemente poco poblada. Por eso hacen falta archivos muy grandes. Sin embargo, algo se puede ver en ésta. Aquí están algunas palabras que suelen aparecer juntas en al menos dos de dichos blogs:

PALABRA 1 PALABRA 2 AGAVIRIA KERBEROS MACHETE PENSEMOS PB PAIS BIZARRO
colombianos somos 1 0 0 268 0
colombianos desarrollo 0 0 1 0 161
mucho muchos 151 0 0 0 1
colombiana riqueza 0 0 0 122 7
colombiana evidente 1 0 0 0 84
estado unidos 68 0 0 1 0
colombia colombiana 66 0 0 1 0
colciencias mejor 0 16 50 0 0
pasa pasado 55 0 0 0 2
pública veces 1 0 0 51 0
harvard semana 0 0 0 2 50
prensa últimas 1 0 0 50 0
colciencias mientras 0 5 39 0 0
blog orden 0 0 0 43 1
paz tecnología 0 0 0 1 38
medios parece 0 0 0 4 31
materia ricos 1 0 0 34 0
colombianas público 0 0 0 32 3
colombianas medios 0 0 0 26 8
colombiana rural 0 0 0 32 1

(para una lista un poco más completa, usted puede ir por allá)

El tamaño de los textos hace que estén más documentados los resultados de los dos blogs del gramático del régimen. Tomando en cuenta todas las co-ocurrencias y comparándolas con la medida de similaridad usual (el coseno entre los vectores) obtuve un resultado un poco extraño (mostrado acá como porcentajes de la raíz cuadrada del coseno entre vectores con todos los datos de co-ocurrencia):


AGAVIRIA KERBEROS MACHETE PENSEMOS PB PAÍS BIZARRO
AGAVIRIA 100 17 12 14 15
KERBEROS 17
100 54
16 10
MACHETE 12
54
100 12
18
PENSEMOS 14
16
12
100 19
PAÍS BIZARRO 15
10
18
19
100

Tomé la raíz cuadrada porque los números, tal como salen, son demasiado pequeños entre palabras distintas, y no se pueden apreciar las diferencias bien. Aunque los resultados no muestran unas afinidades lexicográficas muy marcadas, hay una sorprendente entre nuestro amigo Alejandro Peláez y el atormentado Addiction Kerberos. Como diría Jaime Ruiz: ¿serán el mismo?

Con un poco de imaginación y con números en negrillas, uno puede ver que los blogs de don Jaime sí son más parecidos entre sí que con los otros tres, al menos. Y que todos los otros tres son, en general más parecidos entre sí que con los bizarros.

El esquema matemático que usé no es la gran cosa (leximancer, por ejemplo, haría algo muchísimo más sofisticado), y estoy trabajando en uno más sofisticado basado en la medición de la fidelidad de los canales de comunicación cuánticos, que tal vez de resultados más interesantes. Cuando lo tenga, lo pongo acá.

Veamos si con este ladrillazo espanto a mis tres lectores.

Hasta pronto.

COMPREN, COMPREN