Inteligencia y Seguridad Frente Externo En Profundidad Economia y Finanzas Transparencia
  En Parrilla Medio Ambiente Sociedad High Tech Contacto
High Tech  
 
27/03/2006 | TEXT STATS-La fría técnica para desmenuzar un libro

Noam Cohen

Gracias al programa ´Text Stats´ se pueden comparar y contrastar obras. Al contar sus palabras complejas, determina la claridad y facilidad de lectura

 

¿Quién compararía La historia de Babar con la premiada novela Todo está iluminado? ¿Quién se atrevería a decir que el Ulises de James Joyce, la perdición de muchos universitarios, es una novela para estudiantes de secundaria?

Con la ayuda del programa de Amazon.com, conocido como Text Stats (estadísticas del texto), cualquiera puede hacer estas comparaciones, basadas en el tipo de análisis más frío que una computadora puede hacer de un libro: cuántas palabras complejas contiene y qué tan largas son sus oraciones.

Dicho escrutinio estadístico ha estado presente durante décadas y se ha utilizado, entre otras cosas, para determinar si un libro es adecuado para cierto nivel escolar. Sin embargo, el sistema de Amazon automatiza el proceso, y la red permite a cualquier persona ver los resultados.

¿Con qué propósito? Algunos académicos de la literatura consideran esta técnica superficial. Sin embargo, otros dicen que es una herramienta que nos brinda muchos elementos para determinar la autoridad o la influencia de un texto, sin importar que se trate de Bob Dylan, Shakespeare o un estudiante de preparatoria promedio.

Cuando Amazon obtiene de la editorial el derecho a permitir que los lectores "busquen dentro de un libro", Text Stats mide la extensión promedio de una oración y hace pequeñas listas de cada palabra usada (o grandes listas, como en el caso de la Biblia, de King James, en la que, por ejemplo, la palabra "lomo" aparece mil 548 veces; "contemplar", mil 426, y "señor" 7 mil 82).

Entonces, el programa clasifica un libro por la claridad y la facilidad de su lectura en una gran variedad de índices.

 

Por ejemplo, La historia de Babar tiene una calificación de 6.1 (sexto grado) en el Índice Flesch-Kincaid, al igual que Todo está iluminado, de Jonathan Safran Foer. Sus "cocientes de claridad", índice similar al Flesch-Kincaid, están muy cercanos también, aunque el libro de Foer es ligeramente menos claro, pues 8% de sus palabras son "complejas", en comparación con 7% de Babar. Text Stats también genera listas de las 100 palabras más utilizadas en un libro.

Por lo tanto, no es una sorpresa que las clasificaciones realizadas por las computadoras -y las conexiones entre los libros que revelan- sean por lo general extrañas

Esto se debe a que el programa no contempla el significado y el contexto, y no es afectado por factores subjetivos como la reputación del autor.

"Es una lectura mecánica; es el tipo de lectura que ninguna persona podría hacer", dijo Ben Marcus, director del programa de ficción en la Universidad de Columbia y novelista, cuyos trabajos no tienen acceso a las clasificaciones de Amazon.

"Creo que es algo realmente fascinante, cualquier cosa que nos acerque a un texto, que nos haga conscientes de que fue hecho para crear una ilusión".

Pero la deficiencia también es obvia.

"La computadora no reconoce cómo se relacionan los enunciados entre sí", indicó. "Gertrude Stein o Beckett pueden haber escrito con enunciados simples, pero unidos representan grandes avances".

Esta rigidez, empero, puede ser útil, dicen algunos académicos.

En Alicia en el país de las maravillas, por ejemplo, un estudio estadístico puede "comparar este texto con una colección grande de ciencia ficción del siglo XIX, para ver a qué otras obras se parece en cuanto a estilo, o a qué género se acerca más si se evalúa a partir, digamos, de los patrones de uso de palabras muy comunes", señaló Hugh Craig, quien da clases en la Universidad de Newcastle en Australia, en un correo electrónico.

"Pero sería esencial que se hiciera también una lectura y un análisis de forma normal, para saber qué es lo que conforma a los patrones", añadió.

 

Richard Abrams, de la Universidad del Sur de Maine, dijo que puede tenerse una idea general sobre un escritor a partir de un análisis estadístico.

Al preparar un seminario sobre la letra de las canciones de Bob Dylan, declaró, fue útil buscar las 10 palabras más usadas, la cual incluyó "nena" y "oscuro".

"Para alguien que conoce a Dylan, (el resultado) es algo absolutamente familiar", dijo. "Sabías que estabas viendo una lista de las palabras favoritas de Dylan; lo mostraba como un romántico".

Sin embargo, análisis estadísticos como éste pueden recordarnos la crítica sobre Mozart que hiciera el emperador austriaco José II: "Demasiadas notas".

Helen Vendler, crítico shakespeariano de Harvard, no había oído de Text Stats, pero vaticinó que "la gente se aburrirá, especialmente si insulta su inteligencia al decir que Ulises es una lectura de secundaria". De igual forma, "una concordancia no es una lectura especialmente interesante".

Amazon dice que le gusta Text Stats porque hace que los lectores permanezcan más tiempo en el sitio comparando y contrastando libros.

"Definitivamente vemos que es una característica que funciona como ´imán´", dijo Brian Williams, gerente de producto a cargo de las funciones de Text Stats.

Señaló que ha oído quejas sobre la clasificación del Ulises, pero explicó que Text Stats es "sólo una herramienta".

Williams dijo que había leído en blogs algunos comentarios de autores discutiendo su clasificación, siempre en tono de broma. "Y así es como debe ser", indicó.

El Universal (Ve) (Venezuela)

 



 
Center for the Study of the Presidency
Freedom House