Carlos Santamaría y su obra escrita

 

Nociones fundamentales de la Teoría de la Información

 

Estudios Empresariales, 65/2 zk., 1965

 

Finalidad de esta nota

 

      La finalidad de esta nota es dar a conocer a los lectores no iniciados en esta nueva rama de la matemática, las nociones fundamentales de cálculo informativo, creación del matemático e ingeniero americano Claudio Shannon hace aún menos de veinticinco años.

      Las aplicaciones de esta teoría se han revelado diversísimas y fecundas en diferentes ramas de la actividad humana y no cabe duda de que un conocimiento básico de la misma deberá formar parte en adelante de la cultura general de los hombres de ciencia y, de modo muy particular, de los que trabajen en el campo de la organización.

      Sin embargo el cálculo informativo no ha pasado todavía a integrarse en los planes de estudio de las carreras y, por otra parte, resulta enteramente desconocido para la inmensa mayoría de los científicos que han adquirido su formación en los últimos años.

      Por ello, y sin otra pretensión que la de realizar una modesta tarea de divulgación, me ha parecido conveniente informar a los lectores de esta Revista sobre algunos elementos fundamentales de la nueva teoría. Dada la extensión y el carácter elemental de la presente nota debo limitarme a hacer en ella una introducción muy rudimentaria al tema, que algunos podrá servirles, quizás, como de cebo para interesarse más a fondo en tan curiosa y nueva rama del saber.

 

Generalidades sobre política informativa

 

      Al plantearse una actividad se necesita disponer previamente de una «información» suficiente sobre la situación en que aquella haya de desenvolverse. El comerciante deberá estar informado sobre la situación y estructura del mercado, el estratega sobre la disposición y la cuantía de las fuerzas adversas, el organizador del trabajo sobre la eficacia de los medios de que dispone, etc.

      La clave del éxito en muchas empresas consiste, precisamente, en disponer de una información buena y abundante, o más exactamente, de la información adecuada a la actividad que se trata de desarrollar.

      Podemos, pues, suponer como modelo general, el caso de una persona A que se encuentra ante una situación de indeterminación o de incertidumbre dentro del cual, debe realizar determinados fines. Lo primero que hará A, es tratar de obtener la información precisa, es decir; el conocimiento de ciertos datos o elementos de la situación que necesita utilizar para actuar. A este fin se valdrá en general de estudios estadísticos, encuestas o sondeos. En la mayor parte de los casos no llegará a obtener una información completa, y siempre quedará sometido a un margen, más o menos importante, de incertidumbre o de indeterminación.

      Ahora bien, la información cuesta dinero. La realización de un sondeo, el análisis de unos datos estadísticos, son en general, operaciones costosas y que exigen además tiempo. De ahí la importancia que tiene el saber elegir entre el material informativo aquel que proporcione una mayor cantidad de información con el menor gasto posible o, más bien, el saber determinar en cada caso la información más adecuada, la que mejor se ajuste a las necesidades impuestas por la acción proyectada.

      En muchos casos será mejor dejar un margen de incertidumbre que tratar de obtener una información completa, es decir, la primera solución resultará más económica que la segunda. La pretensión de agotar las informaciones llegando a resultados exhaustivos no es siempre la más razonable. En cada caso será menester definir una «política de información», la más conveniente en vista del conjunto de las circunstancias que concurren en el mismo.

      Así, por ejemplo, si una Empresa trata de establecer una política de producción deberá, en general, dar la prioridad a los artículos más solicitados por el público, y para ello deberá informarse previamente sobre las preferencias manifestadas por la clientela. A este efecto, podrá organizar por ejemplo, un sondeo. Pero difícilmente podrá llegar a un conocimiento completo y exhaustivo del campo de preferencias. Los gustos de público cambian constantemente y el servicio de información destinado a aconsejar a la dirección de la Empresa en este aspecto deberá estar constantemente en funcionamiento. Para ello podrá contar con las estadísticas de ventas, la distribución de pedidos, etc., datos que se pueden conseguir fácilmente sin salir del ámbito de la empresa. Ahora bien, en medio de este mare magnum de cifras y de datos se precisa definir una «política» recogiendo los datos más fácilmente accesibles, los más económicos, los que en definitiva resulten más útiles para orientar la producción.

      Análogamente las señales que un automovilista encuentra a lo largo de una carretera le proporcionan informaciones más o menos importantes sobre la ruta que debe seguir. Es evidente que aumentando el número de señales se puede aumentar la información, pero esta política no será siempre la más acertada. La proliferación de señales puede servir más para confundir que para orientar al conductor. Por otra parte, la instalación de señales origina gastos de instalación y de conservación más o menos cuantiosos y la dirección de carreteras no puede permitirse el lujo de multiplicarlas hasta el infinito. ¿Cuántas señales y qué señales nos darán los resultados mejores y más económicos? Responder a esta pregunta es lo mismo que definir una política informativa de la ruta.

      De los ejemplos que hemos citado, se deduce la conveniencia de disponer de un instrumento sistemático para la medida y el cálculo de la información. Este instrumento matemático existe y ha recibido el nombre de «teoría matemática de la información». Su primer campo de acción son las técnicas de la comunicación, o de la transmisión por hilo o por ondas. La teoría matemática de la información es inicialmente creada por SHANNON con vistas a este dominio hoy tan importante de la actividad humana. Pero luego aparece su enorme utilidad en otros campos tales como la fisiología, la lingüística y la electrónica. En particular las máquinas de traducir, trabajan fundamentalmente en la transformación de material informativo y en su concepción tiene tanta importancia la medida de la información como pueda tenerla en electrotecnia la definición y medida de las magnitudes eléctricas.

      Por lo que hace a las técnicas empresariales no hay que hacerse demasiadas ilusiones sobre la utilidad de la aplicación del cálculo informativo a este dominio, pero en muchos casos puede ser útil para proporcionar al hombre de empresa, un esquema abstracto, y hasta cierto punto, seguro, de sus problemas informativos.

 

La noción de entropía informativa

 

      La primera magnitud que debe definirse es la de la incertidumbre o indeterminación de una situación. Es evidente que dentro de la incertidumbre caben grados diversos. La incertidumbre del automovilista que se encuentra ante dos rutas posibles es menor que la del que se halla en un núcleo urbano del que parten cinco direcciones posibles. De la misma manera si entre un grupo de ocho candidatos a un concurso interesa saber cuál es el candidato más apto, la incertidumbre será menor que si lo que se trata de averiguar es el orden de preferencia entre los ocho candidatos. Esta segunda cuestión contiene una cantidad de indeterminación mucho mayor que la primera, y exigirá probablemente pruebas mucho más minuciosas. Sobre ese mismo grupo de ocho candidatos pueden plantearse otras cuestiones. Por ejemplo, puede tratarse de clasificarlos en dos grupos de cuatro candidatos cada uno, cuatro aceptados y cuatro rechazados. En tal caso el grado de incertidumbre será distinto que en los casos anteriores. Pero ¿sería mayor o menor que el de cada uno de los dos ejemplos anteriores? Para poder contestar a esta pregunta se precisa disponer de un sistema de medida y de cálculo de la incertidumbre o, para emplear el término actualmente consagrado, de la entropía de cada una de la situaciones planteadas.

      El caso más sencillo que puede presentarse es el de una situación que tiene n «salidas» posibles a las que no se atribuye ninguna preferencia relativa, es decir, que se las juzga todas igualmente probables. En tal caso, la entropía de la situación viene expresada por el logaritmo del número de salidas, es decir, que podrá escribirse:

 

      E = log n (I)

 

      Donde el logaritmo puede tomarse en un sistema cualquiera. si el sistema adoptado es el decimal diremos que la entropía viene expresa en unidades decimales. En el caso, muy corriente, de que la base adoptada sea el número 2, la medida de la entropía vendrá expresada en una unidad llamada hartley o bit.

      Apliquemos esta definición a cada uno de los tres ejemplos recién propuestos sobre ocho candidatos a un concurso.

      Las preguntas formuladas son éstas:

      1. ¿Cuál de los ocho candidatos es el más apto?

      2. ¿Cuál es el orden de aptitud entre los ocho candidatos?

      3. ¿Cuáles son entre los ocho candidatos los cuatro más aptos, es decir, el grupo de cuatro de mayor capacidad que los otros cuatro?

      Tendremos que determinar en cada una de las tres situaciones de incertidumbre el número de salidas o de respuestas posibles. Dichos número se determinan con facilidad con ayuda del cálculo y son respectivamente 8, 8! y C4 8 Determinando los logaritmos respectivos de estos tres números obtenemos las entropías correspondiente a las situaciones en unidades decimales.

 

      log10 8 = 0,903

      log10 8! = 4,605

      log10 C4 8 = 1,845

      y en hartley

      log2 8 = 3

      log2 8! = 15,299

      log2 C4 8 = 6,129

 

      Naturalmente habría que justificar el empleo de esta noción tal como ha quedado definida. Baste decir aquí que la definición de entropía adoptada satisface a todas las condiciones intuitivas que pueden exigirse y que en utilización práctica ha demostrado ser una noción extremadamente práctica y que proporciona resultados lógicos y coherentes. El objetivo que nos proponemos que es el de suministrar a nuestros lectores unas nociones elementales y sumamente sencillas del cálculo informativo no justificaría consideraciones más extensas sobre este punto.

      Veamos ahora cómo se mide la entropía de una situación con diversas salidas desigualmente probables. En tal caso cada salida posible vendrá caracterizada por una probabilidad. La fórmula adoptada para la entropía es:

 

      E = _pi log 1___Pi

 

es decir la suma de las probabilidades correspondientes a las distintas salidas multiplicadas respectivamente por los logaritmos de sus inversas. Esta definición requeriría también algunas consideraciones justificativas, pero en una nota elemental como ésta no hay lugar para ellas. Limitémonos a ponerla en claro con un ejemplo.

 

            Fig. 1Fig. 2

 

      Se trata de comparar las entropías de estas dos situaciones. (Fig. 1)

      En una bifurcación A hay dos salidas. En otra bifurcación B hay tres salidas pero dos de ellas vuelven a encontrarse en el nudo C tal como se indica en la figura. Se desea saber si la incertidumbre es mayor en la bifurcación A o en la bifurcación B. A este efecto se calcularán las entropías por la fórmula (2). Las probabilidades de las salidas son 1/2 y 1/2 en el primer caso y 1/3 y 2/3 en el segundo caso. Por tanto se tendrá:

 

      Situación A: E = 1__2 log2 + 1__2 log2 = 0,301 u.d. de entropía.

      Situación B: E' = 1__3 log3 + 2__3 log 3__2 = 0,277 u.d. de entropía.

 

      Resulta pues que la entropía es mayor en el nudo A que en el B. En general el hecho de que las salidas sean desigualmente probables hacen disminuir la incertidumbre, es decir, la entropía de una situación con dos salidas igualmente probables es mayor que la otra situación con dos salidas desigualmente probables.

 

La entropía ligada

 

      Consideramos un procedimiento de fabricación en dos fases. La primera fase está representada por el nudo A en el gráfico (Fig. 2).

      Dicha fase puede conducir a uno de los resultados B o C siendo las probabilidades respectivas 1/3 y 2/3. En la segunda fase se puede partir de B o de C, según cual haya sido el resultado de la primera fase. Si se parte de B los resultados pueden ser I y II con probabilidades respectivas 1/2. Si se parte de C los resultados pueden ser III, IV y V con probabilidades respectivas 1/3. Aplicando la fórmula (2) podemos calcular la entropía en A y las entropías en B y C. Los resultados que se obtienen inmediatamente son los siguientes:

 

      EA = 1__3 log3 + 2__3 log 3__2 = 0,277...

      EB = log2 = 0,301...

      EC = log3 = 0,477

 

      Veamos cuál es la entropía del proceso total P. Este proceso tiene cinco salidas posibles cuyas probabilidades respectivas son: 1/6; 1/6; 2/9; 2/9 y 2/9 como se ve por un sencillo cálculo de probabilidades compuestas. Por tanto la entropía del proceso P será aplicando la fórmula (2).

 

      Ep = 1__6 log6 + 1__6 log6 + 2__9 log 2__9 + 2__9 log 9__2 + 2__9 log 9__2 = 0,694...

 

      Tratemos ahora de definir lo que se llama la entropía de P ligada a la prueba A. La definición exacta de esta noción, que a continuación trataremos de aclarar prácticamente, es ésta: se llama entropía del proceso P ligada a la prueba A al valor medio de las entropías correspondientes a las distintas salidas de A, es decir, a la suma de las probabilidades de B y C multiplicadas respectivamente por las entropías de EB EC. Hemos visto que las probabilidades de las salidas B y C de la situación A eran 1/3 y 2/3. Las entropías de las situaciones B y C han sido calculadas y valen respectivamente log2 y log3. Por tanto la entropía de P ligada a la experiencia A será:

 

      EP/A = 1__3 log2 + 2__3 log3 = 0,418...

 

      Se comprueba que:

 

      EP = EA + EP/A (3)

 

es decir que la entropía total del proceso P es igual a la suma de la entropía de la situación A más la entropía del proceso P ligada a la prueba A.

      Esta propiedad tiene carácter general. Para demostrarla bastaría efectuar cálculos análogos a los que hemos realizado numéricamente sobre un caso particular, en un caso general con datos literales.

      Sin embargo, la fórmula (3) no tiene toda la generalidad deseable puesto que ha sido obtenida a partir del gráfico de la Fig. 2 que tiene una particularidad y es que todas las salidas de situación A pertenecen al proceso total P. Puede ocurrir que no sea así y en tal caso debemos introducir una pequeña modificación en la fórmula (3) que la hace más general.

      Consideremos un proceso P de fabricación en el que partiendo de una situación A se trata de llegar a otra G. Esto puede lograrse por tres procedimientos, dos de los cuales pasan por una fase intermedia B y el tercero por la fase intermedia C. La sucesión de fases está representada por las aristas dobles del gráfico de la Fig. 3.

 

      Fig. 3

 

      Pero en la situación A puede presentarse una tercera salida A igualmente probable que las AB y AC, la cual no pertenece al proceso P. Esta es la novedad del gráfico (3) en relación con el (2) y es que no todas las salidas de la situación A pertenecen al proceso P. Para que la fórmula (3) resulte aplicable a este nuevo caso tendríamos que considerar un proceso total PA integrado por todas las salidas del proceso P unidas a las de la situación A que sean extrañas al proceso P (en el caso propuesto la salida AD). La fórmula se escribiría pues con referencia al proceso conjunto en la forma:

 

      EPA = EA + EP/A (4)

 

      El proceso P tiene tres salidas posibles ABEG, ABFG y ACFG cuyas probabilidades respectivas son 1/4, 1/4 y 1/2. Su entropía es por consiguiente:

 

      EP = 1__4 log4 + 1__4 log4 + 1__2 log2

 

      La situación A tiene tres salidas posibles AB, AC, AD igualmente probables. Su entropía es por tanto:

 

      EA = log3

 

      La situación B tiene 2 salidas igualmente probables. Su entropía es log 2. La situación C tiene una sola salida y por tanto su entropía es 0.

      La entropía del proceso P ligada a la prueba A, que hemos definido como la media de las entropías correspondientes a las distintas salidas de A, deberá ser evaluada dentro del contexto total PA. Por tanto será:

 

      EP/A = 1__3 EB + 1__3 EC + 1__3 log2 + 1__3 log1 = 1__3 log2

 

      Finalmente la entropía del proceso conjunto PA se calculará teniendo en cuenta que ofrece cuatro salidas ABEG, ABFG, ACFG, AD la última de ellas extraña al proceso P, cuyas probabilidades son 1/6; 1/6; 1/3 y 1/3. Por tanto su cálculo será:

 

      EPA = 1__6 log6 + 1__6 log6 + 1__3 log3 + 1__3 log3

 

      Se observa inmediatamente que se verifica la relación (4) pero no la (3). Las precauciones señaladas en el cálculo son indispensables.

 

La noción de información

 

      Supongamos que se trata de encontrar las fichas de las huellas dactilares de dos personas en una colección de mil fichas desordenadas. Más en general, se trata de localizar dos elementos en un conjunto formado por 1.000 elementos. La entropía de esta situación de incertidumbre, o del proceso que debemos realizar, se calculará inmediatamente teniendo en cuenta que la situación correspondiente tiene C21000 salidas posibles, todas ellas igualmente probables. Dicha entropía será pues igual a log C21000 = log 499500 = 5,698 u.d. Esta es la cantidad total de incertidumbre contra la que tenemos que luchar en este caso. Ahora bien, se nos ofrecen dos procedimientos igualmente costosos. El primero de ellos nos ofrece la posibilidad de «detectar» en un grupo de 100 fichas (o menos) la presencia de una de las fichas buscadas o de las dos fichas. Se trata de la simple presencia no de la localización de las fichas citadas. Es decir, que una vez realizada la prueba sabremos que el grupo o colección utilizada contiene las dos fichas buscadas, o en el mismo está sólo una de ellas o no está ninguna de ellas, sin que el procedimiento nos proporcione más resultado. En cambio, el segundo procedimiento opera sobre colecciones de 50 fichas (o menores), pero no se limita a detectar la presencia de las fichas buscadas, sino que las localiza. Es decir, las salidas de este segundo procedimiento pueden ser éstas: las dos fichas buscadas están aquí, son ésta y ésta (primera salida); sólo una de las fichas buscadas está aquí y es ésta (segunda salida) y, finalmente (tercera salida) ninguna de las fichas buscadas está en esta colección. Como se ha dicho, se supone que ambos procedimientos son igualmente costosos desde el punto de vista económico. Elegiremos sin duda, salvo otras razones ajenas a nuestra exposición, el procedimiento que nos suministre mayor cantidad de información, es decir, aquel que, por término medio, nos conduzca a situaciones de menor entropía. Recordando la relación (4) antes considerada:

 

      EPA = EA + EP/A

 

      consideraremos representada por la letra A la prueba correspondiente al procedimiento empleado (uno u otro de los que se han indicado y entre los que hay que elegir). Supongamos por ejemplo que hemos aplicado el primer procedimiento a una colección de 100 fichas. Ello habrá eliminado parte de la incertidumbre total (que habíamos antes evaluado en 5,698 unidades decimales). ¿Pero qué parte? Notemos que después de realizada la prueba A podrán presentarse distintas situaciones. Nos interesa calcular la media de las entropías de éstas: consideraremos esta media como la entropía restante después de la experiencia. En realidad la entropía restante podrá ser mayor o menor que ésta, pero su valor medio esperado será EP/A. Es decir: después de aplicado el procedimiento a una colección de 100 objetos, la cantidad de incertidumbre que nos queda será por término medio EP/A. Tratemos de calcular esta entropía ligada. Para ello tenemos que evaluar las entropías de las situaciones a que puede llevarnos el procedimiento según las tres salidas que ofrece. El razonamiento se conduce en la forma que vamos a ver a continuación.

      Las probabilidades de las tres salidas mencionadas del primer procedimiento son las siguientes:

 

      a) Probabilidad de que las dos fichas buscadas estén en el grupo de 100. Es:

      C2100 11
      ______ = ______
            C21000 1110

      b) Probabilidad de que sólo una de las fichas buscadas está en el grupo de 100. Es:

       2
      ______
            111.

      c) Probabilidad de que ninguna de las fichas buscadas esté en el grupo de 100. Es:

       899
      _______
            1110

 

      Veamos ahora cuáles son las entropías a las que cada una de esas salidas nos conducen.

 

      a) La primera salida nos conduce a buscar dos fichas en una colección de 100. Por tanto su entropía es: log C2100 = log 4950 = 3,695.

      b) La segunda salida del procedimiento nos conduce a buscar una ficha en una colección de 100 y una ficha en una colección de 900. Por tanto la entropía será la suma de las entropías de estos dos procesos, es decir: log100 + log900 = 4,954.

      c) La tercera salida nos conduce a buscar dos fichas en una colección de 900. La entropía restante sería en este caso

 

      log C2900 = log 404550 = 5,607

 

      Conocidas ya las probabilidades de las tres salidas y las entropías de los procesos a los que nos conducen, obtendremos la entropía media restante, después de la aplicación del procedimiento, con arreglo a la fórmula del valor medio:

 

       11      20       899
      ______ . 3,695 + _____ . 4,954 + ______ . 5,607 = 4,667
            1110 111    1110

 

      Por tanto, antes de realizarse la experiencia sobre la colección de 100 fichas, la entropía del proceso era:

 

      EP = 5,698

 

      Después de realizarse la experiencia, podremos vernos conducidos a distintas soluciones, y la entropía media de estas situaciones será:

 

      EP/A = 4,667

      

Podemos decir que la cantidad de información aportada por la aplicación del procedimiento o de la prueba de los 100 ha sido de 5,698 - 4,667 = 1,031 unidades decimales de entropía.

      Más en general, que la cantidad de información aportada por una prueba A en relación con un proceso P viene expresada por la diferencia entre la entropía del proceso total y la entropía ligada a A. Es decir, que se tiene en general:

 

      Inf. p(A) = EP - EP/A (5)

 

      La notación utilizada en el primer miembro expresa la cantidad de información proporcionada, por término medio, por la experiencia A en el proceso de incertidumbre P.

      La cantidad de información se mide pues por las mismas unidades que la entropía. Entropía e información son magnitudes homogéneas. La primera radica en el proceso mismo de incertidumbre. La segunda en los procedimientos empleados para deshacer esta incertidumbre.

      Continuemos ahora con el examen del caso presentado anteriormente. Debemos ahora evaluar la cantidad de información que aportaría la aplicación del segundo procedimiento —el de las cincuenta fichas.

      Cálculos análogos a los efectuados en relación con el primer procedimiento nos llevan los siguientes resultados.

      El segundo procedimiento tiene tres salidas posibles. Las probabilidades de las mismas y las entropías de las situaciones a las que conducen vienen indicadas a continuación

 

       245
1ª salida Probabilidad    Entropía de la situación a la que conduce: o
      999000

             95000
2ª salida Probabilidad    Entropía correspondiente 4,676
      999000

            901550
3ª salida Probabilidad    Entropía correspondiente 5,654
      999000

      Entropía restante media EP/A = 5,106

      Diferencia de entropías 0,592

 

      La cantidad de información aportada por el segundo procedimiento es pues de 0,592 unidades decimales. Es menor que la del primer procedimiento.

      Por consiguiente, para iniciar el proceso de investigación nos convendrá más elegir el primer procedimiento. Esto no significa que una vez realizadas alguna o algunas experiencias, no nos interese cambiar de método ya que las condiciones del problema se van alterando. Pero el decidirnos sobre este punto requeriría prolongar el estudio matemático que acabamos de dejar iniciado.

 

Resumen

 

      En la brevísima exposición que acabamos de hacer hemos presentado las tres nociones más importantes y fundamentales del cálculo informativo. La primera de ellas la entropía o cantidad de incertidumbre contenida en una situación o implicada en un proceso con diversas salidas posibles. En la segunda de estas nociones, la de entropía ligada a una prueba o experiencia, se considera la cantidad de incertidumbre restante después de la realización de dicha prueba. Es decir, que la realización de la prueba, proporcionándonos nuevos datos sobre la situación, reduce la entropía (aunque a veces ésta puede no variar siendo en este caso inútil la experiencia desde el punto de vista de la información). La tercera noción a la que nos conducen las dos anteriores es la de cantidad (media) de información que puede suministrarnos una prueba o experiencia. En ningún caso podrá darse por conocida una situación si las informaciones no cubren la entropía total de la misma.

      Con estos elementos, hábilmente utilizados, se pueden obtener resultados sorprendentes en relación con procesos de comunicación, tales como los que se realizan en los organismos vivos o en las máquinas electrónicas, y también en otros de carácter social, como son los idiomas y los códigos. Pero naturalmente no podemos en los estrechos límites de esta nota iniciar al lector en estos dominios de aplicación.

 

  • El sistema de búsqueda busca una sucesión de letras dada (no funciona con lematizador y no realiza análisis lingüístico).

  • Busca las formas que comienzan con la sucesión de letras dada, y no contempla dicha búsqueda en interior de palabra (el resultado de la búsqueda barc será barca, barcos, Barcala, Barcelona, barcelonesa..., pero no embarcación, embarcarse...).

  • Se pueden buscar sucesiones de palabras (pacifismo cristiano, por ejemplo, o partido comunista francés).

  • Es posible especificar el corpus: solo en textos en castellano / solo en textos en euskera / en todos los idiomas (euskera, castellano y francés).

Nodo: liferay2.lgp.ehu.es