Maison / Skype / Comment écrire la formule de Hartley. Informations, données, signaux. Sources d'information et ses supports. La quantité d'information et d'entropie. Formules de Hartley et Shannon. où K est la quantité d'informations, N est le nombre d'événements équiprobables

Comment écrire la formule de Hartley. Informations, données, signaux. Sources d'information et ses supports. La quantité d'information et d'entropie. Formules de Hartley et Shannon. où K est la quantité d'informations, N est le nombre d'événements équiprobables

Envoyer votre bon travail dans la base de connaissances est simple. Utilisez le formulaire ci-dessous

Les étudiants, les étudiants diplômés, les jeunes scientifiques qui utilisent la base de connaissances dans leurs études et leur travail vous en seront très reconnaissants.

Hébergé sur http://www.allbest.ru

1. Théorie de l'information

La théorie de l'information (ou théorie mathématique de la communication) est une branche de la cybernétique qui étudie les processus de stockage, de transformation et de transmission de l'information ; comme toute théorie mathématique, elle fonctionne avec des modèles mathématiques, et non avec des objets physiques réels (sources et canaux de communication). Utilise principalement l'appareil mathématique de la théorie des probabilités et des statistiques mathématiques.

Claude Shannon (1916-2001) est appelé le "père de la théorie de l'information".

La théorie de l'information est basée sur une certaine façon de mesurer la quantité d'information. Issue des problèmes de la théorie de la communication, la théorie de l'information est parfois considérée comme une théorie mathématique des systèmes de transmission de l'information. Basée sur les travaux fondamentaux de K. Shannon (1948), la théorie de l'information établit les principales limites des possibilités des systèmes de transmission d'informations, fixe les principes initiaux de leur développement et de leur mise en œuvre pratique.

Les principales propriétés de l'information peuvent être décrites à l'aide d'un modèle mathématique qui reflète de nombreuses caractéristiques d'une mesure d'information, telle qu'elle est généralement comprise à un niveau intuitif. La source d'information et le canal de communication par lequel l'information est transmise peuvent être modélisés à l'aide de représentations probabilistes. L'entropie d'une source d'information est égale au logarithme du nombre (effectif) de messages qu'elle génère. C'est une mesure de la complexité de la description de la source (ou, comme on dit parfois, une mesure de l'incertitude du message). Cette compréhension de l'entropie est étroitement liée au concept d'entropie utilisé en thermodynamique.

Physiquement, la transmission d'informations peut être représentée comme l'induction dans le dispositif récepteur de l'état physique requis. L'expéditeur a l'intention d'envoyer un message au destinataire. L'essence de la transmission est de reproduire le message transmis à la sortie du canal de communication. Au moment de la transmission, l'expéditeur sélectionne le message souhaité dans une liste de tous les messages possibles. Le destinataire ne sait pas à l'avance lequel sera sélectionné. (S'il en avait été informé à l'avance, il n'aurait pas été nécessaire d'envoyer un message.) Le canal de communication introduit un bruit aléatoire dans le processus de transmission des informations, ce qui déforme le message et le rend ainsi difficile à lire. Au début du processus de communication, le destinataire est dans une incertitude totale quant au message sélectionné dans la liste des messages possibles. À la fin de la connexion, le destinataire en prend connaissance, c'est-à-dire la description exacte du message sélectionné est connue.

La capacité d'un canal de communication à transmettre des informations est caractérisée par un certain nombre - débit (capacité), égal au logarithme du nombre effectif de messages distinguables à sa sortie. Le processus de transfert d'informations peut être considéré comme fiable si le débit de transfert des messages est inférieur à la capacité du canal. Sinon, une transmission fiable des informations n'est pas possible. Le principal résultat de la théorie de l'information est l'énoncé suivant : si l'entropie de la source est inférieure à la capacité du canal, alors le message d'origine peut être reproduit à sa sortie avec une erreur arbitrairement petite ; si l'entropie de la source la dépasse débit, alors l'erreur ne peut pas être minimisée.

La difficulté de transmettre un message ne dépend pas de son contenu ; Il n'est pas moins difficile de faire passer des messages dépourvus de sens que des messages significatifs. Par exemple, le nombre 23 peut être le prix d'un baril de pétrole dans un contexte, et le nombre du vainqueur d'une course de chevaux dans un autre. La signification du message dépend du contexte et de la sémantique, et la difficulté de sa transmission n'est déterminée que par la liste des messages possibles (et leurs probabilités).

Tout système de transmission d'informations peut être considéré comme composé : d'une source de message, d'un émetteur, d'un canal de communication et d'un dispositif de réception, ainsi que d'un destinataire. Par exemple, lorsque vous parlez au téléphone, la source est l'orateur, le message est son discours. Le canal de communication est constitué de fils qui transmettent un signal électrique du locuteur à l'auditeur - le destinataire du message. Un canal de communication est un moyen de transmission d'un signal d'un émetteur à un récepteur. Lorsqu'un signal traverse le canal, il peut être affecté par des interférences qui faussent les valeurs des paramètres d'information du signal.

Entre l'expéditeur du message et le canal de communication, il peut y avoir des dispositifs qui convertissent le message en une forme adaptée à la transmission sur le canal de communication. Le décodeur à l'autre extrémité du canal reconstruit le message reçu.

L'étude des systèmes de transmission d'informations commence par la source des messages. Une grande variété d'informations peut être transmise sur un canal de communication : texte, discours en direct, musique ou images. Pour chaque source, vous pouvez spécifier une liste de messages qu'elle peut générer. Par exemple, une source de messages télégraphiques ou télex ne transmet que des lettres et ne contient pas, disons, de notes de musique. Si la parole en direct est transmise sur le canal de communication, le signal perd son contenu utile à une fréquence supérieure à 20 000 Hz, la limite supérieure perçue par l'ouïe humaine. Ces faits peuvent être utilisés lors de la conception de l'entrée d'un canal de communication.

Pour estimer la quantité d'informations dans un message en théorie de l'information, on utilise la mesure logarithmique introduite par R. Hartley, dont l'interprétation probabiliste a été donnée dans les travaux de Shannon. Si la probabilité d'occurrence d'un message x est p(x), et 0<р (х)<1, то quantité d'informations- I(x) contenu dans le message est déterminé par la formule :

Hébergé sur http://www.allbest.ru

Hébergé sur http://www.allbest.ru

2. Formules de Hartley et Shannon

1928 L'ingénieur américain Ralph Hartley considère le processus d'obtention d'informations comme la sélection d'un message à partir d'un ensemble fini donné de N événements équiprobables.

formule de Hartley :

K=log2N,

où K est la quantité d'informations, N est le nombre d'événements équiprobables.

La formule de Hartley peut aussi s'écrire ainsi : N=2k

Puisque l'occurrence de chacun des N événements a la même probabilité P, alors :

où P est la probabilité que l'événement se produise.

Ensuite, la formule peut s'écrire différemment :

En 1948, le scientifique américain Claude Shannon a proposé une formule différente pour déterminer la quantité d'informations, en tenant compte de la possible probabilité inégale des événements dans l'ensemble.

Formule de Shannon :

K = - (p1 *log2 p1+ p2 *log 2p 2 + p 3 *log 2p 3 +…+ pi * log2 pi),

où pi est la probabilité qu'exactement le ième message soit sélectionné dans l'ensemble des N messages.

Cette formule s'écrit aussi :

La science moderne des propriétés de l'information et des modèles de processus d'information s'appelle la théorie de l'information. Le contenu du concept d'"information" peut être révélé sur l'exemple de deux approches historiquement premières pour mesurer la quantité d'information : les approches de Hartley et Shannon : la première d'entre elles est basée sur la théorie des ensembles et la combinatoire, et la seconde - sur la théorie des probabilités.

L'information peut être comprise et interprétée dans différents problèmes, domaines de différentes manières. Par conséquent, il existe différentes approches pour définir la mesure de l'information et différentes manières d'introduire une mesure de la quantité d'information.

La quantité d'informations est une valeur numérique qui caractérise adéquatement les informations mises à jour en termes de diversité, de complexité, de structuration (ordre), de certitude et de choix d'états du système affiché.

Si l'on considère un système qui peut prendre l'un des n états possibles, alors la tâche réelle est la tâche d'évaluer ce choix, résultat. Une telle évaluation peut être une mesure d'informations (événements).

Une mesure est une fonction continue réelle non négative définie sur un ensemble d'événements et étant additive.

Les mesures peuvent être statiques et dynamiques, selon les informations qu'elles permettent d'évaluer : statiques (non mises à jour ; en fait, les messages sont évalués sans tenir compte des ressources et de la forme de mise à jour) ou dynamiques (mises à jour, c'est-à-dire que les coûts de ressources pour la mise à jour sont également des informations estimées).

Il existe différentes approches pour déterminer la quantité d'informations. Les plus couramment utilisés sont les volumétriques et probabilistes suivants.

approche volumétrique.

Le système de numération binaire est utilisé, car dans un appareil technique, il est plus simple de mettre en œuvre deux états physiques opposés : magnétisé/non magnétisé, allumé/éteint, chargé/non chargé, etc.

La quantité d'informations enregistrées en caractères binaires dans la mémoire de l'ordinateur ou sur un support de stockage externe est simplement calculée par le nombre de caractères binaires nécessaires à un tel enregistrement. Dans ce cas, un nombre non entier de bits est impossible.

Pour faciliter l'utilisation, des unités de quantité d'informations plus grandes que les bits ont également été introduites. Ainsi, un mot binaire de huit caractères contient un octet d'information, 1024 octets forment un kilo-octet (Ko), 1024 kilo-octets - mégaoctets (Mo) et 1024 mégaoctets - gigaoctets (Go).

Approche entropique (probabiliste).

Cette approche est acceptée dans la théorie de l'information et du codage. Cette méthode de mesure découle du modèle suivant : le destinataire du message a une certaine idée de la possible survenance de certains événements. Ces représentations sont généralement peu fiables et s'expriment par les probabilités avec lesquelles il s'attend à tel ou tel événement. La mesure totale de l'incertitude est appelée entropie. L'entropie est caractérisée par une certaine dépendance mathématique à la totalité de la probabilité que ces événements se produisent.

La quantité d'informations dans le message est déterminée par la diminution de cette mesure après la réception du message : plus l'entropie du système est élevée, plus son degré d'incertitude est élevé. Le message entrant supprime complètement ou partiellement cette incertitude, par conséquent, la quantité d'informations peut être mesurée par la diminution de l'entropie du système après la réception du message. La même entropie est prise comme mesure de la quantité d'informations, mais avec le signe opposé.

L'approche de R. Hartley repose sur des fondements fondamentaux de la théorie des ensembles, essentiellement combinatoires, ainsi que sur plusieurs hypothèses intuitivement claires et assez évidentes.

S'il y a de nombreux éléments et que l'un d'eux est sélectionné, alors une certaine quantité d'informations est rapportée ou générée par celui-ci. Cette information est que si avant la sélection on ne savait pas quel élément sera sélectionné, alors après la sélection il devient connu. Il est nécessaire de trouver le type de fonction qui relie la quantité d'informations obtenues en choisissant un élément de l'ensemble avec le nombre d'éléments dans cet ensemble, c'est-à-dire avec sa puissance.

Si l'ensemble d'éléments à partir duquel le choix est fait est constitué d'un seul élément, alors il est clair que son choix est prédéterminé, c'est-à-dire il n'y a aucune incertitude de choix - aucune quantité d'informations.

Si l'ensemble se compose de deux éléments, alors l'incertitude de choix est minime. Dans ce cas, la quantité d'informations est également minime.

Plus il y a d'éléments dans l'ensemble, plus l'incertitude de choix est grande, plus il y a d'informations.

Ainsi, la mesure logarithmique de l'information proposée par Hartley satisfait simultanément les conditions de monotonie et d'additivité. Hartley lui-même est arrivé à sa mesure sur la base de considérations heuristiques similaires à celles que nous venons d'exposer, mais il a maintenant été rigoureusement prouvé que la mesure logarithmique de la quantité d'informations découle sans ambiguïté de ces deux conditions qu'il a postulées.

En 1948, alors qu'il enquêtait sur le problème de la transmission rationnelle de l'information à travers un canal de communication bruyant, Claude Shannon proposa une approche probabiliste révolutionnaire pour comprendre les communications et créa la première véritable théorie mathématique de l'entropie. Ses idées sensationnelles ont rapidement conduit au développement de deux courants principaux : la théorie de l'information, qui utilise le concept de probabilité et la théorie ergodique pour étudier les caractéristiques statistiques des systèmes de données et de communication, et la théorie du codage, qui utilise principalement des outils algébriques et géométriques pour développer des codes.

Claude Shannon a suggéré que le gain d'information est égal à l'incertitude perdue et a fixé les exigences pour sa mesure :

1. la mesure doit être continue ; c'est-à-dire qu'un changement de la valeur de la valeur de probabilité d'une petite quantité devrait entraîner un petit changement net dans la fonction ;

2. dans le cas où toutes les options (lettres dans l'exemple ci-dessus) sont également probables, une augmentation du nombre d'options (lettres) devrait toujours augmenter la valeur de la fonction ;

3. Il doit être possible de faire un choix (lettres dans notre exemple) en deux étapes, dans lequel la valeur de la fonction résultat final doit être la somme des fonctions résultats intermédiaires.

Par conséquent, la fonction d'entropie doit satisfaire les conditions :

définie et continue pour tous,

où pour tout i. (Il est facile de voir que cette fonction ne dépend que de la distribution de probabilité, pas de l'alphabet).

Pour les entiers positifs, l'inégalité suivante doit être vérifiée :

Pour les entiers positifs, où, l'égalité doit être vérifiée :

entropie de la bande passante de l'information

Shannon a déterminé que la mesure de l'entropie appliquée à une source d'informations peut déterminer les exigences de la bande passante minimale requise pour une transmission fiable des informations sous la forme de nombres binaires codés. Pour dériver la formule de Shannon, il est nécessaire de calculer l'espérance mathématique de la "quantité d'informations" contenue dans la figure à partir de la source d'informations. La mesure d'entropie de Shannon exprime l'incertitude de la réalisation d'une variable aléatoire. Ainsi, l'entropie est la différence entre l'information contenue dans un message et la partie de l'information qui est exactement connue (ou hautement prévisible) dans le message. Un exemple de ceci est la redondance de la langue - il existe des modèles statistiques clairs dans l'apparition des lettres, des paires de lettres consécutives, des triplets, etc.

Hébergé sur Allbest.ru

Documents similaires

    Calcul de la quantité d'informations par caractère à l'aide de la formule de Shannon. Changements dans l'entropie de l'information dans les textes de contenu économique, de sciences naturelles et littéraires. La quantité maximale d'informations par signe selon la formule de Hartley.

    travaux de laboratoire, ajouté le 06/12/2013

    Le sujet et les tâches de la théorie de l'information, ses fonctions dans la création de systèmes de contrôle automatisés. Détermination de la bande passante de canaux discrets (numériques) en l'absence de bruit. Calcul du taux de transfert d'informations. Calcul de la valeur de l'entropie - la quantité moyenne d'informations.

    test, ajouté le 18/01/2015

    Bit, incertitude, quantité d'information et entropie. Formule de Shannon. formule de Hartley. Logarithmes. La quantité d'informations reçues dans le processus de message. Interaction entre la source et le récepteur de l'information. Quantité, capacité d'information des cellules mémoire.

    résumé, ajouté le 17/07/2008

    Le concept central de la cybernétique est l'information. Automatisation intégrée des processus de perception, transformation, transmission, traitement et affichage de l'information et création de systèmes de contrôle automatisés à différents niveaux. Système de transfert d'informations.

    livre, ajouté le 05/07/2009

    Fondements de la théorie de la transmission de l'information. Étude expérimentale des aspects quantitatifs de l'information. Quantité d'informations sur Hartley et K. Shannon. Caractéristiques de fréquence des SMS. La quantité d'informations en tant que mesure de l'incertitude supprimée.

    travail de laboratoire, ajouté le 15/02/2011

    présentation, ajouté le 19/10/2014

    Concepts de base de la théorie de l'information en tant que science. La quantité moyenne d'informations pour 1 caractère est déterminée par la formule de Shannon. Le schéma général de la transmission des messages. Capacité du canal. Algèbre booléenne et implémentation technique du processus de calcul.

    présentation, ajouté le 13/08/2013

    Le concept et les méthodes de recherche d'informations, les méthodes de stockage et les caractéristiques du processus de transmission de la source au destinataire. Le but du canal de communication et de l'encodeur. Règles de traitement des informations, leur utilisation dans la prise de décision et les mesures de protection.

    présentation, ajouté le 14/10/2013

    Le nombre total de messages non dupliqués. Calcul du taux de transfert d'informations et de la bande passante des canaux de communication. Définition de la redondance des messages et du codage optimal. La procédure de construction du code optimal selon la méthode de Shannon-Fano.

    dissertation, ajouté le 17/04/2009

    Le mécanisme de transfert de l'information, sa quantité et ses critères de mesure. Unités d'information dépendant de la base du logarithme. Propriétés et caractéristiques de base de la quantité d'informations, son entropie. Définition de l'entropie, redondance des messages d'information.

L'information sera définie par ses principales propriétés (car, avec la matière et l'énergie, elle est le concept premier de notre monde et ne peut donc pas être définie au sens strict) :

  • l'information apporte des informations sur le monde environnant qui n'étaient pas au point considéré avant d'être reçues ;
  • l'information n'est pas matérielle et ne peut exister indépendamment de la forme de présentation de l'information (séquences de signaux ou de signes - messages) ;
  • les messages contiennent des informations uniquement pour ceux qui sont capables de les reconnaître.

Les messages contiennent des informations non pas parce qu'ils copient des objets de la réalité, mais par accord social sur le rapport entre les porteurs et les objets désignés par ce porteur (par exemple, un mot désigne un objet de la réalité objective). De plus, les porteurs peuvent être formés par des processus physiques naturels.

Pour que le message soit transmis au destinataire, il est nécessaire d'utiliser un processus physique qui peut se propager de la source au destinataire du message avec une vitesse ou une autre. Le processus physique variable dans le temps qui reflète le message transmis est appelé un signal.

Pour appliquer des moyens mathématiques à l'étude de l'information, il faut faire abstraction du sens, du contenu de l'information. Cette approche était commune aux chercheurs que nous avons mentionnés, puisque les mathématiques pures opèrent avec des rapports quantitatifs sans entrer dans la nature physique des objets derrière lesquels se trouvent les rapports. Par conséquent, si le sens est émasculé des messages, le point de départ de l'évaluation informationnelle de l'événement n'est qu'un ensemble d'événements différents les uns des autres et, par conséquent, des messages à leur sujet.

Intéressons-nous aux informations suivantes sur l'état de certains objets : dans lequel des quatre états possibles (solide, liquide, gazeux, plasma) se trouve une substance ? dans lequel des quatre cours de l'école technique l'étudiant étudie-t-il ? Dans tous ces cas, il existe une incertitude sur l'événement qui nous intéresse, caractérisée par la présence d'un choix parmi quatre possibilités. Si nous ignorons leur signification dans les réponses aux questions ci-dessus, alors les deux réponses porteront la même quantité d'informations, puisque chacune d'elles distingue l'un des quatre états possibles de l'objet et, par conséquent, supprime la même incertitude du message. .

L'incertitude est inhérente au concept de probabilité. La réduction de l'incertitude est toujours associée au choix (sélection) d'un ou plusieurs éléments (alternatives) parmi une partie de leur totalité. Cette réversibilité mutuelle des concepts de probabilité et d'incertitude a servi de base à l'utilisation du concept de probabilité pour mesurer le degré d'incertitude en théorie de l'information. Si nous supposons que l'une des quatre réponses aux questions est également probable, alors sa probabilité dans toutes les questions est égale à 1/4 .

La même probabilité de réponses dans cet exemple détermine également l'incertitude égale supprimée par la réponse à chacune des deux questions, ce qui signifie que chaque réponse porte la même information.

Essayons maintenant de comparer les deux questions suivantes : dans laquelle des quatre filières de l'école technique l'élève étudie-t-il ? Comment une pièce de monnaie tombera-t-elle lorsqu'elle sera lancée : "blason" ou "numéro" ? Dans le premier cas, quatre réponses également probables sont possibles, dans le second - deux. Par conséquent, la probabilité d'une réponse dans le second cas est plus grande que dans le premier ( 1/2 > 1/4 ), alors que l'incertitude levée par les réponses est plus importante dans le premier cas. Toute réponse possible à la première question supprime plus d'incertitude que toute réponse à la deuxième question. Par conséquent, la réponse à la première question contient plus d'informations ! Par conséquent, plus la probabilité d'un événement est faible, plus le message sur son occurrence supprime l'incertitude et, par conséquent, plus il contient d'informations.

Supposons qu'un événement a m résultats tout aussi probables. Un tel événement peut être, par exemple, l'apparition de n'importe quel caractère d'un alphabet contenant m tels caractères. Comment mesurer la quantité d'informations pouvant être transmises à l'aide d'un tel alphabet ? Cela peut être fait en définissant un nombre N messages possibles qui peuvent être transmis en utilisant cet alphabet. Si le message est formé d'un seul caractère, alors N=m, si de deux, alors N \u003d m m \u003d m 2. Si le message contient n caractères ( n est la longueur du message), alors N=mn. Il semblerait que la mesure requise de la quantité d'informations ait été trouvée. Il peut être compris comme une mesure de l'incertitude du résultat d'une expérience, si par expérience nous entendons une sélection aléatoire d'un message parmi un certain nombre de messages possibles. Cependant, cette mesure n'est pas tout à fait pratique.

En présence d'un alphabet composé d'un caractère, c'est-à-dire Quand m = 1, seul ce caractère peut apparaître. Par conséquent, il n'y a aucune incertitude dans ce cas et l'apparition de ce symbole ne véhicule aucune information. Pendant ce temps, la valeur Nà m = 1 ne va pas à zéro. Pour deux sources de message indépendantes (ou alphabet) avec N 1 Et N 2 nombre de messages possibles nombre total de messages possibles N = N 1 N 2, alors qu'il serait plus logique de supposer que la quantité d'informations reçues de deux sources indépendantes ne devrait pas être un produit, mais la somme des quantités constitutives.

Une issue a été trouvée R. Hartley qui a offert des informations je par message est déterminé par le logarithme du nombre total de messages possibles N:

I(N) = log N

Si l'ensemble des messages possibles se compose d'un ( N=m=1), Que

I(N) = log 1 = 0,

ce qui correspond au manque d'information dans ce cas. En présence de sources d'information indépendantes avec N 1 Et N 2 nombre de messages possibles

Je (N) \u003d log N \u003d log N 1 N 2 \u003d log N 1 + log N 2

ceux. la quantité d'informations par message est égale à la somme des quantités d'informations qui seraient reçues de deux sources indépendantes, prises séparément.

Formule proposée Hartley, répond aux exigences. Par conséquent, il peut être utilisé pour mesurer la quantité d'informations. Si la possibilité d'occurrence de n'importe quel caractère de l'alphabet est équiprobable (et nous avons jusqu'à présent supposé qu'elle l'était), alors cette probabilité p= 1/mois. En admettant que N=m, on a

I = log N = log m = log (1/p) = – log p,

La formule résultante permet, dans certains cas, de déterminer la quantité d'informations. Cependant, pour des raisons pratiques, il est nécessaire de préciser l'unité de sa mesure. Pour ce faire, supposons que l'information est l'incertitude supprimée. Ensuite, dans le cas le plus simple de l'incertitude, le choix se fera entre deux messages équiprobables mutuellement exclusifs, par exemple, entre deux signes qualitatifs : impulsions positives et négatives, impulsion et pause, etc.

La quantité d'informations transmises dans ce cas le plus simple est plus commodément considérée comme une unité de la quantité d'informations. L'unité résultante de la quantité d'informations, qui est un choix de deux événements également probables, est appelée une unité binaire, ou bit. (Nom peu formé de deux premières et dernières lettres d'une expression anglaise unité binaire, ce qui signifie une unité binaire.)

Un bit n'est pas seulement une unité de quantité d'informations, mais aussi une unité de mesure du degré d'incertitude. Cela fait référence à l'incertitude contenue dans une expérience qui a deux résultats également probables. La quantité d'informations reçues d'un message est affectée par le facteur de surprise pour le destinataire, qui dépend de la probabilité de recevoir un message particulier. Plus cette probabilité est faible, plus le message est inattendu et donc informatif. Message, probabilité

dont le degré de surprise est élevé et, par conséquent, faible, porte peu d'informations.

R. Hartley entendu que les messages ont des probabilités différentes et, par conséquent, le caractère inattendu de leur apparition pour le destinataire n'est pas le même. Mais en quantifiant la quantité d'informations, il a essayé d'éliminer complètement le facteur "surprise". Donc la formule Hartley vous permet de déterminer la quantité d'informations dans le message uniquement pour le cas où l'occurrence de symboles est également probable et ils sont statistiquement indépendants. En pratique, ces conditions

rarement exécuté. Lors de la détermination de la quantité d'informations, il est nécessaire de prendre en compte non seulement le nombre de différents messages pouvant être reçus de la source, mais également la probabilité de les recevoir.

L'approche la plus largement utilisée pour déterminer la quantité moyenne d'informations contenues dans les messages provenant de sources de nature très différente est l'approche. À Shannon.

Considérez la situation suivante. La source transmet des signaux élémentaires k divers types. Suivons un segment assez long du message. Laissez-le avoir N 1 signaux du premier type, N 2 signaux du deuxième type, ..., Nk signaux k-ème type, et N 1 + N 2 + ... + N k = N est le nombre total de signaux dans le segment observé, f 1 , f 2 , ..., f k sont les fréquences des signaux correspondants. Lorsque la longueur du segment de message augmente, chacune des fréquences tend vers une limite fixe, c'est-à-dire

lim f je = p je , (je = 1, 2, ..., k),

p je peut être considérée comme la probabilité du signal. Supposons qu'un signal soit reçu je-ème type avec probabilité p je contenant - log p je unités d'information. Dans la section à l'étude je-ème signal rencontrera approximativement Np je fois (nous supposerons que N assez grand), et l'information totale délivrée par des signaux de ce type sera égale au produit Np je log p je. Il en va de même pour les signaux de tout autre type, de sorte que la quantité totale d'informations fournies par un segment de N les signaux seront à peu près égaux. Pour déterminer la quantité moyenne d'informations par signal, c'est-à-dire contenu d'information spécifique de la source, vous devez diviser ce nombre par N. Avec une croissance illimitée, l'égalité approximative deviendra exacte.

En conséquence, une relation asymptotique sera obtenue - la formule Shannon. Il s'est avéré que la formule proposée Hartley, est un cas particulier de la formule plus générale Shannon.

En plus de cette formule, Shannon a proposé un schéma de communication abstrait composé de cinq éléments (source d'information, émetteur, ligne de communication, récepteur et destination) et a formulé des théorèmes sur la bande passante, l'immunité au bruit, le codage, etc.

| Planification de leçon et matériel de cours | 11 cours | Planification des cours pour l'année académique (selon le manuel de K.Yu. Polyakov, E.A. Eremina, un cours approfondi complet, 4 heures par semaine) | Quantité d'informations

Leçons 2 - 3
Information et probabilité. formule de Hartley. Formule de Shannon
(§1. Quantité d'informations)

Il n'est devenu possible de répondre à cette question qu'après avoir étudié les logarithmes dans un cours de mathématiques. De la formule

il s'ensuit immédiatement que I est la puissance à laquelle il faut élever 2 pour obtenir N, c'est-à-dire le logarithme :

Cette formule s'appelle La formule de Hartley en l'honneur de l'ingénieur américain Ralph Hartley, qui l'a proposé en 1928.

Supposons, par exemple, qu'il y ait 10 avions sur l'aérodrome (avec des numéros de 1 à 10) et on sait que l'un d'eux vole à Saint-Pétersbourg.

Quelle quantité d'informations contient le message "L'avion n° 2 vole vers Saint-Pétersbourg" ? Nous avons 10 options parmi lesquelles une est sélectionnée, donc selon la formule de Hartley, la quantité d'informations est

I = log 2 10 ≈ 3,322 bits.

Notez que pour les valeurs de N qui ne sont pas une puissance entière de 2, la quantité d'informations en bits est un nombre fractionnaire.

En utilisant la formule de Hartley, vous pouvez calculer la quantité théorique d'informations dans un message. Supposons que l'alphabet (le jeu complet de caractères valides) comporte 50 caractères (auquel cas nous disons que puissance alphabétique est égal à 50). Ensuite, les informations à la réception de chaque caractère sont

I = log 2 50 ≈ 5,644 bits.

Si le message contient 100 caractères, son volume total d'informations est approximativement égal à

5,644 100 = 564,4 bits.

En général, la taille d'un message de longueur L caractères utilisant un alphabet de N caractères est I = L log 2 N.

Tel une approche pour déterminer la quantité d'informations est appelée alphabétique. Bien entendu, en pratique, il est impossible d'utiliser un nombre de bits non entier pour coder un caractère, c'est donc le premier entier supérieur à la valeur calculée théoriquement qui est utilisé. Par exemple, lors de l'utilisation d'un alphabet de 50 caractères, chaque caractère sera encodé sur 6 bits (50 ≤ 2 6 = 64).

Combien de messages différents peuvent être envoyés si l'alphabet et la longueur du message sont connus ? Supposons que 4 lettres soient utilisées pour coder un message, par exemple "A", "B", "C" et "D", et que le message se compose de deux caractères. Puisque chaque personnage peut être choisi de 4 manières différentes, pour chaque choix du premier personnage, il y a 4 choix du second. Par conséquent, le nombre total de messages différents à deux lettres est calculé comme suit : 4 4 = 4 2 = 16. Si un caractère supplémentaire est ajouté au message, alors pour chacune des 16 combinaisons des deux premiers caractères, le troisième peut être choisi de quatre manières, le nombre de messages différents à trois caractères est donc 4 4 4 = 4 3 = 64.

En général, si un alphabet de N caractères est utilisé, alors le nombre de messages différents possibles de longueur L caractères est égal à Q = N L .

Page suivante

Les informations peuvent être sous la forme :

    textes, dessins, dessins, photographies ;

    signaux lumineux ou sonores;

    les ondes radio;

    impulsions électriques et nerveuses;

    disques magnétiques;

    gestes et expressions faciales ;

    odeurs et sensations gustatives;

    chromosomes, à travers lesquels les signes et les propriétés des organismes sont hérités, etc.

Les objets, processus, phénomènes d'une propriété matérielle ou immatérielle, considérés du point de vue de leurs propriétés informationnelles, sont appelés objets informationnels.

1.4. Comment les informations sont-elles transmises ?

Les informations sont transmises sous forme de messages d'une source d'informations à son récepteur via un canal de communication entre eux. La source envoie un message de transmission, qui est codé en un signal de transmission. Ce signal est envoyé sur un canal de communication. En conséquence, un signal reçu apparaît au niveau du récepteur, qui est décodé et devient le message reçu.

    Un message contenant des informations sur les prévisions météorologiques est transmis au récepteur (spectateur) à partir d'une source - un météorologue via un canal de communication - un équipement de transmission de télévision et un téléviseur.

    Un être vivant avec ses organes sensoriels (œil, oreille, peau, langue, etc.) perçoit les informations du monde extérieur, les transforme en une certaine séquence d'influx nerveux, transmet les impulsions le long des fibres nerveuses, les stocke en mémoire sous la forme d'un état des structures neuronales du cerveau, se reproduit sous forme de signaux sonores, de mouvements, etc., les utilise au cours de sa vie.

La transmission d'informations sur les canaux de communication s'accompagne souvent d'interférences qui provoquent une distorsion et une perte d'informations.

1.5. Comment la quantité d'informations est-elle mesurée ?

Quelle quantité d'informations sont contenues dans les œuvres de grands poètes, écrivains, poètes ou dans le code génétique humain ? La science ne donne pas de réponses à ces questions et, selon toute vraisemblance, n'en donnera pas de sitôt. Est-il possible de mesurer objectivement la quantité d'informations ? Le résultat le plus important de la théorie de l'information est la conclusion suivante :

Dans certaines conditions très larges, on peut négliger les caractéristiques qualitatives de l'information, exprimer sa quantité en nombre, et aussi comparer la quantité d'information contenue dans différents groupes de données.

Actuellement, les approches de la définition du concept de "quantité d'informations" se sont généralisées, basées sur le fait que l'information contenue dans le message peut être interprétée de manière vague dans le sens de sa nouveauté ou, en d'autres termes, de la réduction de l'incertitude de nos connaissances sur l'objet. Ces approches utilisent des concepts mathématiques probabilités Et logarithme.

Approches pour déterminer la quantité d'informations. Formules de Hartley et Shannon.

ingénieur américain R. Hartley en 1928, le processus d'obtention d'informations était considéré comme le choix d'un message parmi un ensemble fini prédéfini de N messages équiprobables, et la quantité d'informations I contenue dans le message sélectionné était définie comme le logarithme binaire N .

Formule de Hartley : I = log 2 N

Supposons que vous deviez deviner un nombre parmi un ensemble de nombres allant de un à cent. En utilisant la formule de Hartley, vous pouvez calculer la quantité d'informations nécessaires pour cela: I \u003d log 2 100 \u003d 6,644. Ainsi, un message concernant un nombre correctement deviné contient une quantité d'informations approximativement égale à 6,644 unités d'informations.

en voici d'autres exemples de messages équiprobables:

    quand je lance une pièce : "les queues sont tombées", "l'aigle est tombé";

    sur la page du livre : "le nombre de lettres est pair", "nombre de lettres impair".

Déterminons maintenant si les messages sont équiprobables "la femme sera la première à franchir la porte de l'immeuble" Et "l'homme sera le premier à franchir la porte de l'immeuble". Il est impossible de répondre à cette question sans ambiguïté. Tout dépend de quel type de bâtiment on parle. S'il s'agit, par exemple, d'un cinéma, alors la probabilité de sortir en premier par la porte est la même pour un homme et une femme, et s'il s'agit d'une caserne militaire, alors pour un homme cette probabilité est beaucoup plus élevée que pour une femme .

Pour des problèmes de ce genre, un scientifique américain Claude Shanon a proposé en 1948 une autre formule pour déterminer la quantité d'informations, en tenant compte de la possible probabilité inégale des messages dans l'ensemble.

Formule de Shannon : I = - (p 1 enregistrer 2 p 1 +p 2 enregistrer 2 p 2 + . . . +p N enregistrer 2 p N ), où p je- la probabilité que je Le ème message est sélectionné dans l'ensemble des N messages.

Il est facile de voir que si les probabilités p 1 , ..., p N sont égaux, alors chacun d'eux est 1/N, et la formule de Shannon devient la formule de Hartley.

Outre les deux approches envisagées pour déterminer la quantité d'informations, il en existe d'autres. Il est important de se rappeler que les résultats théoriques ne sont applicables qu'à une certaine gamme de cas, définis par les hypothèses initiales.

Comme unité d'information, Claude Shannon a proposé de prendre une peu (Anglais. peu - bi à peine numériquet - chiffre binaire).

Peuen théorie de l'information- la quantité d'informations nécessaires pour distinguer deux messages également probables (tels que "face" - "face", "pair" - "impair", etc.). En informatique un bit est la plus petite "portion" de mémoire informatique nécessaire pour stocker l'un des deux caractères "0" et "1" utilisés pour la représentation intramachine des données et des commandes.

Un peu est une trop petite unité de mesure. En pratique, une unité plus grande est plus souvent utilisée - octetégal à huit bits. Ce sont huit bits qui sont nécessaires pour coder n'importe lequel des 256 caractères de l'alphabet du clavier de l'ordinateur (256=28).

Des unités d'information dérivées encore plus grandes sont également largement utilisées :

    1 Kilooctet (Ko) = 1024 octets = 2 10 octets,

    1 mégaoctet (Mo) = 1024 Ko = 2 20 octets,

    1 gigaoctet (Go) = 1024 Mo = 230 octets.

Récemment, en raison de l'augmentation du volume d'informations traitées, des unités dérivées telles que :

    1 téraoctet (To) = 1024 Go = 2 40 octets,

    1 pétaoctet (PB) = 1024 To = 250 octets.

Pour une unité d'information, on pourrait choisir la quantité d'information nécessaire pour distinguer, par exemple, dix messages équiprobables. Ce ne sera pas une unité d'information binaire (bit), mais décimale (dit).

Nous avons déjà mentionné que la formule de Hartley est un cas particulier de la formule de Shannon pour les alternatives équiprobables.

Remplacer dans la formule (1) au lieu de p je son (dans le cas équiprobable, indépendamment de je) valeur, on obtient :

Ainsi, la formule de Hartley semble très simple :

(2)

Il en résulte clairement que plus le nombre d'alternatives est grand ( N), plus l'incertitude est grande ( H). Ces quantités sont liées dans la formule (2) non pas linéairement, mais par un logarithme binaire. Logarithme en base 2 et apporte le nombre d'options aux unités d'information - bits.

Notez que l'entropie ne sera un entier que si N est une puissance de 2, c'est-à-dire Si N appartient à la série : {1, 2, 4, 8, 16, 32, 64, 128, 256, 512, 1024, 2048…}

Riz. 10. Dépendance de l'entropie sur le nombre de choix équiprobables (alternatives équivalentes).

Rappelez-vous ce qu'est un logarithme.

Riz. 11. Trouver le logarithme b Par raison un trouve degrés, auquel vous devez élever un, Obtenir b.

Le logarithme en base 2 s'appelle binaire:

bûche 2 (8)=3 => 2 3 =8

log 2 (10)=3,32 => 2 3,32 =10

Le logarithme en base 10 s'appelle décimal:

log 10 (100)=2 => 10 2 =100

Les principales propriétés du logarithme :

    log(1)=0 car tout nombre à la puissance zéro donne 1 ;

    log(a b)=b*log(a);

    log(a*b)=log(a)+log(b);

    log(a/b)=log(a)-log(b);

    log(1/b)=0-log(b)=-log(b).

Pour résoudre des problèmes inverses lorsque l'incertitude est connue ( H) ou la quantité d'informations obtenues à la suite de leur suppression ( je) et que vous devez déterminer combien d'alternatives équiprobables correspondent à l'occurrence de cette incertitude, utilisez la formule de Hartley inverse, qui semble encore plus simple :

(3)

Par exemple, si l'on sait qu'après avoir déterminé que Kolya Ivanov, qui nous intéresse, vit au deuxième étage, 3 informations ont été reçues, le nombre d'étages de la maison peut être déterminé par la formule (3), comme N=2 3 =8 étages.

Si la question est la suivante: "il y a 8 étages dans la maison, combien d'informations avons-nous reçues lorsque nous avons appris que Kolya Ivanov, qui nous intéresse, habite au deuxième étage?", vous devez utiliser la formule ( 2): je= enregistrer 2 (8)=3 bits.

    1. La quantité d'informations reçues dans le processus de message

Jusqu'à présent, nous avons donné des formules pour calculer l'entropie (incertitude) H, indiquant que H ils peuvent être remplacés par je, parce que la quantité d'informations reçues avec suppression complèteincertitude une situation est quantitativement égale à l'entropie initiale de cette situation.

Mais l'incertitude ne peut être que partiellement levée, de sorte que la quantité d'informationsje, obtenu à partir d'un message, est calculé comme la diminution de l'entropie qui s'est produite à la suite de l'obtention donné messages.

(4)

Pour un cas équiprobable, en utilisant la formule de Hartley pour calculer l'entropie, on obtient :

(5)

La deuxième égalité est dérivée sur la base des propriétés du logarithme. Ainsi, dans le cas équiprobable je dépend de combien de fois le nombre de choix considérés a changé (diversité prise en compte).

D'après (5), on peut déduire ce qui suit :

Si
, Que
- suppression complète de l'incertitude, la quantité d'informations reçues dans le message est égale à l'incertitude qui existait avant la réception du message.

Si
, Que
- l'incertitude n'a pas changé, donc aucune information n'a été obtenue.

Si
, Que
=>
, Si
,
=>
. Ceux. la quantité d'informations reçues sera positive si, à la suite de la réception du message, le nombre d'alternatives envisagées a diminué, et négatif s'il a augmenté.

Si le nombre d'alternatives envisagées est divisé par deux à la suite de la réception du message, c'est-à-dire
, Que je=enregistrer 2 (2)=1 bit. En d'autres termes, recevoir 1 bit d'information exclut la moitié des options équivalentes de la considération.

Considérons, à titre d'exemple, une expérience avec un jeu de 36 cartes.

Riz. 12. Illustration d'une expérience avec un jeu de 36 cartes.

Laissez quelqu'un prendre une carte du jeu. Nous nous intéressons à laquelle des 36 cartes il a retirées. L'incertitude initiale calculée par la formule (2) est H= enregistrer 2 (36) 5,17 bits. Celui qui pioche la carte nous donne quelques informations. À l'aide de la formule (5), nous déterminons la quantité d'informations que nous recevons de ces messages :

OptionUN. "CekartUNrouge costumes”.

I=log 2 (36/18)=log 2 (2)=1 bit (il y a des cartes à moitié rouges dans le jeu, l'incertitude a diminué de 2 fois).

OptionB. "CekartUNculminer costumes”.

I=log 2 (36/9)=log 2 (4)=2 bits (les cartes de pique constituent un quart du jeu, l'incertitude a diminué de 4 fois).

Option C. "C'est l'une des cartes les plus hautes : valet, reine, roi ou as."

I = log 2 (36)–log 2 (16) = 5,17-4 = 1,17 bits (l'incertitude a diminué de plus de deux fois, de sorte que la quantité d'informations reçues est supérieure à un bit).

OptionD. "C'est une carte du jeu."

I=log 2 (36/36)=log 2 (1)=0 bits (incertitude non réduite - message non informatif).

OptionD. "C'est une dameculminer".

I = log 2 (36/1) = log 2 (36) = 5,17 bits (l'incertitude est complètement levée).

    On sait a priori que la boule se trouve dans l'une des trois urnes : A, B ou C. Déterminer combien de bits d'information contient le message qu'elle se trouve dans l'urne B. Options : 1 bit, 1,58 bit, 2 bit, 2,25 bit.

    La probabilité du premier événement est de 0,5, et les deuxième et troisième de 0,25. Quelle est l'entropie d'information pour une telle distribution. Options : 0,5 bit, 1 bit, 1,5 bit, 2 bits, 2,5 bits, 3 bits.

    Voici une liste des employés d'une organisation :

Déterminez la quantité d'informations manquantes afin de répondre aux demandes suivantes :

    Veuillez appeler Ivanova au téléphone.

    Je suis intéressé par une de vos employées, elle est née en 1970.

    Quel message contient plus d'informations :

    À la suite du lancement d'une pièce de monnaie (pile, pile), la pile est tombée.

    Les feux de circulation (rouge, jaune, vert) sont désormais au vert.

À la suite du lancement d'un dé (1, 2, 3, 4, 5, 6), 3 points sont tombés.