Evaluation de la valeur des données et des
décisions médicales
Tout examen, tout test, toute décision médicale (diagnostique ou thérapeutique) mérite d'être évalué dans l'intérêt de la santé du malade et de la collectivité.
Il existe dans la démarche d'évaluation d'un examen, par exemple, différents niveaux qui doivent répondre à des questions bien distinctes :
-
technique :
Le test a-t-il la qualité technique qu'on lui prête?
Il s'agit d'un problème de contrôle de qualité.
- clinique :
Quel est l'apport informationnel du test, autrement dit quelle
est sa contribution au diagnostic? Ou encore, quelle est son
"utilité" (au sens OMS) pour le patient?
- épidémiologie :
La pratique de cet examen améliore-t-elle la santé de la
population? (C'est "l'efficacité" au sens que l'OMS donne à ce
mot).
- en économie de la santé :
Ce test est-il susceptible de remplacer d'autres examens?
Modifie-t-il la thérapeutique?
Quelle est son efficacité évaluée en unités non monétaires
(rapport coût/efficacité) comme le nombre de vies épargnées?
Quelle est son efficacité exprimée en unités monétaires (rapport
coût/avantage)?
Nous insisterons ici essentiellement sur les aspects cliniques
et épidémiologiques.
I. Evaluation de la valeur d'information d'un signe
A. Sensibilité et spécificité d'un signe
la valeur d'information d'un signe est très variable : on parle de signes fréquents, rares, évocateurs, caractéristiques, pathognomoniques... Pour évaluer cette valeur on dispose d'un certain nombre de critères (fréquence, sensibilité, spécificité).
On considère un signe booléen, c'est à dire à deux état S et S',
par exemple :
- éruption, absence d'éruption
- fièvre ou apyrexie
et on s'interroge sur la présence ou l'absence de ce signe dans
une maladie qui peut exister ou ne pas exister.
On observe N malades dont N1 sont atteints de M et N2 ne sont
pas atteints de M et on obtient les résultats suivants :
| Malade | Non malade | |
| S | a | b |
| S' | c | d |
| N1 | N2 |
a+c = N1
b+d = N2
Sensibilité : la quantité a/(a+c), c'est à dire a/N1, représente la fréquence du signe S dans la maladie M, ou encore la sensibilité de ce signe dans M ; c'est aussi l'estimation de la probabilité de S quand M, P(S/M). Un signe de sensibilité égale à 1 est constant dans la maladie. Dans ce cas l'absence de S exclut la maladie (Ex : fièvre dans la typhoïde)
Spécificité : c'est la quantité d/(d+b), ou encore d/N2, estimation de la probabilité P(S'/M'). Si la spécificité est égale à 1 on dit que S est pathognomonique de M (Ex: signe de Köplick dans la rouegole, signe d'Argyll-Robertson de la syphilis nerveuse, signe de Babinski de la souffrance pyramidale). Dans ce cas b=0. Le signe pathognomonique suffit, à lui seul, pour affirmer la maladie, mais il n'est pas nécessaire. Sa sensibilité n'est pas forcément égale à 1 : on peut être malade sans avoir le signe.
Ces deux notions sont très distinctes : un signe peut être constant (sensibilité=1) sans être caractéristique (cas de la fièvre dans la typhoïde). Dans cet exemple c=0.
B. Evaluation d'un processus de décision médicale
Soit par exemple 150 patients, atteints de "ventre aiguë". Le problème est de les classer en appendicite ou non appendicite, tâche qui est confiée à un médecin dont on veut tester la compétence, ou à un algorithme d'aide au diagnostic dont on veut tester la validité. On peut imaginer que l'on dispose d'un moyen de connaître le diagnostic exact (parce que l'on a opéré tous les malades). On aura alors les résultats suivants :
| Décision correcte | ||||
| D | D' | |||
| Décision | d | VP | FP | d et D = appendicite |
| Proposée | d' | FN | VN | d' et D' = non appendicite |
| 70 | 80 | |||
VP = nombre de vrais positifs (le processus a
proposé la décision d = appendicite de façon exacte)
FP = nombre de faux positifs (la décision proposée est d, elle
est erronée)
FN = nombre de faux négatifs
VN = nombre de vrais négatifs
un processus décisionnel idéal serait que FN=FP=0, ce n'est
généralement pas le cas et on cherche à évaluer l'efficacité
de cette procédure, grâce à certains indices :
Proportion de bien classés :
VP+VN
VP+VN
C'est -------------------------- = -----------
VP+FN+FP+VN
150
Cet indice est insuffisant car il permet de savoir le type
d'erreur que l'on fait : est-ce FP qui est trop grand
(diagnostic d'appendicite trop souvent posé) ou FN (diagnostic
d'appendicite trop rarement posé)?
Sensibilité du processus :
VP
C'est -------------
VP+FN
qui mesure son aptitude à retenir les décisions correctes,
c'est à dire ne pas faire d'erreur par défaut.
Ce rapport est d'autant plus proche de 1 que le nombre de FN
est plus petit. Il exprime, si l'on évalue un test, la
capacité du test à donner une réponse positive sur les
personnes atteintes de la maladie étudiée, autrement dit à
détecter tous les cas de la maladie. C'est une estimation de
la probabilité conditionnelle P(Test+/M).
Spécificité :
VN
C'est ------------
VN+FP
qui mesure l'aptitude du processus à ne pas faire d'erreur par
excès, autrement dit à ne diagnostiquer que les cas de la
maladie.
Pour un test c'est la capacité de donner une réponse négative
sur les personnes qui ne sont pas atteintes de la maladie
étudiée.
Ces deux indices complètement le processus. Idéalement ils
doivent être l'un et l'autre aussi proches de 1 que possible.
En pratique, il y a compétition entre ces deux qualités.
sensibilité
On appelle rapport de vraisemblance,
le rapport : k = -------------------
1-spécificité
Un sujet a k fois plus de chances de présenter le signe S ou
d'avoir un test positif s'il est atteint de la maladie que
dans le cas contraire.
Tous ces indices devraient aider le médecin dans son choix en
faveur du ou des tests qu'il va faire subir à son patient en
fonction du but poursuivi.
Dans l'investigation diagnostique, l'information demandée à un
test peut être :
- soit d'aider à confirmer un diagnostic : le médecin doit choisir un test
à spécificité élevée,
- soit d'aider à éliminer un diagnostic : il doit alors choisir un test à
sensibilité élevée.
Par exemple, si on souhaite confirmer une infection
tuberculeuse, rien ne vaut la recherche et l'isolement du
bacille de Koch. Si on souhaite, par contre, éliminer
l'hypothèse d'une tuberculose pulmonaire, on demandera, non
pas une recherche de BK spécifique mais peu sensible, mais une
radiographie pulmonaire, examen sensible mais peu spécifique.
On peut considérer aussi deux autres indices (liés aux
premiers), appelés valeur prédictives des décisions proposées
d et d' :
VP
------------ est la valeur prédictive positive du
test.
VP+FP
Elle répond à la question : si le test est positif
(radiographie pulmonaire anormale par exemple) quel est le
risque que le malade soit effectivement atteint par la maladie
soupçonnée en l'occurrence ici la tuberculose?
Autrement dit, la valeur prédictive positive est la
probabilité pour une personne ayant un test positif d'être
atteinte d'une lésion à dépister. C'est aussi un indicateur de
la valeur d'un programme de dépistage. Elle dépend de la
sensibilité du test, mais surtout de sa spécificité et de la
prévalence de la maladie pendant la phase de détection
préclinique dans la population testée. Si la prévalence est
faible, un test même de bonne spécificité, aura une valeur
prédictive basse.
VN
------------ est la valeur prédictive négative du test
VN+FN
Elle répond à la question : si le test est négatif
(radiographie pulmonaire normale) quelle est la chance que le
patient ne soit pas atteint de tuberculose?
II. Application aux
dépistages
Dans le dépistage on se retrouve à une décision : classer chaque individu en l'une des deux catégories :
- individus sains
- individus demandant des soins
au moyen d'un processus décisionnel reposant sur un nombre
très faible de tests.
Exemples : repérer les hypertendus par la prise de la pression
artérielle, les anémiques par la mesure du taux
d'hémoglobine...
dans ce cas, il y a intérêt à ce que le test soit TRES SENSIBLE quitte à être PEU SPECIFIQUE. Toutefois si le
nombre de FP est trop grand, trop de sujets seront déclarés
malades et soumis à des examens ultérieurs approfondis : il en
coûtera une augmentation inutile de prix, de temps perdu, de
désagrément. il faut donc choisir judicieusement le ou les
critères à étudier.
De plus, l'avance au diagnostic, autrement dit un diagnostic
plus précoce, ne conduit pas forcément à un traitement plus
efficient et n'est pas toujours avantageux pour le malade...
A. Evaluation de la
qualité des soins
Rappelons qu'EVALUER c'est
déterminer la valeur ou le degré de succès dans l'atteinte
d'un objectif déterminé ou encore comparer les réalisations
avec les objectifs fixés.
L'évaluation de la qualité des soins permet d'apporter aux
financiers une justification des dépenses de santé mais c'est
surtout une EXIGENCE SCIENTIFIQUE ET
ETHIQUE actuelle : la médecine est parvenue à un niveau
de maîtrise tel que les médecines ont le devoir de vérifier
qu'ils obtiennent bien les résultats que la science médicale
actuelle leurs permettent d'espérer.
L'évaluation de la qualité des soins doit donc être replacée
dans la logique scientifique de l'évaluation en médecin, et en
particulier aux différents niveaux déjà signalés :
- recherche clinique
- recherche épidémiologique
- analyse économique et
- évaluation de la qualité
A.1. L'évaluation en
médecine
- La recherche clinique qui repose sur des observations (fortuites ou
induites par des hypothèses physiopathologiques) permet
d'évaluer l'intérêt potentiel d'une technique diagnostique ou
thérapeutique et de la mettre au point, ou encore de tester et
valider des hypothèses conduisant à une meilleure connaissance
des mécanismes pathologiques.
- La recherche épidémiologique permet d'évaluer l'EFFICACITE
d'une technique : ses méthodes d'analyse visent à mesurer les
résultats d'une technique appliquée à une population
soigneusement définie, et aussi à déterminer les facteurs de
risque en cause.
- L'analyse économique permet d'évaluer l'EFFICIENCE
d'une technique, c'est à dire son utilité rapportée à son coût
pour la population susceptible d'en bénéficier. A partir d'une
connaissance des besoins de santé de la population, d'une
étude des avantages, des inconvénients et du coût d'une
technique, du recensement des moyens en matériel et personnel
disponibles et de la population desservie, l'analyse apporte
aux responsables politiques et financiers, les informations
utiles à leur décision.
- Lorsque des techniques, après évaluation de leur efficacité et de leur
efficience, ont été diffusées, il y a lieu de vérifier que les
résultats obtenus correspondent aux résultats attendus : c'est l'EVALUATION DE LA QUALITE DE SOINS.
Il faut savoir qu'en médecine de nombreuses techniques,
largement diffusées et utilisées n'ont jamais donné lieu à une
évaluation épidémiologique ou économique.
A.2. Pourquoi
évaluer?
- C'est une nécessité SCIENTIFIQUE :
Elle s'inscrit dans la logique de développement d'une médecine
scientifique et non plus empirique de s'assurer que les
résultats obtenus "sur le terrain" (dans le monde réel) sont
ceux auxquels on pouvait s'attendre d'après les résultats de
laboratoire. Il est en effet fondamental d'apprécier dans
quelle mesure les procédures médicales sont effectivement
utiles aux malades auxquelq elles sont appliquées, et si elles
sont utiles dans quelle mesure elles sont effectivement
appliquées, et finalement dans quelle mesure elles sont
efficaces pour améliorer le niveau de santé de la population.
- C'est une nécessité ECONOMIQUE :
Les arguments économiques et financiers apparaissent souvent
comme les plus urgents mais ce ne sont sans doute pas les plus
importants.
- C'est une nécessité ETHIQUE :
"L'emploi sur un malade d'une thérapeutique nouvelle ne peut
être envisagé qu'après les études biologiques adéquates, sous
une surveillance stricte et si seulement cette thérapeutique
peut présenter pour la personne un intérêt direct" Art.19 Code
de déontologie Médicale.
La croissance de la consommation médicale entraîne un coût de
la santé que les nations même les plus riches ne peuvent plus
supporter. Des choix sont donc à faire et il faut les faire en
connaissance de cause, pour optimiser le politique de santé.
A.3. Peut-on évaluer?
Dans le domaine de la santé, deux activités s'opposent, celle
à visée individuelle et celle à visée collective :
- l'amélioration de la santé de l'individu est un souci classique dont
l'évaluation repose sur l'essai thérapeutique.
- l'amélioration de l'état de santé d'une population est par contre tout à
fait différente car elle est fonction :
* d'une part, non pas d'un procédé thérapeutique particulier, mais
de l'ensemble des ressources que la collectivité consacre à la
santé de la population.
* d'autre part, des résultats obtenus au moyen des ressources
engagées, soit à l'égard de toute la population, soit à
l'égard d'une population "cible".
En épidémiologie, on aura donc à évaluer soit un programme de
santé soit une institution de santé.
les programmes de santé :
Ce sont des "ensembles organisés d'activités mettant en oeuvre
des moyens identifiés et mesurables en vue d'arriver à des
résultats définis et mesurables pour une population déterminée
et dans un délai déterminé".
Exemple : campagne de vaccination
Il s'agit donc de problèmes de santé publique.
Les institutions de
santé :
Ce sont des structures fonctionnelles, fonctionnant en routine
de façon permanente : les objectifs sont moins clairs et la
population concernée moins bien définie.
un hôpital, un service hospitalier, un cabinet médical, une
procédure médicale thérapeutique sont en ce sens des
institutions de santé.
A.4. Principes de
l'évaluation
On considère :
- l'évaluation des pratiques professionnelles centrée sur la conformité
"aux données acquises" de la science, par opposition à
- l'évaluation de recherche qui tend à remettre à jour ces "données
acquises" (établissement de recommandations).
L'évaluation a pour objectif d'améliorer la qualité des soins.
Pour chaque système institutionnel, trois niveaux :
- moyens
- activités
- résultats
Pouvant être l'objet d'une évaluation (Donabedian)
Evaluation des moyens (des ressources)
:
Elle concerne la qualité et la quantité des ressources
utilisées : équipements divers, organisation administrative,
structure hiérarchique (effectifs, qualification du
personnel), les dépenses, les recettes, le nombre d'actes de
laboratoires...
Ce type d'évaluation est ancien, relativement facile à mettre
au point mais il manque de précision et surtout ne prend guère
en compte l'aspect médical des informations.
Evaluation de l'activité (des procédures) :
Cette évaluation consiste à déterminer comment les ressources
on été utilisées.
Si les soins, selon le contrat juridique implicite qui lie le
malade et le médecin doivent être "conformes aux données
acquises de la science", ceci implique :
- la définition de procédures modèles dont il convient de se rapprocher au
maximum.
Exemple : devant une tumeur du sein on doit systématiquement
examiner les aires ganglionnaires, pratiquer une biopsie...
(Notions de recommandations établies en particulier lors de
conférence de consensus, de protocole thérapeutique)
- l'existence d'une évaluation de recherche qui tend à établir des
recommandations, c'est à dire démontrer l'utilité des
procédures nouvelles, à valider ou invalider l'utilité des
procédures anciennes dont la valeur n'avait pas été
scientifiquement démontrée.
il s'agira donc d'analyser :
- les différentes étapes de la décision médicale diagnostique et
thérapeutique (l'admission, le séjour, la sortie, la
redondance des examens)
- le suivi ultérieur du malade
- les mesures préventives éventuelles
Evaluation des résultats :
L'action d'évaluer suppose la référence à une échelle de
valeurs et des mesures possibles. Or la mesure des résultats
est un domaine très difficile et est l'objet de nombreuses
recherches méthodologiques (Sanométrie).
On fait généralement appel à des indicateurs de mortalité
(espérance de vie...), de morbidité (prévalence, incidence),
de morbidité étendue (espérance de vie en bonne santé, temps
perdu pour cause de maladie). Il est important également de
faire la distinction entre le niveau "individu" et le niveau
"population" auquel s'applique le processus de soins.
Un comité d'experts de l'OMS a proposé d'utiliser la
terminologie suivante :
- l'UTILITE (efficacy) d'une
procédure réside dans les avantages qu'elle présente pour les
individus qui l'ont suivie ou l'ont subie. La méthode
d'évaluation de l'utilité est l'ESSAI COMPARTIF
- l'EFFICACITE (effectiveness)
réside dans les avantages qu'en a retiré la POPULATION par
rapport aux OBJECTIFS DEFINIS.
L'importance de distinguer ces deux concepts tient au fait
qu'une procédure très utile peut n'être que médiocrement
efficace dans la mesure où l'accessibilité de cette procédure
est faible (peu de gens l'utilisent). Exemple : le traitement
médical de l'hypertension est utile, car il est capable
d'éviter les complications en faisant baisser la pression
artérielle, mais il est souvent médiocrement efficace dans la
mesure où de nombreux patients renoncent à poursuivre
indéfiniment leur traitement.
- L'EFFICIENCE ou RENDEMENT (efficiency)
rapporte soit l'utilité individuelle soit l'efficacité
collective aux ressources mises en oeuvre pour obtenir le
résultat.
De deux startégie également utiles, la plus
efficiente est celle qui requiert le moins de moyens.
Une activité médicale, thérapeutique ou préventive, dont
l'unité a été établie par un essai contrôlé, peut se révéler :
- inefficace, si elle est appliquée à mauvais escient ou si elle est trop
complexe,
- inefficiente si les moyens nécessaires à sa réalisation dans la
collectivité sont trop onéreux.
Comment évaluer :
Les procédures d'évaluation peuvent être fondées :
- sur les résultats
- sur les activités ou procédures
- sur des combinaisons de mesures de résultats et d'activités.
* Procédures fondées sur la mesure des
résultats :
On considère des catégories de patients, judicieusement
choisies, pour lesquelles on sait que les résultats définis
sont susceptibles d'être atteints par des soins de qualité.
Ainsi en chirurgie l'étude de la mortalité post-opératoire est
un critère évident et grossier de résultats. Or cette
mortalité peut varier d'un facteur 3 pour une même opération,
une fois pris en compte les divers facteurs pronostics.
On peut également faire l'analyse détaillée d'événements
critiques : l'étude de la mort des nouveau-nés et de leur mère
en 1932 à New York a montré qu'au moins 2/3 des morts
maternelles airaient pu être évitées et qu'une grande partie
étaient dues à des erreurs médicales. Un progrès spectaculaire
fut la conséquence de ces constatations.
Dans d'autres cas, l'augmentation d'un taux de mortalité
spécifique ou de morbidité, ou même la survenue d'un seul cas
(choléra) doit entraîner une enquête.
* Procédure fondées sur la mesure des
activités :
Même si la notion de recommandations, c'est à dire de
conduites types en présence de certaines situation, est
contestée, il n'est pas déraisonnable d'essayer d'établir des
critères du comportement, conforme aux données acquises de la
science.
Ces critères peuvent être DEFINIS PAR LE PRATICIEN ou le group
de praticiens soumis à évaluation (auto-évaluation), ou par
des praticiens extérieurs (évaluation par des pairs qui reste
néanmoins une évaluation intérieure à la profession).
Les critères peuvent être EXPLICITES et obtenus à partir d'un
schéma décisionnel pré-établi d'après l'opinion d'experts, ils
peuvent être IMPLICITES si l'évaluateur compare ce qui a été
fait avec ce qu'il aurait jugé lui-même utile de faire dans un
cas semblable.
On réalise soit une observation directe, soit une observation
rétrospective (audit).
- Observation directe :
un expert observe le comportement du praticien ou du groupe de
praticiens que l'on veut évaluer
- Observation rétrospective = AUDITS
Cette procédure a été mise au point aux US par les médecins
eux-mêmes, soucieux d'établir leur autocontrôle afin d'éviter
celui autoritaire de l'administration.
Les AUDITS sont des études ponctuelles de faire un état des
lieux des pratiques dans une unité de soins par exemple. Ces
enquêtes analysent des résultats diagnostiques (faux positifs,
faux négatifs), des résultats thérapeutique (taux de
récupération fonctionnelle à un mois, mortalité à un an...)
pour des catégories homogènes de patients, ou bien vérifient
que les examens et traitements prescrits correspondent bien
aux recommandations d'indication et de qualité définies et
admises par la profession.
Les évaluations peuvent être conduites par les médecins
responsables des soins des patients étudiés (audit interne) ou
bien par des médecins experts du problème analysé (audit
externe), à partir de critères définis à l'avance (grille de
critères explicites) ou d'une appréciation globale justifiée
par le bon sens (grille de critères implicites).
Elles devraient se développer facilement à l'hôpital car elles
sont dans la logique de travail d'équipe, mais leur diffusion
semble plus difficile en pratique de ville.
Ces observations rétrospectives sont souvent basées sur un
examen systématique des dossiers des patients, ce qui pose
deux problèmes :
- l'information recueillie dans les dossiers est-elle complète et/ou
systématique?
- ne s'agit-il pas plus d'une évaluation du système de dossiers que d'une
évaluation de la qualité des soins effectivement délivrés?
* Procédures fondées sur une
combinaison de mesures d'activités et de résultats. Méthode
des traceurs :
Elles sont destinées à disséquer le système de soins et à en
déceler les dysfonctionnements éventuels. La méthode des
traceurs en est l'exemple type.
Elle sélectionne un ensemble de diagnostics ou de situations
qui est censé permettre une appréciation par sondage de
l'ensemble du système de soins.
Exemple : pour évaluer la surveillance des enfants âgés de 6
mois à 11 ans à Washington, on a choisi de surveiller
l'anémie, les infections de l'oreille, la perte d'audition,
les défauts de vision.
12% des enfants qui avaient besoin de lunettes n'en avaient
pas.
Parmi ceux qui en avaient :
35% n'en avaient pas besoin
37% étaient corrigés de façon insuffisante
5% étaient aggravés par le correction.
* Correction des dysfonctionnements :
On a examiné les pratiques (par les résultats, l'activité ou
par une combinaison des deux) et si elles n'ont pas été jugés
satisfaisantes, il importe d'y remédier.
On peut être amené à remettre en cause les structures
administratives, la formation du personnel, l'implantation des
ressources...
Les cercles de qualité :
Il s'agit de petits groupes permanents et homogènes composés
de cinq à dix volontaires appartenant à une même unité
organique (service, laboratoire,...) ayant des préoccupations
professionnelles communes.
Animé par le plus proche responsable hiérarchique direct et
agissant en liaison avec un "faciliteur", le cercle se réunit
régulièrement afin d'identifier, analyser et résoudre les
problèmes de son choix concernant la qualité, la sécurité, la
productivité, les conditions de travail, etc... que les
membres rencontrent dans leur propre activité. Ils élaborent
une solution, contrôlent la validité de cette solution, la
soumettent pour décision aux responsables concernés, en
suivent l'application et les résultats.
Apparus au Japon dès 1949, puis aux USA, les cercles de
qualité connaissent en France un succès croissant, en
particulier dans le domaine informatique.
Les conférences de consensus.
B. Evaluation de
recherche
A côté de cette EVALUATION DES> PRATIQUES PROFESSIONNELLES qui
a pour but de comparer la pratique quotidienne aux "données
acquises" de la science et d'examiner les causes d'une
éventuelle discordance afin d'y remédier, il existe une
EVALUATION DE RECHERCHE dont le but est de définir les
pratiques optimales.
Cette évaluation de recherche contribue donc à remettre en
cause et à améliorer les données de la science qui ne sont
jamais définitivement acquises.
L'évaluation de recherche est un des aspects fondamentaux de
la recherche clinique : utilisant les acquis de la recherche
fondamentale (biophysique, biochimie, physiologie,
pharmacologie,...) Elle a pour objet de définir la meilleure
utilisation qu'on peut en faire sur l'homme malade.
le résultat d'une bonne évaluation de recherche est donc de
définir les stratégies diagnostiques et/ou thérapeutiques
optimales, et pour cela de préciser de façon scientifique les
relations entre processus et résultats.
Les principaux domaines d'intérêt pour l'évaluation de
recherche sont les suivants :
- les essais thérapeutiques qui ont pour but de comparer
l'utilité de deux ou plusieurs stratégies thérapeutiques
- les évaluations d'examens complémentaires qui essayent
d'évaluer l'impact de ces examens sur les processus et sur les
résultats.
Les outils méthodologiques correspondant sont :
- l'essai clinique randomisé
- l'analyse de décision : quand les conséquences sont du type
économique, cette théorie fait appel aux méthodes d'analyse
coût-efficacité ou de coût-avantage si l'on s'exprime en
unités monétaires.