Apprentissage automatique

Un article de Wikipédia, l'encyclopédie libre
Aller à la navigation Aller à la recherche

L'apprentissage automatique ( ML ) est l'étude d' algorithmes informatiques qui s'améliorent automatiquement grâce à l'expérience et à l'utilisation de données. [1] Elle est considérée comme faisant partie de l' intelligence artificielle . Les algorithmes d'apprentissage automatique construisent un modèle basé sur des échantillons de données, appelés « données d'apprentissage », afin de faire des prédictions ou des décisions sans être explicitement programmés pour le faire. [2] Les algorithmes d'apprentissage automatique sont utilisés dans une grande variété d'applications, telles que la médecine, le filtrage des e - mails , la reconnaissance vocale et la vision par ordinateur., où il est difficile ou irréalisable de développer des algorithmes conventionnels pour effectuer les tâches nécessaires. [3]

Un sous-ensemble de l'apprentissage automatique est étroitement lié aux statistiques informatiques , qui se concentrent sur la réalisation de prédictions à l'aide d'ordinateurs ; mais tout l'apprentissage automatique n'est pas un apprentissage statistique. L'étude de l'optimisation mathématique fournit des méthodes, des théories et des domaines d'application au domaine de l'apprentissage automatique. L'exploration de données est un domaine d'étude connexe, axé sur l'analyse exploratoire des données par le biais d' un apprentissage non supervisé . [5] [6] Dans son application aux problèmes métier, l'apprentissage automatique est également appelé analyse prédictive .

Aperçu

L'apprentissage automatique implique que les ordinateurs découvrent comment ils peuvent effectuer des tâches sans être explicitement programmés pour le faire. Cela implique que les ordinateurs apprennent à partir des données fournies afin qu'ils effectuent certaines tâches. Pour les tâches simples assignées aux ordinateurs, il est possible de programmer des algorithmes indiquant à la machine comment exécuter toutes les étapes nécessaires pour résoudre le problème posé ; de la part de l'ordinateur, aucun apprentissage n'est nécessaire. Pour des tâches plus avancées, il peut être difficile pour un humain de créer manuellement les algorithmes nécessaires. En pratique, il peut s'avérer plus efficace d'aider la machine à développer son propre algorithme, plutôt que de demander à des programmeurs humains de spécifier chaque étape nécessaire. [7]

La discipline de l'apprentissage automatique utilise diverses approches pour apprendre aux ordinateurs à accomplir des tâches pour lesquelles aucun algorithme pleinement satisfaisant n'est disponible. Dans les cas où un grand nombre de réponses potentielles existent, une approche consiste à étiqueter certaines des réponses correctes comme valides. Cela peut ensuite être utilisé comme données d'apprentissage pour l'ordinateur afin d'améliorer le ou les algorithmes qu'il utilise pour déterminer les réponses correctes. Par exemple, pour former un système à la tâche de reconnaissance de caractères numériques, l' ensemble de données MNIST de chiffres manuscrits a souvent été utilisé. [7]

Histoire et relations avec d'autres domaines

Le terme machine learning a été inventé en 1959 par Arthur Samuel , un IBMer américain et pionnier dans le domaine des jeux informatiques et de l'intelligence artificielle . [8] [9] Un livre représentatif de la recherche sur l'apprentissage automatique au cours des années 1960 était le livre de Nilsson sur les machines d'apprentissage, traitant principalement de l'apprentissage automatique pour la classification des modèles. [10] L' intérêt lié à la reconnaissance des formes s'est poursuivi jusque dans les années 1970, comme décrit par Duda et Hart en 1973. [11] En 1981, un rapport a été publié sur l'utilisation de stratégies d'enseignement pour qu'un réseau de neuronesapprend à reconnaître 40 caractères (26 lettres, 10 chiffres et 4 symboles spéciaux) à partir d'un terminal informatique. [12]

Tom M. Mitchell a fourni une définition plus formelle et largement citée des algorithmes étudiés dans le domaine de l'apprentissage automatique : « On dit qu'un programme informatique apprend de l'expérience E par rapport à une classe de tâches T et mesure la performance P si sa performance aux tâches dans T , tel que mesuré par P , s'améliore avec l'expérience E ." [13] Cette définition des tâches dans lesquelles le machine learning est concerné propose une définition fondamentalement opérationnelle plutôt que de définir le champ en termes cognitifs. Cela fait suite à la proposition d' Alan Turing dans son article " Computing Machinery and Intelligence", dans laquelle la question " Les machines peuvent-elles penser ? " est remplacée par la question " Les machines peuvent-elles faire ce que nous (en tant qu'entités pensantes) pouvons faire ? ". [14]

L'apprentissage automatique moderne a deux objectifs, l'un est de classer les données sur la base de modèles qui ont été développés, l'autre objectif est de faire des prédictions pour les résultats futurs sur la base de ces modèles. Un algorithme hypothétique spécifique à la classification des données peut utiliser la vision par ordinateur des grains de beauté couplée à un apprentissage supervisé afin de l'entraîner à classer les grains de beauté cancéreux. Alors que, un algorithme d'apprentissage automatique pour la négociation d'actions peut informer le commerçant des futures prédictions potentielles. [15]

Intelligence artificielle

L'apprentissage automatique comme sous-domaine de l'IA [16]
Une partie de l'apprentissage automatique en tant que sous-domaine de l'IA ou une partie de l'IA en tant que sous-domaine de l'apprentissage automatique [17]

En tant qu'entreprise scientifique, l'apprentissage automatique est né de la quête de l'intelligence artificielle. Au début de l'IA en tant que discipline universitaire , certains chercheurs souhaitaient que les machines apprennent à partir des données. Ils ont tenté d'aborder le problème par diverses méthodes symboliques, ainsi que par ce qu'on appelait alors les « réseaux de neurones » ; il s'agissait principalement de perceptrons et d' autres modèles qui se sont révélés plus tard être des réinventions des modèles linéaires généralisés de statistiques. [18] Le raisonnement probabiliste a également été utilisé, en particulier dans le diagnostic médical automatisé . [19] : 488

Cependant, l'accent mis de plus en plus sur l' approche logique basée sur les connaissances a provoqué un fossé entre l'IA et l'apprentissage automatique. Les systèmes probabilistes étaient en proie à des problèmes théoriques et pratiques d'acquisition et de représentation des données. [19] : 488 En 1980, les systèmes experts en étaient venus à dominer l'IA et les statistiques n'étaient plus à la mode. [20] Les travaux sur l'apprentissage symbolique/basé sur la connaissance se sont poursuivis au sein de l'IA, conduisant à la programmation logique inductive , mais la ligne de recherche plus statistique était désormais en dehors du domaine de l'IA proprement dite, dans la reconnaissance de formes et la recherche d'informations . [19] : 708-710 ; 755La recherche sur les réseaux de neurones avait été abandonnée par l'IA et l' informatique à la même époque. Cette ligne a également été poursuivie en dehors du domaine de l'IA/CS, en tant que " connexionnisme ", par des chercheurs d'autres disciplines, notamment Hopfield , Rumelhart et Hinton . Leur principal succès est venu au milieu des années 1980 avec la réinvention de la rétropropagation . [19] : 25

L'apprentissage automatique (ML), réorganisé en un domaine distinct, a commencé à prospérer dans les années 1990. Le domaine a changé son objectif, passant de la réalisation de l'intelligence artificielle à la résolution de problèmes de nature pratique pouvant être résolus. Il s'est détourné des approches symboliques héritées de l'IA pour se tourner vers des méthodes et des modèles empruntés aux statistiques et à la théorie des probabilités . [20]

À partir de 2020, de nombreuses sources continuent d'affirmer que l'apprentissage automatique reste un sous-domaine de l'IA. [21] [22] [16] Le principal désaccord est de savoir si tout le ML fait partie de l'IA, car cela signifierait que toute personne utilisant le ML pourrait prétendre qu'elle utilise l'IA. D'autres pensent que tout le ML ne fait pas partie de l'IA [23] [24] [25] où seul un sous-ensemble « intelligent » du ML fait partie de l'IA. [26]

La question de savoir quelle est la différence entre le ML et l'IA est répondue par Judea Pearl dans The Book of Why . [27] En conséquence, le ML apprend et prédit sur la base d'observations passives, tandis que l'IA implique un agent interagissant avec l'environnement pour apprendre et prendre des mesures qui maximisent ses chances d'atteindre ses objectifs avec succès. [30]

Exploration de données

L'apprentissage automatique et l'exploration de données utilisent souvent les mêmes méthodes et se chevauchent de manière significative, mais alors que l'apprentissage automatique se concentre sur la prédiction, basée sur des propriétés connues tirées des données de formation, l'exploration de données se concentre sur la découverte de propriétés (précédemment) inconnues dans les données (c'est l'étape d'analyse de la découverte des connaissancesdans les bases de données). L'exploration de données utilise de nombreuses méthodes d'apprentissage automatique, mais avec des objectifs différents ; d'autre part, l'apprentissage automatique utilise également des méthodes d'exploration de données en tant qu'"apprentissage non supervisé" ou en tant qu'étape de prétraitement pour améliorer la précision de l'apprenant. Une grande partie de la confusion entre ces deux communautés de recherche (qui ont souvent des conférences et des revues distinctes, ECML PKDD étant une exception majeure) vient des hypothèses de base avec lesquelles elles travaillent : dans l'apprentissage automatique, les performances sont généralement évaluées en fonction de la capacité à reproduire des connaissances connues , tandis que dans la découverte de connaissances et l'exploration de données (KDD), la tâche clé est la découverte de connaissances auparavant inconnuesconnaissance. Évaluée par rapport aux connaissances connues, une méthode non informée (non supervisée) sera facilement surpassée par d'autres méthodes supervisées, tandis que dans une tâche KDD typique, les méthodes supervisées ne peuvent pas être utilisées en raison de l'indisponibilité des données d'apprentissage.

Optimisation

L'apprentissage automatique a également des liens étroits avec l' optimisation : de nombreux problèmes d'apprentissage sont formulés comme la minimisation d'une fonction de perte sur un ensemble d'exemples d'apprentissage. Les fonctions de perte expriment l'écart entre les prédictions du modèle en cours d'entraînement et les instances de problème réelles (par exemple, dans la classification, on veut attribuer une étiquette aux instances, et les modèles sont entraînés pour prédire correctement les étiquettes pré-attribuées d'un ensemble de exemples). [31]

Généralisation

La différence entre l'optimisation et l'apprentissage automatique découle de l'objectif de généralisation : alors que les algorithmes d'optimisation peuvent minimiser la perte sur un ensemble d'apprentissage, l'apprentissage automatique vise à minimiser la perte sur des échantillons invisibles. Caractériser la généralisation de divers algorithmes d'apprentissage est un sujet de recherche actif, en particulier pour les algorithmes d' apprentissage en profondeur .

Statistiques

L'apprentissage automatique et les statistiques sont des domaines étroitement liés en termes de méthodes, mais distincts dans leur objectif principal : les statistiques tirent des inférences de population à partir d'un échantillon , tandis que l'apprentissage automatique trouve des modèles prédictifs généralisables. [32] Selon Michael I. Jordan , les idées d'apprentissage automatique, des principes méthodologiques aux outils théoriques, ont une longue préhistoire en statistique. [33] Il a également suggéré le terme science des données comme un espace réservé pour appeler le champ global. [33]

Leo Breiman a distingué deux paradigmes de modélisation statistique : le modèle de données et le modèle algorithmique, [34] où « modèle algorithmique » désigne plus ou moins les algorithmes d'apprentissage automatique comme Random forest .

Certains statisticiens ont adopté des méthodes issues de l'apprentissage automatique, conduisant à un domaine combiné qu'ils appellent l'apprentissage statistique . [35]


Théorie

Un objectif central d'un apprenant est de généraliser à partir de son expérience. [4] [36] La généralisation dans ce contexte est la capacité d'une machine d'apprentissage à exécuter avec précision de nouveaux exemples/tâches inédits après avoir expérimenté un ensemble de données d'apprentissage. Les exemples d'apprentissage proviennent d'une distribution de probabilité généralement inconnue (considérée comme représentative de l'espace des occurrences) et l'apprenant doit construire un modèle général sur cet espace qui lui permette de produire des prédictions suffisamment précises dans de nouveaux cas.

L'analyse informatique des algorithmes d'apprentissage automatique et de leurs performances est une branche de l'informatique théorique connue sous le nom de théorie de l'apprentissage informatique . Parce que les ensembles d'apprentissage sont finis et que l'avenir est incertain, la théorie de l'apprentissage ne donne généralement pas de garanties de performance des algorithmes. Au lieu de cela, les limites probabilistes sur la performance sont assez courantes. La décomposition biais-variance est une façon de quantifier l' erreur de généralisation .

Pour les meilleures performances dans le contexte de la généralisation, la complexité de l'hypothèse doit correspondre à la complexité de la fonction sous-jacente aux données. Si l'hypothèse est moins complexe que la fonction, alors le modèle a sous-ajusté les données. Si la complexité du modèle augmente en réponse, alors l'erreur d'apprentissage diminue. Mais si l'hypothèse est trop complexe, alors le modèle est sujet au surajustement et la généralisation sera moins bonne. [37]

En plus des limites de performance, les théoriciens de l'apprentissage étudient la complexité temporelle et la faisabilité de l'apprentissage. Dans la théorie de l'apprentissage computationnel, un calcul est considéré comme faisable s'il peut être effectué en temps polynomial . Il existe deux types de résultats de complexité temporelle . Des résultats positifs montrent qu'une certaine classe de fonctions peut être apprise en temps polynomial. Des résultats négatifs montrent que certaines classes ne peuvent pas être apprises en temps polynomial.

Approches

Les approches d'apprentissage automatique sont traditionnellement divisées en trois grandes catégories, selon la nature du « signal » ou du « retour » disponible pour le système d'apprentissage :

  • Apprentissage supervisé : L'ordinateur est présenté avec des exemples d'entrées et leurs sorties souhaitées, donnés par un "enseignant", et le but est d'apprendre une règle générale qui mappe les entrées aux sorties.
  • Apprentissage non supervisé : Aucune étiquette n'est donnée à l'algorithme d'apprentissage, le laissant tout seul pour trouver une structure dans son entrée. L'apprentissage non supervisé peut être un objectif en soi (découvrir des modèles cachés dans les données) ou un moyen d'atteindre une fin ( apprentissage des fonctionnalités ).
  • Apprentissage par renforcement : Un programme informatique interagit avec un environnement dynamique dans lequel il doit réaliser un certain objectif (comme conduire un véhicule ou jouer à un jeu contre un adversaire). Au fur et à mesure qu'il navigue dans son espace de problèmes, le programme reçoit des commentaires analogues aux récompenses, qu'il essaie de maximiser. [4]

Apprentissage supervisé

Une machine à vecteurs de support est un modèle d'apprentissage supervisé qui divise les données en régions séparées par une frontière linéaire . Ici, la limite linéaire sépare les cercles noirs des blancs.

Les algorithmes d'apprentissage supervisé construisent un modèle mathématique d'un ensemble de données qui contient à la fois les entrées et les sorties souhaitées. [38] Les données sont appelées données d'apprentissage et consistent en un ensemble d'exemples d'apprentissage. Chaque exemple d'apprentissage possède une ou plusieurs entrées et la sortie souhaitée, également appelée signal de supervision. Dans le modèle mathématique, chaque exemple d'apprentissage est représenté par un tableau ou un vecteur, parfois appelé vecteur de caractéristiques, et les données d'apprentissage sont représentées par une matrice . Grâce à l' optimisation itérative d'une fonction objectif , les algorithmes d'apprentissage supervisé apprennent une fonction qui peut être utilisée pour prédire la sortie associée à de nouvelles entrées. [39]Une fonction optimale permettra à l'algorithme de déterminer correctement la sortie pour les entrées qui ne faisaient pas partie des données d'apprentissage. On dit qu'un algorithme qui améliore la précision de ses sorties ou de ses prédictions au fil du temps a appris à effectuer cette tâche. [13]

Les types d'algorithmes d'apprentissage supervisé comprennent l' apprentissage actif , la classification et la régression . [40] Les algorithmes de classification sont utilisés lorsque les sorties sont restreintes à un ensemble limité de valeurs, et les algorithmes de régression sont utilisés lorsque les sorties peuvent avoir n'importe quelle valeur numérique dans une plage. Par exemple, pour un algorithme de classification qui filtre les e-mails, l'entrée serait un e-mail entrant et la sortie serait le nom du dossier dans lequel archiver l'e-mail.

L'apprentissage par similarité est un domaine d'apprentissage automatique supervisé étroitement lié à la régression et à la classification, mais l'objectif est d'apprendre à partir d'exemples à l'aide d'une fonction de similarité qui mesure à quel point deux objets sont similaires ou liés. Il a des applications dans le classement , les systèmes de recommandation , le suivi de l'identité visuelle, la vérification faciale et la vérification du locuteur.

Apprentissage non supervisé

Les algorithmes d'apprentissage non supervisé prennent un ensemble de données qui ne contient que des entrées et trouvent une structure dans les données, comme le regroupement ou le regroupement de points de données. Les algorithmes apprennent donc à partir de données de test qui n'ont pas été étiquetées, classées ou catégorisées. Au lieu de répondre aux commentaires, les algorithmes d'apprentissage non supervisé identifient les points communs dans les données et réagissent en fonction de la présence ou de l'absence de ces points communs dans chaque nouvelle donnée. Une application centrale de l'apprentissage non supervisé est dans le domaine de l' estimation de la densité en statistique , comme la recherche de la fonction de densité de probabilité . [41] Bien que l'apprentissage non supervisé englobe d'autres domaines impliquant le résumé et l'explication des caractéristiques des données.

L'analyse de cluster est l'affectation d'un ensemble d'observations en sous-ensembles (appelés clusters ) de sorte que les observations au sein du même cluster soient similaires selon un ou plusieurs critères prédéfinis, tandis que les observations tirées de différents clusters sont dissemblables. Différentes techniques de clustering émettent des hypothèses différentes sur la structure des données, souvent définies par une métrique de similarité et évaluée, par exemple, par la compacité interne , ou la similitude entre les membres d'un même cluster, et la séparation , la différence entre les clusters. D'autres méthodes sont basées sur la densité estimée et la connectivité graphique .

Apprentissage semi-supervisé

L'apprentissage semi-supervisé se situe entre l'apprentissage non supervisé (sans aucune donnée d'entraînement étiquetée) et l' apprentissage supervisé (avec des données d'entraînement complètement étiquetées). Certains exemples de formation manquent d'étiquettes de formation, mais de nombreux chercheurs en apprentissage automatique ont découvert que les données non étiquetées, lorsqu'elles sont utilisées avec une petite quantité de données étiquetées, peuvent produire une amélioration considérable de la précision de l'apprentissage.

Dans l' apprentissage faiblement supervisé , les étiquettes d'apprentissage sont bruyantes, limitées ou imprécises ; cependant, ces étiquettes sont souvent moins chères à obtenir, ce qui entraîne des ensembles d'apprentissage efficaces plus importants. [42]

Apprentissage par renforcement

L'apprentissage par renforcement est un domaine de l'apprentissage automatique qui concerne la façon dont les agents logiciels doivent entreprendre des actions dans un environnement afin de maximiser une certaine notion de récompense cumulative. En raison de sa généralité, le domaine est étudié dans de nombreuses autres disciplines, telles que la théorie des jeux , la théorie du contrôle , la recherche opérationnelle , la théorie de l'information , l' optimisation basée sur la simulation , les systèmes multi-agents , l'intelligence en essaim , les statistiques et les algorithmes génétiques . Dans l'apprentissage automatique, l'environnement est généralement représenté comme un processus de décision de Markov(MDP). De nombreux algorithmes d'apprentissage par renforcement utilisent des techniques de programmation dynamique . [43] Les algorithmes d'apprentissage par renforcement ne supposent pas la connaissance d'un modèle mathématique exact du MDP et sont utilisés lorsque les modèles exacts sont infaisables. Les algorithmes d'apprentissage par renforcement sont utilisés dans les véhicules autonomes ou pour apprendre à jouer à un jeu contre un adversaire humain.

Réduction de la dimensionnalité

La réduction de dimensionnalité est un processus de réduction du nombre de variables aléatoires considérées en obtenant un ensemble de variables principales. [44] En d'autres termes, il s'agit d'un processus de réduction de la dimension de votre ensemble de fonctionnalités, également appelé nombre de fonctionnalités. La plupart des techniques de réduction de dimensionnalité peuvent être considérées comme une élimination ou une extraction de caractéristiques. L'analyse en composantes principales est l'une des méthodes populaires de réduction de la dimensionnalité.

  • Analyse en Composantes Principales (ACP)

L'ACP implique de changer des données de dimension supérieure (par exemple, 3D) vers un espace plus petit (par exemple, 2D). Cela se traduit par une dimension de données plus petite (2D au lieu de 3D), tout en conservant toutes les variables d'origine dans le modèle sans modifier les données. [45]

Autres types

D'autres approches ont été développées qui ne s'intègrent pas parfaitement dans cette triple catégorisation, et parfois plusieurs sont utilisées par le même système d'apprentissage automatique. Par exemple , la modélisation de sujets , le méta-apprentissage . [46]

À partir de 2020, l'apprentissage en profondeur est devenu l'approche dominante pour de nombreux travaux en cours dans le domaine de l'apprentissage automatique. [7]

Auto-apprentissage

L'auto-apprentissage en tant que paradigme d'apprentissage automatique a été introduit en 1982 avec un réseau de neurones capable d'auto-apprentissage nommé crossbar adaptive array (CAA). [47] Il s'agit d'un apprentissage sans récompenses externes et sans conseils externes de l'enseignant. L'algorithme d'auto-apprentissage CAA calcule, de manière transversale, à la fois les décisions concernant les actions et les émotions (sentiments) concernant les situations de conséquence. Le système est piloté par l'interaction entre la cognition et l'émotion. [48] L'algorithme d'auto-apprentissage met à jour une matrice mémoire W =||w(a,s)|| de telle sorte qu'à chaque itération exécute la routine d'apprentissage automatique suivante :

 Dans la situation s effectuer une action a ;
 Recevoir la situation de conséquence s';
 Calculer l'émotion d'être dans la situation de conséquence v(s');
 Mettre à jour la mémoire crossbar w'(a,s) = w(a,s) + v(s').

C'est un système avec une seule entrée, situation s, et une seule sortie, action (ou comportement) a. Il n'y a ni un apport de renforcement séparé ni un apport de conseil de l'environnement. La valeur rétropropagée (renforcement secondaire) est l'émotion envers la situation de conséquence. Le CAA existe dans deux environnements, l'un est l'environnement comportemental où il se comporte, et l'autre est l'environnement génétique, d'où il reçoit initialement et une seule fois des émotions initiales sur des situations à rencontrer dans l'environnement comportemental. Après avoir reçu le vecteur du génome (espèce) de l'environnement génétique, le CAA apprend un comportement de recherche d'objectifs, dans un environnement qui contient à la fois des situations souhaitables et indésirables. [49]

Apprentissage des fonctionnalités

Plusieurs algorithmes d'apprentissage visent à découvrir de meilleures représentations des entrées fournies lors de la formation. [50] Les exemples classiques incluent l' analyse en composantes principales et l'analyse par grappes. Les algorithmes d'apprentissage de caractéristiques, également appelés algorithmes d'apprentissage de représentation, tentent souvent de préserver les informations dans leur entrée, mais aussi de les transformer d'une manière qui les rend utiles, souvent comme étape de pré-traitement avant d'effectuer une classification ou des prédictions. Cette technique permet de reconstruire les entrées provenant de la distribution génératrice de données inconnue, tout en n'étant pas nécessairement fidèle à des configurations invraisemblables sous cette distribution. Cela remplace l' ingénierie manuelle des fonctionnalités, et permet à une machine à la fois d'apprendre les fonctionnalités et de les utiliser pour effectuer une tâche spécifique.

L'apprentissage des fonctionnalités peut être supervisé ou non supervisé. Dans l'apprentissage supervisé des caractéristiques, les caractéristiques sont apprises à l'aide de données d'entrée étiquetées. Les exemples incluent les réseaux de neurones artificiels , les perceptrons multicouches et l' apprentissage supervisé par dictionnaire . Dans l'apprentissage de caractéristiques non supervisé, les caractéristiques sont apprises avec des données d'entrée non étiquetées. Les exemples incluent l'apprentissage par dictionnaire, l' analyse de composants indépendants , les auto - encodeurs , la factorisation matricielle [51] et diverses formes de clustering . [52] [53] [54]

Les algorithmes d' apprentissage multiple tentent de le faire sous la contrainte que la représentation apprise est de faible dimension. Les algorithmes de codage clairsemé tentent de le faire sous la contrainte que la représentation apprise est clairsemée, ce qui signifie que le modèle mathématique a de nombreux zéros. Les algorithmes d' apprentissage de sous-espace multilinéaire visent à apprendre des représentations de faible dimension directement à partir de représentations tensorielles pour des données multidimensionnelles, sans les remodeler en vecteurs de dimension supérieure. [55] Apprentissage en profondeurles algorithmes découvrent plusieurs niveaux de représentation, ou une hiérarchie de caractéristiques, avec des caractéristiques de niveau supérieur et plus abstraites définies en termes de (ou générant) des caractéristiques de niveau inférieur. Il a été avancé qu'une machine intelligente est une machine qui apprend une représentation qui démêle les facteurs de variation sous-jacents qui expliquent les données observées. [56]

L'apprentissage des fonctionnalités est motivé par le fait que les tâches d'apprentissage automatique telles que la classification nécessitent souvent une entrée qui est mathématiquement et informatiquement pratique à traiter. Cependant, les données du monde réel telles que les images, les vidéos et les données sensorielles n'ont pas cédé aux tentatives de définition algorithmique de caractéristiques spécifiques. Une alternative consiste à découvrir de telles caractéristiques ou représentations par examen, sans recourir à des algorithmes explicites.

Apprentissage du dictionnaire clairsemé

L'apprentissage par dictionnaire clairsemé est une méthode d'apprentissage de caractéristiques où un exemple d'apprentissage est représenté comme une combinaison linéaire de fonctions de base , et est supposé être une matrice clairsemée . La méthode est fortement NP-difficile et difficile à résoudre approximativement. [57] Une méthode heuristique populaire pour l'apprentissage de dictionnaire clairsemé est le K-SVDalgorithme. L'apprentissage par dictionnaire clairsemé a été appliqué dans plusieurs contextes. En classification, le problème est de déterminer à quelle classe appartient un exemple d'apprentissage inédit. Pour un dictionnaire où chaque classe a déjà été construite, un nouvel exemple d'apprentissage est associé à la classe la mieux représentée par le dictionnaire correspondant. L'apprentissage par dictionnaire clairsemé a également été appliqué au débruitage d'images . L'idée clé est qu'un patch d'image propre peut être représenté de manière clairsemée par un dictionnaire d'images, mais pas le bruit. [58]

Détection d'anomalies

Dans l'exploration de données , la détection d'anomalies, également appelée détection de valeurs aberrantes, est l'identification d'éléments, d'événements ou d'observations rares qui soulèvent des soupçons en différant de manière significative de la majorité des données. [59] Typiquement, les articles anormaux représentent un problème tel qu'une fraude bancaire , un défaut structurel, des problèmes médicaux ou des erreurs dans un texte. Les anomalies sont appelées valeurs aberrantes , nouveautés, bruits, écarts et exceptions. [60]

En particulier, dans le cadre d'abus et de détection d'intrusions réseaux, les objets intéressants ne sont souvent pas des objets rares, mais des sursauts d'inactivité inattendus. Ce modèle n'adhère pas à la définition statistique commune d'une valeur aberrante en tant qu'objet rare, et de nombreuses méthodes de détection de valeurs aberrantes (en particulier, les algorithmes non supervisés) échoueront sur de telles données à moins qu'elles n'aient été agrégées de manière appropriée. Au lieu de cela, un algorithme d'analyse de cluster peut être capable de détecter les micro-clusters formés par ces modèles. [61]

Il existe trois grandes catégories de techniques de détection d'anomalies. [62] Les techniques de détection d'anomalies non supervisées détectent les anomalies dans un ensemble de données de test non étiqueté en supposant que la majorité des instances de l'ensemble de données sont normales, en recherchant les instances qui semblent correspondre le moins au reste de l'ensemble de données. Les techniques de détection d'anomalies supervisées nécessitent un ensemble de données qui a été étiqueté comme "normal" et "anormal" et implique la formation d'un classificateur (la principale différence avec de nombreux autres problèmes de classification statistique est la nature intrinsèquement déséquilibrée de la détection des valeurs aberrantes). Des techniques de détection d'anomalies semi-supervisées construisent un modèle représentant un comportement normal à partir d'un ensemble de données d'apprentissage normal donné, puis testent la probabilité qu'une instance de test soit générée par le modèle.

Apprentissage des robots

En robotique développementale , les algorithmes d' apprentissage robotique génèrent leurs propres séquences d'expériences d'apprentissage, également connues sous le nom de programme, pour acquérir de manière cumulative de nouvelles compétences grâce à l'exploration autoguidée et à l'interaction sociale avec les humains. Ces robots utilisent des mécanismes de guidage tels que l'apprentissage actif, la maturation, les synergies motrices et l'imitation.

Règles d'association

L'apprentissage des règles d'association est une méthode d' apprentissage automatique basée sur des règles pour découvrir les relations entre les variables dans les grandes bases de données. Il est destiné à identifier les règles fortes découvertes dans les bases de données en utilisant une certaine mesure de "l'intérêt". [63]

L'apprentissage automatique basé sur des règles est un terme général pour toute méthode d'apprentissage automatique qui identifie, apprend ou fait évoluer des « règles » pour stocker, manipuler ou appliquer des connaissances. La caractéristique déterminante d'un algorithme d'apprentissage automatique basé sur des règles est l'identification et l'utilisation d'un ensemble de règles relationnelles qui représentent collectivement les connaissances capturées par le système. Cela contraste avec d'autres algorithmes d'apprentissage automatique qui identifient généralement un modèle singulier qui peut être appliqué universellement à n'importe quelle instance afin de faire une prédiction. [64] Les approches d'apprentissage automatique basées sur des règles incluent l' apprentissage des systèmes de classification , l'apprentissage des règles d'association et les systèmes immunitaires artificiels .

Sur la base du concept de règles fortes, Rakesh Agrawal , Tomasz Imieliński et Arun Swami ont introduit des règles d'association pour découvrir les régularités entre les produits dans les données de transaction à grande échelle enregistrées par les systèmes de point de vente (POS) dans les supermarchés. [65] Par exemple, la règletrouvé dans les données de vente d'un supermarché indiquerait que si un client achète des oignons et des pommes de terre ensemble, il est susceptible d'acheter également de la viande de hamburger. Ces informations peuvent servir de base à des décisions concernant des activités de marketing telles que des prix promotionnels ou des placements de produits . En plus de l'analyse du panier de consommation , les règles d'association sont aujourd'hui utilisées dans des domaines d'application tels que l' exploration de l'utilisation du Web , la détection d'intrusion , la production continue et la bioinformatique . Contrairement à l' exploration de séquences , l'apprentissage des règles d'association ne prend généralement pas en compte l'ordre des éléments, que ce soit au sein d'une transaction ou entre les transactions.

Les systèmes de classification d'apprentissage (LCS) sont une famille d'algorithmes d'apprentissage automatique basés sur des règles qui combinent un composant de découverte, généralement un algorithme génétique , avec un composant d'apprentissage, réalisant soit un apprentissage supervisé , soit un apprentissage par renforcement , soit un apprentissage non supervisé . Ils cherchent à identifier un ensemble de règles dépendantes du contexte qui stockent et appliquent collectivement les connaissances de manière fragmentée afin de faire des prédictions. [66]

La programmation logique inductive (ILP) est une approche de l'apprentissage des règles utilisant la programmation logique comme une représentation uniforme pour les exemples d'entrée, les connaissances de base et les hypothèses. Étant donné un codage des connaissances de base connues et un ensemble d'exemples représentés comme une base de données logique de faits, un système ILP dérivera un programme logique hypothétique qui implique tous les exemples positifs et aucun exemple négatif. La programmation inductive est un domaine connexe qui considère tout type de langage de programmation pour représenter des hypothèses (et pas seulement la programmation logique), tels que les programmes fonctionnels .

La programmation logique inductive est particulièrement utile en bioinformatique et en traitement du langage naturel . Gordon Plotkin et Ehud Shapiro ont jeté les bases théoriques initiales de l'apprentissage automatique inductif dans un cadre logique. [67] [68] [69] Shapiro a construit leur première mise en œuvre (Modèle Inference System) en 1981 : un programme Prolog qui inférait inductivement des programmes logiques à partir d'exemples positifs et négatifs. [70] Le terme inductif renvoie ici à l' induction philosophique , suggérant une théorie pour expliquer les faits observés, plutôt que l'induction mathématique, prouvant une propriété pour tous les membres d'un ensemble bien ordonné.

Modèles

L'apprentissage automatique implique la création d'un modèle , qui est entraîné sur certaines données d'entraînement, puis peut traiter des données supplémentaires pour faire des prédictions. Divers types de modèles ont été utilisés et étudiés pour les systèmes d'apprentissage automatique.

Réseaux de neurones artificiels

Un réseau de neurones artificiels est un groupe de nœuds interconnectés, semblable au vaste réseau de neurones d'un cerveau . Ici, chaque nœud circulaire représente un neurone artificiel et une flèche représente une connexion entre la sortie d'un neurone artificiel et l'entrée d'un autre.

Les réseaux de neurones artificiels (ANN), ou systèmes connexionnistes , sont des systèmes informatiques vaguement inspirés des réseaux de neurones biologiques qui constituent les cerveaux des animaux . De tels systèmes « apprennent » à effectuer des tâches en considérant des exemples, généralement sans être programmés avec des règles spécifiques aux tâches.

Un ANN est un modèle basé sur une collection d'unités ou de nœuds connectés appelés « neurones artificiels », qui modélisent vaguement les neurones d'un cerveau biologique . Chaque connexion, comme les synapses d'un cerveau biologique , peut transmettre une information, un "signal", d'un neurone artificiel à un autre. Un neurone artificiel qui reçoit un signal peut le traiter puis signaler des neurones artificiels supplémentaires qui lui sont connectés. Dans les implémentations ANN courantes, le signal à une connexion entre des neurones artificiels est un nombre réel, et la sortie de chaque neurone artificiel est calculée par une fonction non linéaire de la somme de ses entrées. Les connexions entre les neurones artificiels sont appelées « bords ». Les neurones et les bords artificiels ont généralement un poids qui s'ajuste au fur et à mesure de l'apprentissage. Le poids augmente ou diminue la force du signal à une connexion. Les neurones artificiels peuvent avoir un seuil tel que le signal n'est envoyé que si le signal agrégé franchit ce seuil. En règle générale, les neurones artificiels sont agrégés en couches. Différentes couches peuvent effectuer différents types de transformations sur leurs entrées. Les signaux voyagent de la première couche (la couche d'entrée) à la dernière couche (la couche de sortie), éventuellement après avoir traversé les couches plusieurs fois.

L'objectif initial de l'approche ANN était de résoudre les problèmes de la même manière qu'un cerveau humain le ferait. Cependant, au fil du temps, l'attention s'est portée sur l'exécution de tâches spécifiques, entraînant des écarts par rapport à la biologie . Les réseaux de neurones artificiels ont été utilisés pour diverses tâches, notamment la vision par ordinateur , la reconnaissance vocale , la traduction automatique , le filtrage des réseaux sociaux , les jeux de société et vidéo et le diagnostic médical .

L'apprentissage en profondeur consiste en plusieurs couches cachées dans un réseau de neurones artificiels. Cette approche tente de modéliser la façon dont le cerveau humain transforme la lumière et le son en vision et en audition. Certaines applications réussies de l'apprentissage en profondeur sont la vision par ordinateur et la reconnaissance vocale . [71]

Arbres de décision

L'apprentissage par arbre de décision utilise un arbre de décision comme modèle prédictif pour passer des observations sur un élément (représenté dans les branches) aux conclusions sur la valeur cible de l'élément (représentée dans les feuilles). C'est l'une des approches de modélisation prédictive utilisées dans les statistiques, l'exploration de données et l'apprentissage automatique. Les modèles d'arbre où la variable cible peut prendre un ensemble discret de valeurs sont appelés arbres de classification ; dans ces arborescences, les feuilles représentent les étiquettes de classe et les branches représentent les conjonctions de caractéristiques qui mènent à ces étiquettes de classe. Arbres de décision où la variable cible peut prendre des valeurs continues (généralement des nombres réels) sont appelés arbres de régression. Dans l'analyse décisionnelle, un arbre de décision peut être utilisé pour représenter visuellement et explicitement les décisions et la prise de décision . Dans l'exploration de données, un arbre de décision décrit les données, mais l'arbre de classification résultant peut être une entrée pour la prise de décision.

Machines à vecteurs de support

Les machines à vecteurs de support (SVM), également connues sous le nom de réseaux à vecteurs de support, sont un ensemble de méthodes d' apprentissage supervisé associées utilisées pour la classification et la régression. Étant donné un ensemble d'exemples d'entraînement, chacun marqué comme appartenant à l'une des deux catégories, un algorithme d'entraînement SVM construit un modèle qui prédit si un nouvel exemple appartient à une catégorie ou à l'autre. [72] Un algorithme d'apprentissage SVM est un classificateur linéaire non probabiliste , binaire , bien que des méthodes telles que la mise à l' échelle de Platt existent pour utiliser SVM dans un cadre de classification probabiliste. En plus d'effectuer une classification linéaire, les SVM peuvent effectuer efficacement une classification non linéaire en utilisant ce qu'on appelle leastuce du noyau , mappant implicitement leurs entrées dans des espaces de caractéristiques de grande dimension.

Illustration de la régression linéaire sur un ensemble de données.

Analyse de régression

L'analyse de régression englobe une grande variété de méthodes statistiques pour estimer la relation entre les variables d'entrée et leurs caractéristiques associées. Sa forme la plus courante est la régression linéaire , où une seule ligne est tracée pour s'adapter au mieux aux données données selon un critère mathématique tel que les moindres carrés ordinaires . Ce dernier est souvent étendu par des méthodes de régularisation (mathématiques) pour atténuer le surapprentissage et les biais, comme dans la régression de crête . Lorsqu'ils traitent des problèmes non linéaires, les modèles de référence incluent la régression polynomiale (par exemple, utilisée pour l'ajustement de la ligne de tendance dans Microsoft Excel [73] ), la régression logistique (souvent utilisée dansclassification statistique ) ou même la régression du noyau , qui introduit la non-linéarité en profitant de l' astuce du noyau pour mapper implicitement les variables d'entrée à un espace de dimension supérieure.

Réseaux bayésiens

Un simple réseau bayésien. La pluie influence si l'arroseur est activé, et la pluie et l'arroseur influencent si l'herbe est mouillée.

Un réseau bayésien, un réseau de croyances ou un modèle graphique acyclique dirigé est un modèle graphique probabiliste qui représente un ensemble de variables aléatoires et leur indépendance conditionnelle avec un graphe acyclique dirigé (DAG). Par exemple, un réseau bayésien pourrait représenter les relations probabilistes entre les maladies et les symptômes. Compte tenu des symptômes, le réseau peut être utilisé pour calculer les probabilités de présence de diverses maladies. Il existe des algorithmes efficaces qui effectuent l' inférence et l'apprentissage. Les réseaux bayésiens qui modélisent des séquences de variables, comme des signaux vocaux ou des séquences de protéines , sont appelés réseaux bayésiens dynamiques. Les généralisations des réseaux bayésiens qui peuvent représenter et résoudre des problèmes de décision sous incertitude sont appelées diagrammes d'influence .

Algorithmes génétiques

Un algorithme génétique (AG) est un algorithme de recherche et une technique heuristique qui imite le processus de sélection naturelle , en utilisant des méthodes telles que la mutation et le croisement pour générer de nouveaux génotypes dans l'espoir de trouver de bonnes solutions à un problème donné. En apprentissage automatique, les algorithmes génétiques ont été utilisés dans les années 1980 et 1990. [74] [75] À l'inverse, les techniques d'apprentissage automatique ont été utilisées pour améliorer les performances des algorithmes génétiques et évolutifs . [76]

Modèles d'entraînement

Habituellement, les modèles d'apprentissage automatique nécessitent beaucoup de données pour fonctionner correctement. Habituellement, lors de l'entraînement d'un modèle d'apprentissage automatique, il faut collecter un grand échantillon représentatif de données à partir d'un ensemble d'entraînement. Les données de l'ensemble d'apprentissage peuvent être aussi variées qu'un corpus de texte, une collection d'images et des données collectées auprès d'utilisateurs individuels d'un service. Le surapprentissage est quelque chose à surveiller lors de la formation d'un modèle d'apprentissage automatique. Les modèles entraînés dérivés de données biaisées peuvent entraîner des prédictions faussées ou indésirables. Le biais algorithmique est un résultat potentiel de données qui ne sont pas entièrement préparées pour la formation.

Apprentissage fédéré

L'apprentissage fédéré est une forme adaptée d' intelligence artificielle distribuée pour former des modèles d'apprentissage automatique qui décentralise le processus de formation, permettant de préserver la confidentialité des utilisateurs en n'ayant pas besoin d'envoyer leurs données à un serveur centralisé. Cela augmente également l'efficacité en décentralisant le processus de formation sur de nombreux appareils. Par exemple, Gboard utilise l'apprentissage automatique fédéré pour former des modèles de prédiction de requête de recherche sur les téléphones mobiles des utilisateurs sans avoir à renvoyer des recherches individuelles à Google . [77]

Applications

Il existe de nombreuses applications pour l'apprentissage automatique, notamment :

En 2006, le fournisseur de services multimédias Netflix a organisé le premier concours « Netflix Prize » pour trouver un programme permettant de mieux prédire les préférences des utilisateurs et d'améliorer la précision de son algorithme de recommandation de films Cinematch existant d'au moins 10 %. Une équipe conjointe composée de chercheurs d' AT&T Labs -Research en collaboration avec les équipes Big Chaos et Pragmatic Theory a construit un modèle d'ensemble pour remporter le Grand Prix 2009 d'un million de dollars. [79] Peu de temps après l'attribution du prix, Netflix s'est rendu compte que les notes des téléspectateurs n'étaient pas les meilleurs indicateurs de leurs habitudes de visionnage (« tout est une recommandation ») et ils ont modifié leur moteur de recommandation en conséquence. [80]En 2010, le Wall Street Journal a écrit sur la société Rebellion Research et son utilisation de l'apprentissage automatique pour prédire la crise financière. [81] En 2012, le co-fondateur de Sun Microsystems , Vinod Khosla , a prédit que 80% des emplois de médecins seraient perdus au cours des deux prochaines décennies à cause d'un logiciel de diagnostic médical d'apprentissage automatique automatisé. [82] En 2014, il a été signalé qu'un algorithme d'apprentissage automatique avait été appliqué dans le domaine de l'histoire de l'art pour étudier les peintures d'art et qu'il aurait pu révéler des influences auparavant non reconnues parmi les artistes. [83] En 2019, Springer Nature a publié le premier livre de recherche créé à l'aide de l'apprentissage automatique. [84]En 2020, la technologie d'apprentissage automatique a été utilisée pour aider à établir des diagnostics et aider les chercheurs à développer un remède contre le COVID-19. [85] L' apprentissage automatique est récemment appliqué pour prédire le comportement écologique de l'être humain. [86] Récemment, la technologie d'apprentissage automatique est également appliquée pour optimiser les performances et le comportement thermique du smartphone en fonction de l'interaction de l'utilisateur avec le téléphone. [87] [88]

Limites

Bien que l'apprentissage automatique ait été transformateur dans certains domaines, les programmes d'apprentissage automatique ne parviennent souvent pas à fournir les résultats escomptés. [89] [90] [91] Les raisons à cela sont nombreuses : manque de données (adaptées), manque d'accès aux données, biais de données, problèmes de confidentialité, tâches et algorithmes mal choisis, mauvais outils et personnes, manque de ressources, et les problèmes d'évaluation. [92]

En 2018, une voiture autonome d' Uber n'a pas réussi à détecter un piéton, qui a été tué dans une collision. [93] Les tentatives d'utilisation de l'apprentissage automatique dans les soins de santé avec le système IBM Watson ont échoué, même après des années et des milliards de dollars investis. [94] [95]

L'apprentissage automatique a été utilisé comme stratégie pour mettre à jour les preuves liées à la revue systématique et à l'augmentation du fardeau des examinateurs liée à la croissance de la littérature biomédicale. Bien qu'il se soit amélioré avec les ensembles de formation, il ne s'est pas encore suffisamment développé pour réduire la charge de travail sans limiter la sensibilité nécessaire pour les résultats de la recherche eux-mêmes. [96]

Biais

Les approches d'apprentissage automatique en particulier peuvent souffrir de différents biais de données. Un système d'apprentissage automatique formé spécifiquement sur les clients actuels peut ne pas être en mesure de prédire les besoins de nouveaux groupes de clients qui ne sont pas représentés dans les données de formation. Lorsqu'il est formé sur des données artificielles, l'apprentissage automatique est susceptible de détecter les biais constitutionnels et inconscients déjà présents dans la société. [97] Il a été démontré que les modèles de langage appris à partir des données contiennent des biais de type humain. [98] [99] Les systèmes d'apprentissage automatique utilisés pour l'évaluation du risque criminel se sont révélés biaisés contre les Noirs. [100] [101] En 2015, les photos de Google étiquetaient souvent les Noirs comme des gorilles, [102]et en 2018, cela n'était toujours pas bien résolu, mais Google utilisait toujours la solution de contournement pour supprimer tous les gorilles des données d'entraînement, et n'était donc pas du tout capable de reconnaître les vrais gorilles. [103] Des problèmes similaires avec la reconnaissance des personnes non blanches ont été trouvés dans de nombreux autres systèmes. [104] En 2016, Microsoft a testé un chatbot qui a appris de Twitter, et il a rapidement adopté un langage raciste et sexiste. [105] En raison de ces défis, l'utilisation efficace de l'apprentissage automatique peut prendre plus de temps à être adoptée dans d'autres domaines. [106] Souci d' équitéen apprentissage automatique, c'est-à-dire réduire les biais dans l'apprentissage automatique et propulser son utilisation pour le bien humain est de plus en plus exprimé par les scientifiques de l'intelligence artificielle, dont Fei-Fei Li , qui rappelle aux ingénieurs qu'« il n'y a rien d'artificiel dans l'IA... , il est créé par les gens et, plus important encore, il a un impact sur les gens. C'est un outil puissant que nous commençons tout juste à comprendre, et c'est une responsabilité profonde. " [107]

Évaluations de modèles

La classification des modèles d'apprentissage automatique peut être validée par des techniques d'estimation de la précision telles que la méthode de rétention , qui divise les données en un ensemble d'entraînement et de test (conventionnellement 2/3 d'ensemble d'entraînement et 1/3 de désignation d'ensemble de test) et évalue les performances du modèle d'entraînement sur le banc d'essai. En comparaison, la méthode de validation croisée K-fold divise aléatoirement les données en K sous-ensembles, puis K expériences sont réalisées chacune en considérant respectivement 1 sous-ensemble pour l'évaluation et les K-1 sous-ensembles restants pour l'apprentissage du modèle. En plus des méthodes d'exclusion et de validation croisée, bootstrap , qui échantillonne n instances avec remplacement à partir de l'ensemble de données, peut être utilisé pour évaluer la précision du modèle. [108]

En plus de l'exactitude globale, les investigateurs rapportent fréquemment la sensibilité et la spécificité signifiant respectivement le taux vrai positif (TPR) et le taux vrai négatif (TNR). De même, les enquêteurs rapportent parfois le taux de faux positifs (FPR) ainsi que le taux de faux négatifs (FNR). Cependant, ces taux sont des ratios qui ne révèlent pas leurs numérateurs et dénominateurs. La caractéristique totale de fonctionnement (TOC) est une méthode efficace pour exprimer la capacité diagnostique d'un modèle. TOC montre les numérateurs et les dénominateurs des taux mentionnés précédemment, donc TOC fournit plus d'informations que la caractéristique de fonctionnement du récepteur (ROC) couramment utilisée et la zone associée de ROC sous la courbe (AUC). [109]

Éthique

L'apprentissage automatique pose une foule de questions éthiques . Les systèmes qui sont entraînés sur des ensembles de données collectées avec des biais peuvent présenter ces biais lors de leur utilisation ( biais algorithmique ), numérisant ainsi les préjugés culturels. [110] Par exemple, en 1988, la Commission britannique pour l'égalité raciale a découvert que la faculté de médecine de St. George utilisait un programme informatique formé à partir des données du personnel d'admission précédent et que ce programme avait refusé près de 60 candidats qui se sont avérés être des femmes ou avaient des noms à consonance non européenne. [97] L' utilisation des données d'embauche d'une entreprise avec des politiques d'embauche racistes peut conduire à un système d'apprentissage automatique dupliquant le biais en notant les candidats par similitude avec les précédents candidats retenus. [111][112] La collecte responsable des données et la documentation des règles algorithmiques utilisées par un système sont donc une partie essentielle de l'apprentissage automatique.

L'IA peut être bien équipée pour prendre des décisions dans des domaines techniques, qui reposent fortement sur des données et des informations historiques. Ces décisions reposent sur l'objectivité et le raisonnement logique. [113] Parce que les langues humaines contiennent des préjugés, les machines entraînées sur des corpus linguistiques apprendront nécessairement aussi ces préjugés. [114] [115]

D'autres formes de défis éthiques, non liés à des préjugés personnels, sont observées dans les soins de santé. Les professionnels de la santé craignent que ces systèmes ne soient pas conçus dans l'intérêt du public mais comme des machines génératrices de revenus. [116] Cela est particulièrement vrai aux États-Unis où il existe un dilemme éthique de longue date consistant à améliorer les soins de santé, mais aussi à augmenter les profits. Par exemple, les algorithmes pourraient être conçus pour fournir aux patients des tests ou des médicaments inutiles dans lesquels les propriétaires propriétaires de l'algorithme détiennent des intérêts. Il est possible que l'apprentissage automatique dans les soins de santé fournisse aux professionnels un outil supplémentaire pour diagnostiquer, traiter et planifier les voies de rétablissement des patients, mais cela nécessite que ces biais soient atténués. [117]

Matériel

Depuis les années 2010, les progrès des algorithmes d'apprentissage automatique et du matériel informatique ont conduit à des méthodes plus efficaces pour former des réseaux de neurones profonds (un sous-domaine étroit particulier de l'apprentissage automatique) qui contiennent de nombreuses couches d'unités cachées non linéaires. [118] En 2019, les unités de traitement graphique ( GPU ), souvent avec des améliorations spécifiques à l'IA, avaient remplacé les CPU comme méthode dominante de formation à l'IA commerciale à grande échelle dans le cloud. [119] OpenAI a estimé le calcul matériel utilisé dans les plus grands projets d'apprentissage en profondeur d'AlexNet (2012) à AlphaZero (2017), et a constaté une augmentation de 300 000 fois de la quantité de calcul requise, avec une ligne de tendance de temps de doublement de 3,4 mois. [120] [121]

Logiciel

Les suites logicielles contenant une variété d'algorithmes d'apprentissage automatique sont les suivantes :

Logiciel libre et open source

Logiciel propriétaire avec des éditions gratuites et open source

Logiciel propriétaire

Journaux

Conférences

Voir aussi

Références

  1. ^ Mitchell, Tom (1997). Apprentissage automatique . New York : McGraw Hill. ISBN 0-07-042807-7. OCLC  36417892 .
  2. ^ La définition « sans être explicitement programmée » est souvent attribuée à Arthur Samuel , qui a inventé le terme « apprentissage automatique » en 1959, mais l'expression ne se trouve pas textuellement dans cette publication, et peut être une paraphrase apparue plus tard. Confer « Paraphrasant Arthur Samuel (1959), la question est : Comment les ordinateurs peuvent-ils apprendre à résoudre des problèmes sans être explicitement programmés ? à Koza, John R. ; Bennett, Forrest H.; André, David; Keane, Martin A. (1996). Conception automatisée de la topologie et du dimensionnement des circuits électriques analogiques à l'aide de la programmation génétique . L'intelligence artificielle dans la conception '96. Springer, Dordrecht. p. 151-170. doi : 10.1007/978-94-009-0279-4_9 .
  3. ^ Hu, J.; Niu, H.; Carrasco, J.; Lennox, B.; Arvin, F., " Exploration autonome multi-robots basée sur Voronoi dans des environnements inconnus via un apprentissage par renforcement approfondi " Transactions IEEE sur la technologie véhiculaire, 2020.
  4. ^ A b c évêque, CM (2006), la reconnaissance des formes et l' apprentissage machine , Springer, ISBN 978-0-387-31073-2
  5. ^ L' apprentissage automatique et la reconnaissance de formes "peuvent être considérés comme deux facettes du même domaine". [4] : vii
  6. ^ Friedman, Jérôme H. (1998). "Exploration de données et statistiques : quel est le lien ?". Informatique et Statistiques . 29 (1) : 3-9.
  7. ^ A b c Ethem Alpaydin (2020). Introduction à l'apprentissage automatique (quatrième édition). MIT . p. XIX, 1–3, 13–18. ISBN 978-0262043793.
  8. ^ Samuel, Arthur (1959). "Quelques études sur l'apprentissage automatique utilisant le jeu de dames". Revue IBM de recherche et développement . 3 (3) : 210-229. CiteSeerX 10.1.1.368.2254 . doi : 10.1147/rd.33.0210 . 
  9. ^ R. Kohavi et F. Provost, "Glossaire de termes," Machine Learning, vol. 30, non. 2-3, p. 271-274, 1998.
  10. ^ Nilsson N. Machines d'apprentissage, McGraw Hill, 1965.
  11. ^ Duda, R., Hart P. Reconnaissance de modèles et analyse de scène, Wiley Interscience, 1973
  12. ^ S. Bozinovski "L'espace d'enseignement: un concept de représentation pour la classification des modèles adaptatifs" COINS Technical Report No. 81-28, Computer and Information Science Department, University of Massachusetts at Amherst, MA, 1981. https://web.cs.umass .edu/publication/docs/1981/UM-CS-1981-028.pdf
  13. ^ un b Mitchell, T. (1997). Apprentissage automatique . Colline McGraw. p. 2. ISBN 978-0-07-042807-2.
  14. ^ Harnad, Stevan (2008), "Le jeu d'annotation : Sur Turing (1950) sur l'informatique, les machines et l'intelligence" , dans Epstein, Robert ; Peters, Grace (eds.), The Turing Test Sourcebook: Philosophical and Methodological Issues in the Quest for the Thinking Computer , Kluwer, pp. 23-66, ISBN 9781402067082
  15. ^ "Introduction à l'IA Partie 1" . Edzion . 2020-12-08 . Récupéré le 2020-12-09 .
  16. ^ un b "UNE RECHERCHE SCIENCE EMPIRIQUE SUR LA BIOINFORMATIQUE DANS L'APPRENTISSAGE MACHINE – Journal" . Récupéré le 28 octobre 2020 . Cite journal requires |journal= (help)
  17. ^ "rasbt/stat453-deep-learning-ss20" (PDF) . GitHub .
  18. ^ Sarle, Warren (1994). « Réseaux de neurones et modèles statistiques ». CiteSeerX 10.1.1.27.699 . 
  19. ^ A b c d Russell, Stuart ; Norvig, Peter (2003) [1995]. Intelligence artificielle : une approche moderne (2e éd.). Prentice Hall. ISBN 978-0137903955.
  20. ^ un b Langley, Pat (2011). "La science changeante de l'apprentissage automatique" . Apprentissage automatique . 82 (3) : 275-279. doi : 10.1007/s10994-011-5242-y .
  21. ^ Garbade, Dr Michael J. (14 septembre 2018). "Éliminer la confusion : IA vs Machine Learning vs Deep Learning Différences" . Moyen . Récupéré le 28 octobre 2020 .
  22. ^ « IA contre apprentissage automatique contre apprentissage en profondeur contre réseaux de neurones : quelle est la différence ? » . www.ibm.com . Récupéré le 28 octobre 2020 .
  23. ^ "Chapitre 1 : Introduction à l'apprentissage automatique et à l'apprentissage en profondeur" . Dr Sebastian Raschka . 5 août 2020 . Récupéré le 28 octobre 2020 .
  24. ^ Août 2011, Dovel Technologies dans (15 mai 2018). "Tout le Machine Learning n'est pas une Intelligence Artificielle" . CTOvision.com . Récupéré le 28 octobre 2020 .
  25. ^ « AI Today Podcast #30 : Entretien avec le professeur du MIT Luis Perez-Breva -- Perspectives contraires sur l'IA et le ML » . Cognilytique . 28 mars 2018 . Récupéré le 28 octobre 2020 .
  26. ^ "rasbt/stat453-deep-learning-ss20" (PDF) . GitHub . Récupéré le 28 octobre 2020 .
  27. ^ Perle, Judée ; Mackenzie, Dana (15 mai 2018). Le livre du pourquoi : la nouvelle science de la cause et de l'effet (édition 2018). Livres de base. ISBN 9780465097609. Récupéré le 28 octobre 2020 .
  28. ^ Poole, Mackworth et Goebel 1998 , p. 1 .
  29. ^ Russell et Norvig 2003 , p. 55.
  30. ^ Définition de l'IA comme étude des agents intelligents : * Poole, Mackworth & Goebel (1998) , qui fournit la version utilisée dans cet article. Ces auteurs utilisent le terme « intelligence computationnelle » comme synonyme d'intelligence artificielle. [28] * Russell & Norvig (2003) (qui préfèrent le terme "agent rationnel") et écrivent "La vue de l'ensemble de l'agent est maintenant largement acceptée dans le domaine". [29] * Nilsson 1998 * Legg & Hutter 2007
  31. ^ Le Roux, Nicolas ; Bengio, Yoshua ; Fitzgibbon, André (2012). "Améliorer+Premier+et+Second-Ordre+Methods+by+Modeling+Uncertainty&pg=PA403 "Améliorer les Méthodes de Premier et de Second Ordre en Modélisant l'Uncertainty" . Dans Sra, Suvrit; Nowozin, Sebastian; Wright, Stephen J. (eds. ). Optimisation pour l'apprentissage automatique . MIT Press. p. 404. ISBN 9780262016469.
  32. ^ Bzdok, Danilo; Altman, Naomi ; Krzywinski, Martin (2018). "Statistiques versus Machine Learning" . Méthodes naturelles . 15 (4) : 233-234. doi : 10.1038/nmeth.4642 . PMC 6082636 . PMID 30100822 .  
  33. ^ un b Michael I. Jordan (2014-09-10). « statistiques et apprentissage automatique » . reddit . Récupéré le 01/10/2014 .
  34. ^ Bibliothèque de l'Université Cornell. « Breiman : Modélisation statistique : Les deux cultures (avec des commentaires et une réplique de l'auteur) » . Consulté le 8 août 2015 .
  35. ^ Gareth James; Daniela Witten; Trevor Hastie ; Robert Tibshirani (2013). Une introduction à l'apprentissage statistique . Springer. p. vii.
  36. ^ Mohri, Mehryar ; Rostamizadeh, Afchine ; Talwalkar, Ameet (2012). Fondements de l'apprentissage automatique . États-Unis, Massachusetts : MIT Press. ISBN 9780262018258.
  37. ^ Alpaydin, Ethem (2010). Introduction à l'apprentissage automatique . Londres : La Presse du MIT. ISBN 978-0-262-01243-0. Consulté le 4 février 2017 .
  38. ^ Russell, Stuart J.; Norvig, Peter (2010). Intelligence artificielle : une approche moderne (troisième édition). Prentice Hall. ISBN 9780136042594.
  39. ^ Mohri, Mehryar; Rostamizadeh, Afchine ; Talwalkar, Ameet (2012). Fondements de l'apprentissage automatique . La presse du MIT. ISBN 9780262018258.
  40. ^ Alpaydin, Ethem (2010). Introduction à l'apprentissage automatique . Presse MIT. p. 9. ISBN 978-0-262-01243-0.
  41. ^ Jordanie, Michael I.; Évêque, Christopher M. (2004). "Les réseaux de neurones". Dans Allen B. Tucker (éd.). Manuel d'informatique, deuxième édition (Section VII : Systèmes intelligents) . Boca Raton, Floride : Chapman & Hall/CRC Press LLC. ISBN 978-1-58488-360-9.
  42. ^ Alex Ratner; Stephen Bach; Paroma Varma ; Chris. « Supervision faible : le nouveau paradigme de programmation pour l'apprentissage automatique » . hazyresearch.github.io . travail de référencement de nombreux autres membres de Hazy Research . Récupéré le 06/06/2019 .
  43. ^ van Otterlo, M.; Wiering, M. (2012). Apprentissage par renforcement et processus de décision de markov . Apprentissage par renforcement . Adaptation, apprentissage et optimisation. 12 . p. 3-42. doi : 10.1007/978-3-642-27645-3_1 . ISBN 978-3-642-27644-6.
  44. ^ science.sciencemag.org/content/290/5500/2323
  45. ^ versdatascience.com/all-machine-learning-models-explained-in-6-minutes-9fe30ff6776a
  46. ^ Pavel Brazdil, Christophe Giraud Carrier, Carlos Soares, Ricardo Vilalta (2009). Metalearning : Applications à l'exploration de données (quatrième édition). Springer Science+Business Media . pp. 10-14, passim . ISBN 978-3540732624.CS1 maint: uses authors parameter (link)
  47. ^ Bozinovski, S. (1982). « Un système d'auto-apprentissage utilisant le renforcement secondaire ». Dans Trappl, Robert (éd.). Cybernétique et recherche sur les systèmes : Actes de la sixième réunion européenne sur la cybernétique et la recherche sur les systèmes. Hollande du Nord. p. 397-402. ISBN 978-0-444-86488-8 . 
  48. ^ Bozinovski, Stevo (2014) "Mécanismes de modélisation de l'interaction cognition-émotion dans les réseaux de neurones artificiels, depuis 1981." Procedia Informatique p. 255-263
  49. ^ Bozinovski, S. (2001) "Agents d'auto-apprentissage : Une théorie connexionniste de l'émotion basée sur le jugement de valeur crossbar." Cybernétique et systèmes 32(6) 637-667.
  50. ^ Y. Bengio; A. Courville ; Vincent Vincent (2013). "Apprentissage de la représentation : Une révision et de nouvelles perspectives". Transactions IEEE sur l'analyse des modèles et l'intelligence machine . 35 (8) : 1798-1828. arXiv : 1206.5538 . doi : 10.1109/tpami.2013.50 . PMID 23787338 . S2CID 393948 .  
  51. ^ Nathan Srebro; Jason DM Rennie; Tommi S. Jaakkola (2004). Factorisation matricielle à marge maximale . NIPS .
  52. ^ Coates, Adam; Lee, Honglak ; Ng, Andrew Y. (2011). Une analyse des réseaux à couche unique dans l'apprentissage de fonctionnalités non supervisé (PDF) . Conf. int. sur l'IA et les statistiques (AISSTATS). Archivé de l'original (PDF) le 2017-08-13 . Récupéré le 25/11/2018 .
  53. ^ Csurka, Gabriella; Danse, Christopher C.; Ventilateur, Lixin ; Willamowski, Jutta; Bray, Cédric (2004). Catégorisation visuelle avec des sacs de points clés (PDF) . Atelier ECCV sur l'apprentissage statistique en vision par ordinateur.
  54. ^ Daniel Jurafsky; James H. Martin (2009). Traitement de la parole et du langage . Internationale de l'Éducation Pearson. p. 145-146.
  55. ^ Lu, Haiping; Plataniotis, KN; Venetsanopoulos, AN (2011). "Une enquête sur l'apprentissage du sous-espace multilinéaire pour les données tensorielles" (PDF) . Reconnaissance de motifs . 44 (7) : 1540-1551. doi : 10.1016/j.patcog.2011.01.004 .
  56. ^ Yoshua Bengio (2009). Apprentissage des architectures profondes pour l'IA . Now Publishers Inc. pp. 1-3. ISBN 978-1-60198-294-0.
  57. ^ Tillmann, AM (2015). « Sur l'intransigeance informatique de l'apprentissage du dictionnaire exact et approximatif ». Lettres de traitement du signal IEEE . 22 (1) : 45-49. arXiv : 1405.6664 . Bibcode : 2015ISPL ... 22 ... 45T . doi : 10.1109/LSP.2014.2345761 . S2CID 13342762 . 
  58. ^ Aharon, M, M Elad et A Bruckstein. 2006. " K-SVD : un algorithme pour la conception de dictionnaires trop complets pour une représentation clairsemée . " Traitement du signal, transactions IEEE sur 54 (11) : 4311–4322
  59. ^ Zimek, Arthur; Schubert, Erich (2017), "Outlier Detection", Encyclopedia of Database Systems , Springer New York, pp. 1-5, doi : 10.1007/978-1-4899-7993-3_80719-1 , ISBN 97814899979933
  60. ^ Hodge, VJ; Austin, J. (2004). "Une enquête sur les méthodologies de détection des valeurs aberrantes" (PDF) . Revue d'Intelligence Artificielle . 22 (2) : 85–126. CiteSeerX 10.1.1.318.4023 . doi : 10.1007/s10462-004-4304-y . S2CID 59941878 .   
  61. ^ Dokas, Paul; Ertoz, Levent ; Kumar, Vipin ; Lazarevic, Alexandre ; Srivastava, Jaideep; Tan, Pang-Ning (2002). "Exploration de données pour la détection d'intrusion réseau" (PDF) . Actes Atelier NSF sur l'exploration de données de nouvelle génération .
  62. ^ Chandola, V.; Banerjee, A.; Kumar, V. (2009). « Détection d'anomalie : Une enquête ». Enquêtes informatiques ACM . 41 (3) : 1-58. doi : 10.1145/1541880.1541882 . S2CID 207172599 . 
  63. ^ Piatetsky-Shapiro, Gregory (1991), Découverte, analyse et présentation de règles fortes , dans Piatetsky-Shapiro, Gregory ; et Frawley, William J.; eds., Knowledge Discovery in Databases , AAAI/MIT Press, Cambridge, MA.
  64. ^ Bassel, George W.; Glaab, Enrico ; Marquez, Juliette ; Holdsworth, Michael J. ; Bacardit, Jaume (2011-09-01). "Construction de réseau fonctionnel dans Arabidopsis à l'aide d'un apprentissage automatique basé sur des règles sur des ensembles de données à grande échelle" . La Cellule Végétale . 23 (9) : 3101–3116. doi : 10.1105/tpc.111.088153 . ISSN 1532-298X . PMC 3203449 . PMID 21896882 .   
  65. ^ Agrawal, R.; Imieliński, T.; Swami, A. (1993). « Règles d'association minière entre des ensembles d'éléments dans de grandes bases de données ». Actes de la conférence internationale ACM SIGMOD 1993 sur la gestion des données - SIGMOD '93 . p. 207. CiteSeerX 10.1.1.40.6984 . doi : 10.1145/170035.170072 . ISBN  978-0897915922. S2CID  490415 .
  66. ^ Urbanowicz, Ryan J.; Moore, Jason H. (2009-09-22). « Apprentissage des systèmes de classification : une introduction complète, un examen et une feuille de route » . Journal de l'évolution artificielle et des applications . 2009 : 1–25. doi : 10.1155/2009/736398 . ISSN 1687-6229 . 
  67. ^ Méthodes automatiques d'inférence inductive de Plotkin GD, thèse de doctorat, Université d'Édimbourg, 1970.
  68. ^ Shapiro, Ehud Y. Inférence inductive de théories à partir de faits , Rapport de recherche 192, Université de Yale, Département d'informatique, 1981. Réimprimé dans J.-L. Lassez, G. Plotkin (Eds.), Computational Logic, The MIT Press, Cambridge, MA, 1991, pp. 199-254.
  69. ^ Shapiro, Ehud Y. (1983). Débogage de programme algorithmique . Cambridge, Mass : MIT Press. ISBN 0-262-19218-7 
  70. ^ Shapiro, Ehud Y. " Le système d'inférence de modèle ." Actes de la 7e conférence internationale conjointe sur l'intelligence artificielle-Volume 2. Morgan Kaufmann Publishers Inc., 1981.
  71. ^ Honglak Lee, Roger Grosse, Rajesh Ranganath, Andrew Y. Ng. " Convolutional Deep Belief Networks for Scalable Unsupervised Learning of Hierarchical Representations " Actes de la 26e conférence internationale annuelle sur l'apprentissage automatique, 2009.
  72. ^ Cortés, Corinne ; Vapnik, Vladimir N. (1995). "Réseaux à vecteurs-supports" . Apprentissage automatique . 20 (3) : 273-297. doi : 10.1007/BF00994018 .
  73. ^ Stevenson, Christophe. "Tutoriel : Régression polynomiale dans Excel" . corps professoral.richmond.edu . Récupéré le 22 janvier 2017 .
  74. ^ Goldberg, David E.; Hollande, John H. (1988). "Algorithmes génétiques et apprentissage automatique" (PDF) . Apprentissage automatique . 3 (2) : 95-99. doi : 10.1007/bf00113892 . S2CID 35506513 .  
  75. ^ Michie, D.; Spiegelhalter, DJ ; Taylor, CC (1994). « Apprentissage automatique, classification neuronale et statistique ». Série Ellis Horwood en Intelligence Artificielle . Bibcode : 1994mlns.book ..... M .
  76. ^ Zhang, juin; Zhan, Zhi-hui ; Lin, Ying ; Chen, Ni; Gong, Yue-jiao ; Zhong, Jing-hui ; Chung, Henry SH; Li, Yun ; Shi, Yu-hui (2011). "Le calcul évolutif rencontre l'apprentissage automatique : une enquête". Magazine d'intelligence informatique . 6 (4) : 68-75. doi : 10.1109/mci.2011.942584 . S2CID 6760276 . 
  77. ^ "Apprentissage fédéré : apprentissage machine collaboratif sans données de formation centralisées" . Blog de l'IA de Google . Récupéré le 2019-06-08 .
  78. ^ L' apprentissage automatique est inclus dans le programme CFA (la discussion est descendante); voir : Kathleen DeRose et Christophe Le Lanno (2020). "Apprentissage automatique" .
  79. ^ "Page d'accueil BelKor" research.att.com
  80. ^ "Le blog Netflix Tech : Recommandations Netflix : Au-delà des 5 étoiles (Partie 1)" . 2012-04-06. Archivé de l'original le 31 mai 2016 . Consulté le 8 août 2015 .
  81. ^ Scott Patterson (13 juillet 2010). "Laisser les machines décider" . Le Wall Street Journal . Consulté le 24 juin 2018 .
  82. ^ Vinod Khosla (10 janvier 2012). « Avons-nous besoin de médecins ou d'algorithmes ? » . Craquement de la technologie.
  83. ^ Quand un algorithme d'apprentissage automatique a étudié les peintures d'art, il a vu des choses que les historiens de l'art n'avaient jamais remarquées , le blog de la physique chez ArXiv
  84. ^ Vincent, James (2019-04-10). "Le premier manuel généré par l'IA montre ce à quoi les écrivains de robots sont réellement bons" . Le Verge . Récupéré le 05-05-2019 .
  85. ^ Vaishya, Raju; Javaid, Mohd; Khan, Ibrahim Haleem ; Haleem, Abid (1er juillet 2020). "Applications d'intelligence artificielle (IA) pour la pandémie de COVID-19" . Diabète & Syndrome Métabolique : Recherche Clinique & Revues . 14 (4) : 337-339. doi : 10.1016/j.dsx.2020.04.012 . PMC 7195043 . PMID 32305024 .  
  86. ^ Rezapouraghdam, Hamed; Akhshik, Arash ; Ramkissoon, Haywantee (10 mars 2021). « Application de l'apprentissage automatique pour prédire le comportement écologique des visiteurs dans les aires marines protégées : preuves de Chypre » . Journal du tourisme durable . 0 : 1–25. doi : 10.1080/09669582.2021.1887878 .
  87. ^ Questionné, Tony. "Les smartphones deviennent plus intelligents avec l'innovation d'Essex | Business Weekly | Actualités technologiques | Actualités commerciales | Cambridge et l'Est de l'Angleterre" . www.businessweekly.co.uk . Récupéré le 17/06/2021 .
  88. ^ Williams, Rhiannon (2020-07-21). "Les futurs smartphones" prolongeront la durée de vie de leur propre batterie en surveillant le comportement des propriétaires " " . je (journal) . Récupéré le 17/06/2021 .
  89. ^ "Pourquoi les modèles d'apprentissage automatique échouent souvent à apprendre : QuickTake Q&A" . Bloomberg.com . 2016-11-10. Archivé de l'original le 2017-03-20 . Récupéré le 10-04-2017 .
  90. ^ "La première vague d'IA d'entreprise est vouée à l'échec" . Revue d'affaires de Harvard . 2017-04-18 . Récupéré le 2018-08-20 .
  91. ^ "Pourquoi l'euphorie de l'IA est vouée à l'échec" . VentureBeat . 2016-09-18 . Récupéré le 2018-08-20 .
  92. ^ " 9 raisons pour lesquelles votre projet de machine learning échouera " . www.kdnuggets.com . Récupéré le 2018-08-20 .
  93. ^ "Pourquoi la voiture autonome d'Uber a tué un piéton" . L'économiste . Récupéré le 2018-08-20 .
  94. ^ " Watson d'IBM a recommandé des traitements contre le cancer " dangereux et incorrects " - STAT " . STAT . 2018-07-25 . Récupéré le 2018-08-21 .
  95. ^ Hernandez, Daniela; Greenwald, Ted (2018-08-11). "IBM a un dilemme Watson" . Wall Street Journal . ISSN 0099-9660 . Récupéré le 2018-08-21 . 
  96. ^ Reddy, Shivani M.; Patel, Sheila; Weyrich, Meghan ; Fenton, Josué ; Viswanathan, Meera (2020). « Comparaison d'une approche de revue systématique traditionnelle avec la revue de revues et la semi-automatisation en tant que stratégies pour mettre à jour les preuves » . Revues Systématiques . 9 (1) : 243. doi : 10.1186/s13643-020-01450-2 . ISSN 2046-4053 . PMC 7574591 . PMID 33076975 .   
  97. ^ un b Garcia, Megan (2016). "Raciste dans la Machine". Journal de politique mondiale . 33 (4) : 111-117. doi : 10.1215/07402775-3813015 . ISSN 0740-2775 . S2CID 151595343 .  
  98. ^ Caliskan, Aylin; Bryson, Joanna J.; Narayanan, Arvind (2017-04-14). « La sémantique dérivée automatiquement des corpus linguistiques contient des biais humains ». Sciences . 356 (6334) : 183-186. arXiv : 1608.07187 . Bibcode : 2017Sci ... 356..183C . doi : 10.1126/science.aal4230 . ISSN 0036-8075 . PMID 28408601 . S2CID 23163324 .   
  99. ^ Wang, Xinan; Dasgupta, Sanjoy (2016), Lee, DD ; Sugiyama, M. ; Luxembourg, UV ; Guyon, I. (eds.), "Un algorithme pour la recherche du voisin le plus proche L1 via l'intégration monotonique" (PDF) , Advances in Neural Information Processing Systems 29 , Curran Associates, Inc., pp. 983-991 , récupéré 2018-08- 20
  100. ^ Julia Angwin; Jeff Larson ; Lauren Kirchner; Surya Mattu (2016-05-23). "Biais de la machine" . ProPublica . Récupéré le 2018-08-20 .
  101. ^ "Opinion | Quand un algorithme vous aide à vous envoyer en prison" . New York Times . Récupéré le 2018-08-20 .
  102. ^ "Google s'excuse pour une erreur raciste" . Nouvelles de la BBC . 2015-07-01 . Récupéré le 2018-08-20 .
  103. ^ "Google a 'réparé' son algorithme raciste en supprimant les gorilles de sa technologie d'étiquetage d'images" . Le Verge . Récupéré le 2018-08-20 .
  104. ^ "Opinion | Problème de type blanc de l'intelligence artificielle" . New York Times . Récupéré le 2018-08-20 .
  105. ^ Metz, Rachel. « Pourquoi le chatbot pour adolescents de Microsoft, Tay, a dit beaucoup de choses horribles en ligne » . Revue de la technologie du MIT . Récupéré le 2018-08-20 .
  106. ^ Simonite, Tom. "Microsoft dit que son chatbot raciste illustre comment l'IA n'est pas assez adaptable pour aider la plupart des entreprises" . Revue de la technologie du MIT . Récupéré le 2018-08-20 .
  107. ^ Hempel, Jessi (2018-11-13). "La quête de Fei-Fei Li pour rendre les machines meilleures pour l'humanité" . Câblé . ISSN 1059-1028 . Récupéré le 2019-02-17 . 
  108. ^ Kohavi, Ron (1995). "Une étude de validation croisée et d'amorçage pour l'estimation de la précision et la sélection du modèle" (PDF) . Conférence internationale conjointe sur l'intelligence artificielle .
  109. ^ Ponce, Robert Gilmore; Si, Kangping (2014). « La caractéristique de fonctionnement totale pour mesurer la capacité de diagnostic pour plusieurs seuils ». Revue internationale des sciences de l'information géographique . 28 (3) : 570-583. doi : 10.1080/13658816.2013.862623 . S2CID 29204880 . 
  110. ^ Bostrom, Nick (2011). « L'éthique de l'intelligence artificielle » (PDF) . Archivé de l'original (PDF) le 4 mars 2016 . Consulté le 11 avril 2016 .
  111. ^ Edionwe, Tolulope. "La lutte contre les algorithmes racistes" . Le contour . Consulté le 17 novembre 2017 .
  112. ^ Jeffries, Adrianne. "Le Machine Learning est raciste parce qu'Internet est raciste" . Le contour . Consulté le 17 novembre 2017 .
  113. ^ Bostrom, Nick; Yudkowsky, Eliezer (2011). « L'ÉTHIQUE DE L'INTELLIGENCE ARTIFICIELLE » (PDF) . Nick Bostrom .
  114. ^ MOR Prates, PHC Avelar, LC Lamb (11 mars 2019). "Évaluer les préjugés sexistes dans la traduction automatique - Une étude de cas avec Google Translate". arXiv : 1809.02208 [ cs.CY ].CS1 maint: uses authors parameter (link)
  115. ^ Narayanan, Arvind (24 août 2016). « Le langage contient nécessairement des préjugés humains, et les machines formées sur des corpus de langage aussi . » . Liberté de bricoler .
  116. ^ Char, Danton S.; Shah, Nigam H.; Magnus, David (2018-03-15). "Mise en œuvre de l'apprentissage automatique dans les soins de santé - Relever les défis éthiques" . Journal de médecine de la Nouvelle-Angleterre . 378 (11) : 981–983. doi : 10.1056/NEJMp1714229 . ISSN 0028-4793 . PMC 5962261 . PMID 29539284 .   
  117. ^ Char, DS; Shah, NH; Magnus, D. (2018). "Mise en œuvre de l'apprentissage automatique dans les soins de santé - Relever les défis éthiques" . Journal de médecine de la Nouvelle-Angleterre . 378 (11) : 981–983. doi : 10.1056/nejmp1714229 . PMC 5962261 . PMID 29539284 .  
  118. ^ Recherche, AI (23 octobre 2015). "Réseaux de neurones profonds pour la modélisation acoustique en reconnaissance vocale" . airesearch.com . Consulté le 23 octobre 2015 .
  119. ^ "Les GPU continuent de dominer le marché des accélérateurs d'IA pour l'instant" . Semaine de l'information . décembre 2019 . Récupéré le 11 juin 2020 .
  120. ^ Ray, Tiernan (2019). "L'IA change toute la nature du calcul" . ZDNet . Récupéré le 11 juin 2020 .
  121. ^ "IA et calcul" . OpenAI . 16 mai 2018 . Récupéré le 11 juin 2020 .

Lectures complémentaires

Liens externes