Wiktionnaire

Un article de Wikipédia, l'encyclopédie libre
Aller à la navigation Aller à la recherche

Wiktionnaire
WiktionaryEn - DP Derivative.svg
logo du Wiktionnaire anglais
Capture d'écran
English Wiktionary Main Page.png
Main Page of the English Wiktionary on January 14, 2019
Type de site
Dictionnaire en ligne
Disponible enMultilingue (159 actifs) [1]
PropriétaireFondation Wikimédia
Créé parJimmy Wales et la communauté Wikimedia
URLwiktionary .org
CommercialNon
InscriptionOptionnel
Lancé12 décembre 2002 ; il y a 18 ans (2002-12-12)
Statut actuelactif

Wiktionary est un projet multilingue basé sur le Web pour créer un dictionnaire de contenu gratuit de termes (y compris des mots , des phrases , des proverbes , des reconstructions linguistiques , etc.) dans toutes les langues naturelles et dans un certain nombre de langues artificielles . Ces entrées peuvent contenir des définitions , des images pour des illustrations, des prononciations , des étymologies , des inflexions , des exemples d'utilisation, des citations , des termes associés et des traductions.de mots dans d'autres langues, entre autres caractéristiques. Il est édité en collaboration via un wiki . Son nom est un portemanteau des mots wiki et dictionnaire . Il est disponible en 182 langues et en anglais simple . Comme son projet frère Wikipedia , Wiktionary est géré par la Wikimedia Foundation , et est écrit en collaboration par des bénévoles , surnommés « Wiktionarians ». Son logiciel wiki , MediaWiki , permet à presque toute personne ayant accès au site Web de créer et de modifier des entrées.

Étant donné que Wiktionary n'est pas limité par des considérations d'espace d'impression, la plupart des éditions linguistiques de Wiktionary fournissent des définitions et des traductions de mots dans de nombreuses langues, et certaines éditions offrent des informations supplémentaires généralement trouvées dans les thésaurus .

Les données du Wiktionnaire sont fréquemment utilisées dans diverses tâches de traitement du langage naturel .

Histoire et développement

Wiktionary a été mis en ligne le 12 décembre 2002 [2] suite à une proposition de Daniel Alston et une idée de Larry Sanger , co-fondateur de Wikipedia. [3] Le 28 mars 2004, les premiers Wiktionnaires non anglais ont été lancés en français et en polonais . Des Wiktionnaires dans de nombreuses autres langues ont depuis été lancés. Wiktionary était hébergé sur un nom de domaine temporaire (wiktionary.wikipedia.org) jusqu'au 1er mai 2004, date à laquelle il est passé au nom de domaine actuel. [a] En juillet 2021 , Wiktionary propose plus de 30 millions d'articles (et encore plus d'entrées) dans ses éditions. [4]La plus grande des éditions linguistiques est le Wiktionnaire anglais, avec plus de 6,8 millions d'entrées, suivi du Wiktionnaire français avec plus de 4,2 millions et du Wiktionnaire malgache avec plus de 1,7 million d'entrées. Quarante-trois éditions linguistiques du Wiktionnaire contiennent chacune plus de 100 000 entrées. [b]

L'utilisation de bots pour générer un grand nombre d'articles est visible sous forme de « poussées de croissance » dans ce graphique du nombre d'articles dans les huit plus grandes éditions du Wiktionnaire. (Données de décembre 2009 )

La plupart des définitions des plus grandes éditions linguistiques du projet ont été créées par des robots qui ont trouvé des moyens créatifs de générer des entrées ou (rarement) importé automatiquement des milliers d'entrées de dictionnaires précédemment publiés. Sept des 18 bots enregistrés sur le Wiktionnaire anglais en 2007 [c] ont créé 163 000 des entrées là-bas. [5]

Un autre de ces robots, "ThirdPersBot", était responsable de l'ajout d'un certain nombre de conjugaisons à la troisième personne qui n'auraient pas reçu leurs propres entrées dans les dictionnaires standard ; par exemple, il a défini « smoulders » comme la « forme présente simple à la troisième personne du singulier de smoulder ». Sur les 1 269 938 définitions fournies par le Wiktionnaire anglais pour 996 450 mots anglais, 478 068 sont des définitions de ce type. [6] Cela signifie que même sans de telles entrées, sa couverture de l'anglais est nettement plus large que celle des principaux dictionnaires imprimés unilingues. Le troisième nouveau dictionnaire international de la langue anglaise de Merriam-Webster , non abrégé , par exemple, en compte 475,000 entrées (avec de nombreux mots-clés supplémentaires intégrés) ; lesL'Oxford English Dictionary compte 615 000 mots-clés, mais comprend également le moyen anglais , pour lequel le Wiktionnaire anglais a 34 234 définitions de gloss supplémentaires. Des statistiques détailléesexistent pour montrer combien d'entrées de divers types existent.

Le Wiktionnaire anglais ne s'appuie pas sur les bots dans la mesure où certaines autres éditions le font. Les Wiktionnaires français et vietnamien , par exemple, ont importé de grandes sections du projet de dictionnaire vietnamien gratuit (FVDP), qui fournit des dictionnaires bilingues de contenu gratuit vers et depuis le vietnamien. [d] Ces entrées importées constituent pratiquement tout le contenu de l'édition vietnamienne. Comme l'édition anglaise, le Wiktionnaire français a importé environ 20 000 entrées de la base de données Unihan de caractères chinois, japonais et coréens . Le Wiktionnaire français s'est développé rapidement en 2006 grâce en grande partie aux robots copiant de nombreuses entrées d'anciens dictionnaires sous licence libre, comme la huitième édition duDictionnaire de l'Académie française (1935, environ 35 000 mots), et utilisant des robots pour ajouter des mots d'autres éditions du Wiktionnaire avec des traductions françaises. L'édition russe a augmenté de près de 80 000 entrées, car "LXbot" a ajouté des entrées standard (avec des titres, mais sans définitions) pour les mots en anglais et en allemand . [7]

En juillet 2021, en.wiktionary comptait plus de 791 870 définitions de gloss et plus de 1 269 938 définitions totales (y compris différentes formes) pour les seules entrées en anglais, avec un total de plus de 9 928 056 définitions dans toutes les langues. [8]

Logos

Le Wiktionnaire a toujours manqué d'un logo uniforme dans ses nombreuses éditions linguistiques. Certaines éditions utilisent des logos qui représentent une entrée de dictionnaire sur le terme « Wiktionnaire », basé sur le logo Wiktionnaire anglais précédent, qui a été conçu par Brion Vibber, un développeur de MediaWiki . [9] Parce qu'un logo purement textuel doit varier considérablement d'une langue à l'autre, un concours en quatre phases pour adopter un logo uniforme a eu lieu au Wikimedia Meta-Wiki de septembre à octobre 2006. [e]Certaines communautés ont adopté l'entrée gagnante de "Smurrayinchester", une grille 3 × 3 de tuiles en bois, chacune portant un caractère d'un système d'écriture différent. Cependant, le sondage n'a pas vu autant de participation de la communauté Wiktionnaire que certains membres de la communauté l'avaient espéré, et un certain nombre de wikis plus importants ont finalement conservé leurs logos textuels. [e]

En avril 2009, le numéro a été ressuscité avec un nouveau concours. Cette fois, une description par « AAEngelman » d'un dictionnaire ouvert à reliure cartonnée a remporté un vote direct contre le logo de 2006, mais le processus d'affinement et d'adoption du nouveau logo a ensuite été bloqué. [10] Au cours des années suivantes, certains wikis ont remplacé leurs logos textuels par l'un des deux nouveaux logos. En 2012, 55 wikis qui utilisaient le logo du Wiktionnaire anglais ont reçu des versions localisées du design de 2006 par « Smurrayinchester ». [f] En juillet 2016, le Wiktionnaire anglais a adopté une variante de ce logo. [11] Au 4 juillet 2016, 135 wikis, représentant 61% des entrées du Wiktionnaire, utilisent un logo basé sur le design de 2006 par "Smurrayinchester", 33 wikis (36%) utilisent un logo textuel et trois wikis (3 %) utilisent le design de 2009 par "AAEngelman" . [12]

Critères pour garantir l'exactitude

Pour garantir l'exactitude, le Wiktionnaire anglais a une politique exigeant que les termes soient attestés . [13] Les termes dans les principales langues telles que l'anglais et le chinois doivent être vérifiés par :

  1. une utilisation manifestement répandue, ou
  2. utilisation dans des supports enregistrés en permanence, porteurs de sens, dans au moins trois cas indépendants s'étalant sur au moins un an.

Pour les langues moins documentées comme le Creek et les langues éteintes comme le latin , une seule utilisation dans un support enregistré en permanence ou une mention dans un ouvrage de référence est une vérification suffisante.

Multilingue

En novembre 2021, il existe des sites Wiktionnaires pour 183 langues dont 159 sont actifs et 24 sont fermés. [1] Les sites actifs ont 30 760 736 articles et les sites fermés ont 339 articles. [14] Il y a 6 439 770 utilisateurs enregistrés dont 5 030 sont actifs depuis peu. [14]

Les dix meilleurs projets de langage de Wiktionnaire par nombre d'articles dans l'espace principal : [14]

?? Langue Wiki Bon Le total Modifications Administrateurs Utilisateurs Utilisateurs actifs Des dossiers
1 Anglais fr 6 859 167 7 842 203 64 726 264 103 3 878 456 1 813 24
2 français fr 4 277 229 4 599 644 29 989 505 36 316.393 482 6
3 malgache mg 1 709 214 1 765 550 29 121 939 2 9 754 13 3
4 russe ru 1 153 655 2 414 182 12.063.217 14 268 830 247 142
5 Chinois zh 1 093 309 1 661 453 6 622 046 7 99 824 79 20
6 Allemand de 1 013 199 1 179 492 8 955 114 17 206 133 208 99
7 Serbo-croate sh 911 567 916 412 1 469 323 4 6 625 7 3
8 Espagnol es 908 862 963 337 5 026 328 8 134 739 108 14
9 suédois sv 816 014 856 742 3 633 971 14 49 968 74 1
dix grec el 799 631 841 517 5 343 634 9 48 382 84 55

Pour une liste complète avec les totaux, voir Wikimedia Statistics : [15]

Réception critique

La réception critique du Wiktionnaire a été mitigée. En 2006, Jill Lepore a écrit dans l'article "Noah's Ark" pour The New Yorker , [g]

Il n'y a pas de main levée sur Wiktionnaire . Il n'y a même pas de rédaction. "Soyez votre propre lexicographe!", pourrait être la devise du Wiktionnaire . Qui a besoin d'experts ? Pourquoi payer cher un dictionnaire écrit par des lexicographes alors qu'on pourrait en bricoler un nous-mêmes ?

Wiktionnaire n'est pas tant républicain ou démocrate que maoïste. Et c'est seulement aussi bon que les livres dont le droit d'auteur a expiré dont il vole.

La critique de Keir Graff pour Booklist était moins critique :

Y a-t-il une place pour le Wiktionnaire ? Indubitablement. L'industrie et l'enthousiasme de ses nombreux créateurs sont la preuve qu'il existe un marché. Et c'est merveilleux d'avoir une autre source solide à utiliser pour rechercher les termes étranges qui apparaissent dans le monde en évolution rapide d'aujourd'hui et l'environnement en ligne. Mais comme pour tant de sources Web (y compris cette colonne), il est préférable de l'utiliser par des utilisateurs avertis en conjonction avec des sources plus réputées. [ citation nécessaire ]

Les références dans d'autres publications sont éphémères et font partie de discussions plus larges sur Wikipédia, n'allant pas au-delà d'une définition, bien que David Brooks dans The Nashua Telegraph l'ait décrit comme « sauvage et laineux ». [17] L'un des obstacles à la couverture indépendante du Wiktionnaire est la confusion persistante qu'il s'agit simplement d'une extension de Wikipédia. [h]

La mesure de l'exactitude des flexions pour un sous-ensemble de mots polonais dans le Wiktionnaire anglais a montré que ces données grammaticales sont très stables. Seuls 131 des 4 748 mots polonais ont vu leurs données d'inflexion corrigées. [18]

Depuis 2016 , le Wiktionnaire est de plus en plus utilisé dans les universités. [19]

Données du Wiktionnaire dans le traitement du langage naturel

Wiktionnaire a des données semi-structurées . [20] Les données lexicographiques du Wiktionnaire peuvent être converties dans un format lisible par machine afin d'être utilisées dans des tâches de traitement du langage naturel . [21] [22] [23]

L'exploration de données de Wiktionnaire est une tâche complexe. Il y a les difficultés suivantes : [24]

    • (1) les changements constants et fréquents des données et des schémas
    • (2) l'hétérogénéité des schémas d'édition du langage Wiktionnaire [i] et
    • (3) la nature centrée sur l'humain d'un wiki .

Il existe plusieurs analyseurs syntaxiques pour différentes éditions de langue du Wiktionnaire : [25]

  • DBpedia Wiktionary : [26] un sous-projet de DBpedia , les données sont extraites de wiktionnaires anglais, français, allemand et russe ; les données comprennent la langue, les parties du discours, les définitions, les relations sémantiques et les traductions. La description déclarative du schéma de page, [27] les expressions régulières [28] et le transducteur à états finis [29] sont utilisés afin d'extraire des informations.
  • JWKTL (Java Wiktionary Library) : [30] permet d'accéder aux vidages du Wiktionnaire anglais et du Wiktionnaire allemand via une API Wiktionnaire Java . [31] Les données comprennent la langue, les parties du discours, les définitions, les citations, les relations sémantiques, les étymologies et les traductions. JWKTL est distribué sous la licence Apache .
  • wikokit : [32] l'analyseur syntaxique du Wiktionnaire anglais et du Wiktionnaire russe. [33] Les données analysées incluent la langue, les parties du discours, les définitions, les citations, [34] [j] les relations sémantiques [35] et les traductions. Il s'agit d'un logiciel open source multi-licence .
  • Les entrées étymologiques ont été analysées dans le projet Etymological WordNet . [36]

Voici des exemples de tâches de traitement du langage naturel qui ont été résolues à l'aide de données Wiktionnaires :

"Wikidata: Lexicographical data" a été lancé en 2018 pour fournir un support de données structurées aux Wikitonaires. Il stocke les données de mots de toutes les langues dans un modèle de données lisible par machine, sous un espace de noms dédié "Lexeme" dans Wikidata. En octobre 2021, le projet avait amassé plus de 600 000 entrées de lexème de différentes langues. [48]

Voir également

Remarques

  1. ^ L'URL actuelle du Wiktionnaire est www .wiktionary .org
  2. ^ Le nombre total d'articles du Wiktionnaire est ici. Des statistiques détaillées par type de mot sont disponibles ici [1] .
  3. ^ La liste des utilisateurs du Wiktionnaire anglais identifie les comptes qui ont reçu le "statut de bot".
  4. ^ Hồ Ngọc Đức, Projet de dictionnaire vietnamien gratuit . Détails sur le Wiktionnaire vietnamien.
  5. ^ un b " Wiktionnaire/logo ", Meta-Wiki, Wikimedia Foundation .
  6. ^ [Traducteurs-l] 56 Wiktionnaires ont un logo localisé
  7. ^ L'article complet n'est pas disponible en ligne. [16]
  8. ^ Dans cette citation, l'auteur fait référence au Wiktionnaire dans le cadre du site Wikipédia : Adapté d'un article de Naomi DeTullio (2006). "Wikis pour les bibliothécaires" (PDF) . Nouvelles du NETLS #142 . Système de bibliothèque du nord-est du Texas. p. 15. Archivé de l'original (bulletin PDF) le 5 juin 2007 . Récupéré le 21 avril 2007 .
  9. ^ Par exemple, comparez la structure d'entrée et les règles de formatage dans le Wiktionnaire anglais et le Wiktionnaire russe .
  10. ^ Les citations sont extraites uniquement du Wiktionnaire russe. [34]
  11. ^ S'il y a plusieurs notations IPA sur une page Wiktionnaire - soit pour différentes langues soit pour des variantes de prononciation, alors la première prononciation a été extraite. [40]
  12. ^ Le code source et les résultats du POS-tagging sont disponibles sur https://code.google.com/p/wikily-supervised-pos-tagger

Les références

Citations

  1. ^ Un b Wikimedia de MediaWiki API: Sitematrix . Récupéré en novembre 2021 de Data:Wikipedia statistics/meta.tab
  2. ^ "Discussion sur les archives de la liste de diffusion Wikipédia annonçant l'ouverture du projet Wiktionnaire" . Consulté le 3 mai 2011 .
  3. ^ Wikipédia discussion sur les archives de la liste de diffusion de Larry Sanger donnant l'idée sur Wiktionary - Récupéré le 3 mai 2011
  4. ^ https://www.wiktionary.org/
  5. ^ TheDaveBot Archivé le 11 octobre 2007, à la Wayback Machine , TheCheatBot Archivé le 11 octobre 2007, à la Wayback Machine , Websterbot Archivé le 11 octobre 2007, à la Wayback Machine , PastBot Archivé le 11 octobre 2007, à la Wayback Machine , NanshuBot Archivé le 11 octobre 2007, à la Wayback Machine
  6. ^ Statistiques détaillées au 21 juillet 2021
  7. ^ LXbot Archivé le 24 mai 2008, à la Wayback Machine
  8. ^ Statistiques du Wiktionnaire
  9. ^ " Wiktionary talk:Wiktionary Logo ", Wiktionnaire anglais, Wikimedia Foundation.
  10. ^ " Wiktionnaire/logo/refresh/voting ", Meta-Wiki, Wikimedia Foundation.
  11. ^ phab:T139255
  12. ^ m:Wiktionary/logo#Statistiques d'utilisation du logo .
  13. ^ "Wiktionnaire:Critères d'inclusion" . Wiktionnaire . Consulté le 13 mars 2015 .
  14. ^ A b c Wikimedia de MediaWiki API: SiteInfo . Extrait en novembre 2021 de Data:Wikipedia statistics/data.tab
  15. ^ "Statistiques du Wiktionnaire" . Meta.Wikimedia.org . Consulté le 11 septembre 2020 .
  16. ^ Lepore 2006 .
  17. ^ David Brooks, "Encyclopédie interactive en ligne non seulement pour les geeks, parce que tout le monde semble en avoir besoin maintenant, plus que jamais!" Le Nashua Telegraph (4 août 2004)
  18. ^ Kurmas 2010 .
  19. ^ Sascha & Müller-Spitzer 2016 , p. 348
  20. ^ Meyer & Gurevych 2012 , p. 140.
  21. ^ Zesch, Müller & Gurevych 2008 , p. 4, illustration 1.
  22. ^ Meyer & Gurevych 2010 , p. 40.
  23. ^ Krizhanovsky, Transformation 2010 , p. 1.
  24. ^ Hellmann & Auer 2013 , p. 302, p. 16 en PDF.
  25. ^ Hellmann, Brekle & Auer 2012 , p. 3, tableau 1.
  26. ^ DBpedia Wiktionary Archivé le 4 mai 2013, à la Wayback Machine
  27. ^ Hellmann, Brekle & Auer 2012 , p. 8-9.
  28. ^ Hellmann, Brekle & Auer 2012 , p. dix.
  29. ^ Hellmann, Brekle & Auer 2012 , p. 11.
  30. ^ JWKTL
  31. ^ Zesch, Müller & Gurevych 2008 .
  32. ^ wikikit
  33. ^ Krizhanovsky, Transformation 2010 .
  34. ^ un b Smirnov et al. 2012 .
  35. ^ Krizhanovsky, Comparaison 2010 .
  36. ^ WordNet étymologique
  37. ^ Otte & Tyers 2011 .
  38. ^ McFate & Forbus 2011 .
  39. ^ Schlippe, Ochs & Schultz 2012 .
  40. ^ Schlippe, Ochs et Schultz 2012 , p. 4802.
  41. ^ Schlippe, Ochs et Schultz 2012 , p. 4804.
  42. ^ Meyer & Gurevych 2012 .
  43. ^ http://conceptnet5.media.mit.edu
  44. ^ Lin & Krijanovsky 2011 .
  45. ^ Medero & Ostendorf 2009 .
  46. ^ Li, Graça & Taskar 2012 .
  47. ^ Chesley et al. 2006 .
  48. ^ "Wikidata:Wiktionnaire" . Consulté le 12 octobre 2012 .

Sources

  • Krijanovsky, Andrew (2010). « Transformation de la structure d'entrée du Wiktionnaire en tables et relations dans un schéma de base de données relationnelle ». arXiv : 1011.1368 [ cs ].
  • Krijanovsky, Andrew (2010). « La comparaison des thésaurus du Wiktionnaire transformés en format lisible par machine ». arXiv : 1006.5040 [ cs ].
  • Li, Shen ; Graça, Joao V.; Taskar, Ben (2012). « Étiquetage des parties du discours supervisé par Wiki-ly » (PDF) . Actes de la conférence conjointe 2012 sur les méthodes empiriques dans le traitement du langage naturel et l'apprentissage numérique du langage naturel . Île de Jeju, Corée : Association pour la linguistique informatique. p. 1389-1398.
  • Lin, Feiyu ; Krijanovsky, Andrew (2011). « Correspondance d'ontologies multilingues basée sur des données Wiktionnaires accessibles via le point de terminaison SPARQL ». Proc. de la 13e Conférence russe sur les bibliothèques numériques RCDL'2011 . Voronej, Russie. p. 19-26. arXiv : 1109.0732 . Bibcode : 2011arXiv1109.0732L .
  • "Wiktionnaire" . Les 101 meilleurs sites Web. Revue PC . Ziff Davis. 6 avril 2005. Archivé de l'original le 21 décembre 2005 . Consulté le 16 décembre 2005 .

Liens externes