Wikislovník

Z Wikipédie, voľnej encyklopédie
Prejsť na navigáciu Prejsť na vyhľadávanie

Wikislovník
WikislovníkEn – DP Derivative.svg
Logo anglického slovníka
Snímka obrazovky
Hlavná stránka anglického slovníka.png
Hlavná stránka anglického slovníka 14. januára 2019
Typ lokality
Online slovník
Dostupné vViacjazyčné (159 aktívnych) [1]
vlastníkNadácia Wikimedia
VytvorilJimmy Wales a komunita Wikimedia
URLwikislovník .org
Komerčnýnie
RegistráciaVoliteľné
Spustený12. decembra 2002 ; pred 19 rokmi ( 2002-12-12 )
Momentálna situáciaAktívne

Wikislovník je viacjazyčný webový projekt na vytvorenie bezplatného obsahového slovníka pojmov (vrátane slov , fráz , prísloví , lingvistických rekonštrukcií atď.) vo všetkých prirodzených jazykoch a v množstve umelých jazykov . Tieto položky môžu obsahovať definície , obrázky pre ilustrácie, výslovnosti , etymológie , skloňovanie , príklady použitia, citácie , súvisiace výrazy a prekladyslov do iných jazykov, okrem iných funkcií. Je spoločne upravovaný prostredníctvom wiki . Jeho názov je predobrazom slov wiki a slovník . Je k dispozícii v 183 jazykoch a v jednoduchej angličtine . Rovnako ako jeho sesterský projekt Wikipedia , Wikislovník prevádzkuje nadácia Wikimedia Foundation a je napísaný v spolupráci dobrovoľníkov nazývaných „Wikcionári“. Jeho wiki softvér MediaWiki umožňuje takmer každému s prístupom na webovú stránku vytvárať a upravovať záznamy.

Keďže Wikislovník nie je obmedzený priestorom pre tlač, väčšina jazykových vydaní Wikislovníka poskytuje definície a preklady slov z mnohých jazykov a niektoré vydania ponúkajú ďalšie informácie, ktoré sa zvyčajne nachádzajú v tezauroch .

Wikislovníkové údaje sa často používajú v rôznych úlohách spracovania prirodzeného jazyka .

História a vývoj

Wikislovník bol uvedený online 12. decembra 2002 [2] na základe návrhu Daniela Alstona a nápadu Larryho Sangera , spoluzakladateľa Wikipédie. [3] 28. marca 2004 boli spustené prvé neanglické Wikislovníky vo francúzštine a poľštine . Odvtedy sa začali používať slovníky v mnohých ďalších jazykoch. Wikislovník bol hosťovaný na dočasnom doménovom názve (wiktionary.wikipedia.org) do 1. mája 2004, kedy prešiel na aktuálny názov domény. [a] Od júla 2021 obsahuje Wikislovník vo svojich vydaniach viac ako 30 miliónov článkov (a ešte viac záznamov). [4]Najväčšou jazykovou edíciou je anglický Wikislovník s viac ako 7 miliónmi záznamov, za ním nasleduje francúzsky Wikislovník s viac ako 4,3 miliónmi a malgašský Wikislovník s viac ako 1,7 miliónmi záznamov. Štyridsaťtri jazykových vydaní slovníka obsahuje viac ako 100 000 záznamov. [b]

Použitie robotov na generovanie veľkého počtu článkov je v tomto grafe počtu článkov v ôsmich najväčších vydaniach Wikislovníka viditeľné ako „rýchly rast“. (Údaje z decembra 2009 )

Mnohé z definícií v najväčších jazykových vydaniach projektu vytvorili roboti, ktorí našli kreatívne spôsoby generovania hesiel alebo (zriedkavo) automaticky importovali tisíce hesiel z predtým publikovaných slovníkov. Sedem z 18 robotov zaregistrovaných v anglickom Wikislovníku v roku 2007 [c] tam vytvorilo 163 000 záznamov. [5]

Ďalší z týchto robotov, „ThirdPersBot“, bol zodpovedný za pridanie množstva konjugácií tretej osoby , ktoré by nedostali svoje vlastné záznamy v štandardných slovníkoch; napríklad definoval „tmenie“ ako „jednoduchú súčasnú formu tlenia v jednotnom čísle tretej osoby“. Z 1 269 938 definícií, ktoré anglický Wikislovník poskytuje 996 450 anglických slov, je 478 068 „formou“ definícií tohto druhu. [6] To znamená, že aj bez takýchto hesiel je pokrytie angličtiny podstatne väčšie ako pokrytie veľkých jednojazyčných tlačených slovníkov. Merriam-Webster's Third New International Dictionary of the English Language, Unabridged , má napríklad 475, 000 záznamov (s mnohými ďalšími vloženými heslami); aOxfordský anglický slovník má 615 000 hesiel, ale zahŕňa aj strednú angličtinu , pre ktorú má anglický slovník ďalších 34 234 definícií výrazov. Existujú podrobné štatistiky , ktoré ukazujú, koľko záznamov rôznych druhov existuje.

Anglický slovník Wikislovník sa nespolieha na roboty do takej miery, ako niektoré iné vydania. Francúzske a vietnamské Wikislovníky napríklad importovali veľké časti projektu Free Vietnamese Dictionary Project (FVDP), ktorý poskytuje bezplatný obsah dvojjazyčných slovníkov do a z vietnamčiny . [d] Tieto importované záznamy tvoria prakticky celý obsah vietnamského vydania. Rovnako ako anglické vydanie, aj francúzsky Wikislovník importoval približne 20 000 záznamov z databázy Unihan čínskych, japonských a kórejských znakov . Francúzsky Wikislovník sa v roku 2006 rýchlo rozrástol najmä vďaka robotom, ktorí kopírovali mnohé záznamy zo starých, voľne licencovaných slovníkov, ako je napríklad ôsme vydanieDictionnaire de l'Académie française (1935, okolo 35 000 slov) a pomocou robotov pridávať slová z iných vydaní Wikislovníka s francúzskymi prekladmi. Ruskévydanie sa rozrástlo o takmer 80 000 záznamov, pretože „LXbot“ pridal štandardné záznamy (s nadpismi, ale bez definícií) pre slová v angličtine a nemčine . [7]

K júlu 2021 má en.wiktionary viac ako 791 870 definícií lesku a viac ako 1 269 938 celkových definícií (vrátane rôznych foriem) len pre anglické heslá, s celkovým počtom viac ako 9 928 056 definícií vo všetkých jazykoch. [8]

Logá

Wikislovníku historicky chýbalo jednotné logo vo všetkých jeho početných jazykových vydaniach. Niektoré vydania používajú logá, ktoré zobrazujú slovníkový záznam o výraze „Wiktionary“ na základe predchádzajúceho loga anglického Wikislovníka, ktoré navrhol Brion Vibber, vývojár MediaWiki . [9] Pretože čisto textové logo sa musí v jednotlivých jazykoch značne líšiť, od septembra do októbra 2006 sa na Wikimedia Meta-Wiki konala štvorfázová súťaž o prijatie jednotného loga. [e]Niektoré komunity prijali víťazný príspevok „Smurrayinchester“, mriežku 3×3 drevených dlaždíc, z ktorých každá nesie znak z iného systému písania. Prieskum však nezaznamenal takú účasť komunity Wikislovník, ako niektorí členovia komunity dúfali, a množstvo väčších wiki si nakoniec ponechalo svoje textové logá. [e]

V apríli 2009 bola emisia vzkriesená novou súťažou. Tentoraz zobrazenie otvoreného slovníka v pevnej väzbe od „AAEngelmana“ vyhralo priame hlasovanie proti logu z roku 2006, ale proces vylepšenia a prijatia nového loga sa potom zastavil. [10] V nasledujúcich rokoch niektoré wiki nahradili svoje textové logá jedným z dvoch novších log. V roku 2012 dostalo 55 wiki, ktoré používali logo anglického slovníka, lokalizované verzie dizajnu z roku 2006 od „Smurrayinchester“. [f] V júli 2016 anglický Wikislovník prijal variant tohto loga. [11] K 4. júlu 2016135 wiki, čo predstavuje 61 % záznamov vo Wikislovníku, používa logo založené na návrhu z roku 2006 od „Smurrayinchester“, 33 wiki (36 %) používa textové logo a tri wiki (3 %) používajú dizajn z roku 2009 od „AAEngelmana“ . [12]

Kritériá na zabezpečenie presnosti

Na zabezpečenie presnosti má anglický Wikislovník politiku, ktorá vyžaduje, aby boli výrazy overené . [13] Výrazy v hlavných jazykoch, ako je angličtina a čínština, musia byť overené:

  1. jednoznačne rozšírené používanie, príp
  2. použitie v trvalo zaznamenaných médiách, sprostredkujúcich význam, najmenej v troch nezávislých prípadoch v trvaní najmenej jedného roka.

V prípade menej zdokumentovaných jazykov, ako je Creek a zaniknutých jazykov, ako je latinčina , stačí jedno použitie na trvalo zaznamenanom médiu alebo jedna zmienka v referenčnom diele.

Viacjazyčné

Od júna 2022 existujú stránky Wikislovník pre 183 jazykov, z ktorých je 159 aktívnych a 24 je zatvorených. [1] Aktívne stránky majú 31 692 559 článkov a zatvorené stránky majú 339 článkov. [14] Je tu 6 618 588 registrovaných užívateľov, z ktorých je 5 359 nedávno aktívnych. [14]

Desať najlepších projektov wikislovníkov podľa počtu článkov v hlavnom priestore: [14]

Jazyk Wiki Dobre Celkom Úpravy Správcovia Používatelia Aktívni používatelia Súbory
1 Angličtina en 7,074,415 8,169,762 67,311,229 107 3,942,176 2 014 24
2 francúzsky fr 4,422,781 4,758,825 30,508,226 36 328,302 480 6
3 malgašský mg 1,741,759 1,799,823 29,176,121 2 9,991 8 3
4 čínsky zh 1,230,439 1,823,796 7,230,874 8 104,746 95 19
5 ruský ru 1,192,752 2,474,383 12,343,177 14 279,503 275 145
6 nemecký de 1,047,782 1,218,841 9,212,616 16 213,746 205 103
7 španielčina es 911,953 966,956 5,057,202 8 140 997 102 14
8 srbochorvátsky sh 911,601 916,457 1,469,656 2 7,179 13 3
9 švédsky sv 839,567 880 736 3,683,021 14 51,694 57 1
10 holandský nl 812,497 1,093,724 4,528,175 11 51 215 62 7

Úplný zoznam s celkovými súčtami nájdete v štatistike Wikimedia: [15]

Kritický príjem

Kritický príjem Wikislovníka bol zmiešaný. V roku 2006 napísala Jill Lepore v článku „Noemova archa“ pre The New Yorker , [g]

Vo Wikislovníku nie je žiadne zdvíhanie rúk . Nie je tam ani redakcia. "Buďte svojim vlastným lexikografom!", môže byť motto Wikislovníka . Kto potrebuje odborníkov? Prečo platiť dobré peniaze za slovník napísaný lexikografmi, keď sme si ho mohli zostaviť sami?

Wikislovník nie je ani tak republikánsky alebo demokratický ako maoistický. A je to len také dobré ako knihy s vypršanou platnosťou autorských práv, z ktorých sa kradne.

Recenzia Keira Graffa na Booklist bola menej kritická:

Je tu miesto pre Wikislovník? Bezpochyby. Priemysel a nadšenie mnohých jeho tvorcov sú dôkazom, že existuje trh. A je úžasné mať ďalší silný zdroj, ktorý môžete použiť pri hľadaní zvláštnych výrazov, ktoré sa objavujú v dnešnom rýchlo sa meniacom svete a online prostredí. Ale ako pri mnohých webových zdrojoch (vrátane tohto stĺpca), najlepšie ho používajú sofistikovaní používatelia v spojení s renomovanejšími zdrojmi. [ potrebný citát ]

Odkazy v iných publikáciách sú prchavé a sú súčasťou väčších diskusií o Wikipédii, nepresahujú rámec definície, hoci David Brooks v The Nashua Telegraph to opísal ako „divoké a vlnité“. [17] Jednou z prekážok nezávislého spravodajstva o Wikipédii je pretrvávajúci zmätok, že ide len o rozšírenie Wikipédie. [h]

Miera správnosti skloňovania pre podmnožinu poľských slov v anglickom Wikislovníku ukázala, že tento gramatický údaj je veľmi stabilný. Iba 131 zo 4 748 poľských slov má opravené údaje o skloňovaní. [18]

Od roku 2016 zaznamenal Wikislovník rastúce využitie v akademickej obci. [19]

Wikislovníkové údaje v spracovaní prirodzeného jazyka

Wikislovník má pološtruktúrované údaje . [20] Slovníkové lexikografické údaje možno previesť do strojovo čitateľného formátu , aby sa dali použiť v úlohách spracovania prirodzeného jazyka . [21] [22] [23]

Wikislovníkové získavanie údajov je komplexná úloha. Existujú nasledujúce ťažkosti: [24]

    • (1) neustále a časté zmeny údajov a schém
    • (2) heterogenita v schémach vydania Wikislovníka [i] a
    • (3) povaha wiki zameraná na človeka .

Existuje niekoľko analyzátorov pre rôzne jazykové vydania slovníka: [25]

  • DBpedia Wiktionary : [26] podprojekt DBpedia , údaje sú extrahované z anglických, francúzskych, nemeckých a ruských Wikislovníkov; údaje zahŕňajú jazyk, časti reči, definície, sémantické vzťahy a preklady. Na extrahovanie informácií sa používa deklaratívny popis schémy stránky, [27] regulárne výrazy [28] a prevodník konečných stavov [29] .
  • JWKTL (Java Wiktionary Library): [30] poskytuje prístup k výpisom anglických a nemeckých Wikislovníkov prostredníctvom rozhrania Java Wikislovník API . [31] Údaje zahŕňajú jazyk, časti reči, definície, citácie, sémantické vzťahy, etymológie a preklady. JWKTL je distribuovaný pod licenciou Apache .
  • wikokit : [32] analyzátor anglického a ruského Wikislovníka. [33] Analyzované údaje zahŕňajú jazyk, časti reči, definície, citácie, [34] [j] sémantické vzťahy [35] a preklady. Toto je multilicencovaný softvér s otvoreným zdrojovým kódom.
  • Etymologické záznamy boli analyzované v projekte Etymological WordNet . [36]

Príklady úloh spracovania prirodzeného jazyka, ktoré boli vyriešené pomocou údajov z Wikislovníku, zahŕňajú:

„Wikidata:Lexikografické údaje“ boli spustené v roku 2018 s cieľom poskytnúť podporu štruktúrovaných údajov pre Wikitonary. Ukladá slovné údaje všetkých jazykov v strojovo čitateľnom dátovom modeli pod vyhradeným menným priestorom „Lexeme“ vo Wikiúdajoch. K októbru 2021 projekt zhromaždil viac ako 600 000 hesiel lexém v rôznych jazykoch. [48]

Pozri tiež

Poznámky

  1. ^ Aktuálna adresa URL Wikislovníka je www .wiktionary .org
  2. ^ Celkový počet článkov vo Wikislovníku je tu. Podrobné štatistiky podľa slovných druhov sú dostupné tu [1] .
  3. ^ Zoznam používateľov v anglickom Wikislovníku identifikuje účty, ktorým bol pridelený status robota.
  4. ^ Hồ Ngọc Đức, bezplatný projekt vietnamského slovníka . Podrobnosti vo vietnamskom slovníku.
  5. ^ a b " Wikislovník/logo ", Meta-Wiki, Wikimedia Foundation .
  6. ^ [Translators-l] 56 Wikislovníkov dostalo lokalizované logo
  7. ^ Celý článok nie je dostupný online. [16]
  8. ^ V tejto citácii sa autor odvoláva na Wikislovník ako súčasť stránky Wikipedia: Upravené podľa článku Naomi DeTullio (2006). „Wikis pre knihovníkov“ (PDF) . Správy NETLS #142 . Severovýchodný Texaský knižničný systém. p. 15. Archivované z originálu (spravodaj PDF) 5. júna 2007 . Získané 21. apríla 2007 .
  9. ^ Napr. porovnajte štruktúru vstupov a pravidlá formátovania v anglickom a ruskom Wikislovníku .
  10. ^ Citáty sú prevzaté iba z ruského Wikislovníka. [34]
  11. ^ Ak je na stránke Wikislovníka niekoľko zápisov IPA – buď pre rôzne jazyky alebo pre varianty výslovnosti, potom sa extrahovala prvá výslovnosť. [40]
  12. ^ Zdrojový kód a výsledky označovania POS sú dostupné na https://code.google.com/p/wikily-supervised-pos-tagger

Referencie

Citácie

  1. ^ a b MediaWiki API : Sitematrix Wikimedia . Získané z júna 2022 z údajov: Wikipedia statistics/meta.tab
  2. ^ "Diskusia o archíve zoznamu adries na Wikipédii oznamujúca otvorenie projektu Wikislovník" . Získané 3. mája 2011 .
  3. ^ Diskusia o archíve mailing listu Wikipedia od Larryho Sangera, ktorý dal nápad na Wikislovníku – získané 3. mája 2011
  4. ^ https://www.wiktionary.org/ [ holá adresa URL ]
  5. ^ TheDaveBot archivované 11. októbra 2007 na Wayback Machine , TheCheatBot archivované 11. októbra 2007, na Wayback Machine , Websterbot Archivované 11. októbra 2007, na Wayback Machine , PastBot Archived 11. októbra, 2007 Wayback , NaBot , 2007 Archivované 11. októbra 2007 v zariadení Wayback Machine
  6. ^ Podrobné štatistiky k 21. júlu 2021
  7. ^ LXbot Archivované 24. mája 2008 na Wayback Machine
  8. ^ Štatistika slovníka
  9. ^ " Wikislovník: Logo Wikislovníku ", anglický Wikislovník, Wikimedia Foundation.
  10. ^ Wikislovník/logo/obnoviť/hlasovanie “, Meta-Wiki, Wikimedia Foundation.
  11. ^ phab:T139255
  12. ^ m:Wiktionary/logo#Logo používa štatistiky .
  13. ^ "Wikcionár: Kritériá pre zaradenie" . Wikislovník . Získané 13. marca 2015 .
  14. ^ a b c API MediaWiki Wikimedia : Siteinfo . Získané z júna 2022 z údajov: Wikipedia statistics/data.tab
  15. ^ "Wikcionárna štatistika" . Meta.Wikimedia.org . Získané 11. septembra 2020 .
  16. ^ Lepore 2006 .
  17. ^ David Brooks, „Online, interaktívna encyklopédia už nie je len pre geekov, pretože sa zdá, že ju teraz každý potrebuje, viac ako kedykoľvek predtým!“ The Nashua Telegraph (4. august 2004)
  18. ^ Kurmas 2010 .
  19. ^ Sascha & Müller-Spitzer 2016 , s. 348
  20. ^ Meyer & Gurevych 2012 , s. 140.
  21. ^ Zesch, Müller & Gurevych 2008 , s. 4, obrázok 1.
  22. ^ Meyer & Gurevych 2010 , s. 40.
  23. ^ Krizhanovsky, Transformácia 2010 , s. 1.
  24. ^ Hellmann & Auer 2013 , s. 302, s. 16 v PDF.
  25. ^ Hellmann, Brekle & Auer 2012 , s. 3, tabuľka 1.
  26. ^ Wikislovník DBpedia archivovaný 4. mája 2013 v zariadení Wayback Machine
  27. ^ Hellmann, Brekle & Auer 2012 , s. 8–9.
  28. ^ Hellmann, Brekle & Auer 2012 , s. 10.
  29. ^ Hellmann, Brekle & Auer 2012 , s. 11.
  30. ^ JWKTL
  31. ^ Zesch, Müller & Gurevych 2008 .
  32. ^ wikikit
  33. ^ Križanovský, Transformácia 2010 .
  34. ^ a b Smirnov a kol. 2012 .
  35. ^ Krizhanovsky, Porovnanie 2010 .
  36. ^ Etymologický WordNet
  37. ^ Otte & Tyers 2011 .
  38. ^ McFate & Forbus 2011 .
  39. ^ Schlippe, Ochs & Schultz 2012 .
  40. ^ Schlippe, Ochs & Schultz 2012 , s. 4802.
  41. ^ Schlippe, Ochs & Schultz 2012 , s. 4804.
  42. ^ Meyer & Gurevych 2012 .
  43. ^ http://conceptnet5.media.mit.edu [ holá adresa URL ]
  44. ^ Lin & Krizhanovsky 2011 .
  45. ^ Medero & Ostendorf 2009 .
  46. ^ Li, Graça & Taskar 2012 .
  47. ^ Chesley a kol. 2006 .
  48. ^ "Wikidata: Wikislovník" . Získané 12. októbra 2012 .

Zdroje

  • Križanovský, Andrej (2010). "Transformácia štruktúry hesiel Wikislovníka na tabuľky a vzťahy v schéme relačnej databázy". arXiv : 1011.1368 [ cs ].
  • Križanovský, Andrej (2010). "Porovnanie slovníkových tezaurov transformovaných do strojovo čitateľného formátu". arXiv : 1006,5040 [ cs ].
  • Li, Shen; Graça, Joao V.; Taskar, Ben (2012). "Wiki-ly kontrolované slovné označovanie" (PDF) . Zborník zo spoločnej konferencie o empirických metódach spracovania prirodzeného jazyka a výpočtového učenia sa prirodzeného jazyka v roku 2012 . Ostrov Jeju, Kórea: Asociácia pre počítačovú lingvistiku. s. 1389–1398. Archivované z originálu (PDF) 22. mája 2013 . Získané 10. mája 2013 .
  • Lin, Feiyu; Križanovský, Andrej (2011). „Priraďovanie viacjazyčných ontológií na základe údajov z Wikislovníku prístupných cez koncový bod SPARQL“. Proc. 13. ruskej konferencie o digitálnych knižniciach RCDL'2011 . Voronež, Rusko. s. 19–26. arXiv : 1109.0732 . Bibcode : 2011arXiv1109.0732L .
  • "wikislovník" . 101 najlepších webových stránok. PC magazín . Ziff Davis. 6. apríla 2005. Archivované z originálu 21. decembra 2005 . Získané 16. decembra 2005 .

vonkajšie odkazy