ウィキペディア:ウィキペディアの調査

ウィキペディアから、無料の百科事典
ナビゲーションにジャンプ 検索にジャンプ

ウィキペディア(以前はウィキペディアの状態として知られていました)の調査では、ウィキペディアプロジェクトのさまざまな側面を定量的に測定するいくつかの方法について説明し、その分野で行われた調査についても説明します。ウィキペディアにはさまざまな目標があり、それらの目標の達成を測定するさまざまな方法があるため、主題は困難です。

仮説

生の数字

成功を測定する難しい方法は、ウィキペディアの記事の数を数えることです。この情報は、統計ページにあります。記事の数を数えるだけの問題は、「記事」とは何ですか?私たちの「記事」の大部分は、非常に短いスタブである場合もあれば、捕らえられていない破壊行為で構成されている場合もあります。{{ merge }}ずんぐりした記事は、コンテンツを失うことなく、より少ない、より良い記事につながります。ウィキペディアのサイズのより正確な尺度は、記事の文字または単語の数です。2006年10月の時点でのウィキペディアには、平均長が3,300文字の140万の記事がありました。

このような測定では、コンテンツの品質を示すものはありません。ウィキペディアの良い、役に立つ、正確な、またはバランスの取れた記事の数を見積もるのははるかに困難です。このため、「特集」、「良い」、「A - 」、「Bクラス」のいずれかの記事として何らかの方法で評価された記事のみを考慮に入れる場合があります2007年2月の時点で、約1つ。ウィキペディアの550の記事は、「特集」または「良い」のいずれかです。

統計ページについて考える1つの方法は、参考図書としてではなく、プロジェクトとしてのウィキペディアの成功の尺度と見なすことです。これは参考図書を作成するためのプロジェクトであるため(コミュニティの構築は副次的な目標ではなく副作用です)、プロジェクトの成功の評価は参考図書の評価に直接結び付けられます。

Webとの関連性

ウィキペディアの成功を検討するもう1つの方法は、ウィキペディアの情報がワールドワイドウェブにどの程度関連しているかを尋ねることです。ウィキペディアサイトは1日に何回ヒットしますか?Googleから何人の読者が来ますか?どのページが高いGooglePageRankを持っていますか?

ウィキペディアの人気の尺度は、Webトラフィックのランキングを示す Alexaのエントリによって提供されます。

価値はあるが自動化が難しい対策の1つは、Wikipedia:Googleのヒットトップ10を検討することです。すでにウィキペディアにある主題のうち、グーグルで高いページランクを獲得するのに十分な参考文献はいくつありますか?

さらに別の測定には、他のサイトがウィキペディアのコンテンツを使用する数または程度が含まれる場合があります他の多くのサイトがウィキペディアのコンテンツの正確さを信頼しているという事実は、ウィキペディアの成功の強力な指標です。

カバレッジ

考慮すべきもう1つの軸は、ウィキペディアのカバレッジです。カバレッジは、ウィキペディアに必要な情報がすでにどれだけあるかを示す尺度です。ウィキペディアは、必要な知識の範囲をどの程度「カバー」していますか?

カバレッジを考える1つの方法は、将来のある種の「エンドポイント」、つまりウィキペディアに値するすべての情報がシステム内にあるEditZeroを想像することです。その時点で、ウィキペディアンの仕事は、既存の主題について書くことから、新しい人々、イベント、国、授賞式、種、アルバム、本、惑星が生まれるにつれて、新しい主題についての記事を追加することに変わります。ウィキペディアの現在の報道の尺度は、その想像上の百科事典の記事のいくつがすでに何らかの有用な形で存在しているかを測定することです。

これは、ほとんどの場合、計り知れない指標です。Edit Zeroのウィキペディアにいくつの記事があるかわからないので、すでに持っている記事の割合を知ることはできません。私たちが望むことができる最善のことは、いくつかのアドホック測定で「実際の」カバレッジメトリックを概算することです

いくつかの提案された近似:

  • 1911年のブリタニカ百科事典のエントリのうち、対応するウィキペディアの記事はいくつありますか?(完全に粗雑ですが、1911年に戻った場合、少なくともEBと同じくらいの知識を持ちたいと思いませんか?それに近いですか?)
  • ウィキペディアの検索の何パーセントが空になりますか?(これは、ウィキペディアの読者がシステムにあるべきだと考えるものの何パーセントがすでにそこにあるかを測定します。)
  • ウィキペディア内の内部リンクのうち、どこにも何パーセントポイントありますか?エンドポイントに非スタブ記事がいくつありますか?(これは、ウィキペディアの作者がシステムにあるべきだと考えるものの何パーセントがすでにそこにあるかを測定します。)

Edit Zeroモデルは、ウィキペディアに値する記事の数が将来のある時点で収束すると予想するという点で単純であることに注意してください。

実施された研究およびその他のリソースのリスト

ウィキペディア(主に)および他のウィキメディアプロジェクトは、それらの機能の原因となる現象の研究に関係する研究をますます生み出しています。その研究のいくつかは、専門の学術雑誌に発表されているか、会議で発表されています。ウィキペディア:ウィキペディアの学術研究を参照してください。

しかし、他の多くの問い合わせはそのようなジャーナルに公開されておらず、その結果、ウィキペディアのウィキペディアの名前空間、メタウィキの一部のページ、そしておそらく他のプロジェクトのいくつかのページは、そのような短い研究論文、エッセイ、その他のリソース。meta:Researchは、そのような研究が調整されることになっている場所ですが、実際には、ツールや論文の大部分は英語版ウィキペディアで見つけることができます。以下はそれらのリソースへのガイドです。

カテゴリ:ウィキペディア統計

注1:最も興味深く、多かれ少なかれ最新のプロジェクトは太字で示されています。

注2:グラフ、チャートなどは、Category:Wikipediaチャートに追加する必要があります

キーワード:

  • 編集者:編集者について
  • ユーザー:ユーザーについて
  • 記事:記事について
  • 技術的:プロジェクトの技術的側面(ソフトウェア、コード...)
アイテム 説明とコメント 最終更新日 からの時系列 分析 テーブル/リストがあります チャートがあります キーワード
管理者統計:ユーザー:NoSeptember / NoSeptember管理プロジェクト 多くの管理者関連の統計、多くのサブページ。 2007年2月 初めに、可能な限り はい はい はい 編集者
お知らせ 1)英語版ウィキペディアに関する重要なマイルストーン、統計、およびAlexaランキングニュース(特別:統計を参照)2)英語版ウィキペディアに影響を与えるウィキメディア財団に関するニュース。 毎月 2001年1月以降 プレスリリースタイプ はい 番号
削除統計の記事 AfDに関する大まかな統計。サブページを参照してください。特に便利:Wikipedia:AFD 100日Dragons Flightによって設計されたコンピュータースクリプトを使用して、2005年6月1日から2005年9月8日までの100日間のAFDログを解析し、太字のキーワード(delete、keep、merge、redirect、killなど)を検索しました。 、クリーンアップなど)署名されたコメントで。これにより、投票および記事の削除動作の重要なパターンを特定できる大規模な統計サンプルを生成できます。 2006年1月 2月7日 いくつか はい 番号 記事
人口あたりの記事 その言語の総話者100万人あたりの言語に存在するウィキペディアの記事の数 2006年9月 履歴は2005年11月からの一連の更新を示しています 番号 はい 番号 記事
意識統計 ウィキペディアの一般の認識の成長を測定する試み。主にウィキペディアのAlexaレーティング、つまり「ウィキペディアの人気度」に関係しています。 さまざまですが、ほとんどのテーブルは2007年1月7日時点で最新です。チャートには2006年1月のラベルが付いています 2002年10月以降は異なります はい はい はい ユーザー
ブラウザ 英語版ウィキペディアにアクセスするために使用されるブラウザ 2004年9月 履歴は2004年4月からの古いデータを示しています 番号 はい 番号 技術、ユーザー
注目の記事の統計 注目の記事に関するいくつかの基本的な統計 毎月 2004年1月 はい はい はい 記事
良い記事の統計 良い記事に関するいくつかの基本的な統計 2007年2月 2005年11月 はい はい はい 記事
Googleが気に入ったもの Googleには、一般的なWebの検索パターンと傾向に関するGoogleZeitgeistというWebページがあります。これは、ウィキペディアで人々が何を探しているかを教えてくれます。彼らが見つけられるコンテンツはありますか?そうでない場合は、特に最近の上位10件の検索について、そのようなリストの作成を優先するのがよいでしょう。理想的には、Google Zeitgeistの統計は、GoogleからWikipediaへのリンクの統計と一致する必要があります。Wikipedia:Google検索で1語で1位の記事Wikipedia:Zeitgeist(2004年のデータ)も参照してください。 2003年3月7日 2001年11月 はい はい 番号 ユーザー、テクニカル
編集数別のウィキペディアンのリスト 名前は一目瞭然です。 2008年5月 2004年6月16日 少し はい 番号 編集者
最近の編集数別のウィキペディアンのリスト 名前は一目瞭然です。 2008年5月 2004年5月 番号 はい 番号 編集者
マイルストーン統計 言語(マイルストーン(特定のウィキペディアの記事の数として定義される)に到達した日付、到達順に) 2007年2月 なし、ただし履歴には2004年11月からの更新が表示されます 番号 はい 番号 記事
ウィキペディアの成長のモデリング このページでは、Wikipedia:ウィキペディアのサイズの記事数データを分析し、過去および将来の成長の単純な数値モデルを、観察された記事数のサイズおよび成長データに適合させようとします。 2006年11月 歴史を掘り下げたいなら2003年6月 はい 番号 はい 記事
最も参照されている記事 これらは、2006年1月25日のデータベースダンプで見つかった最も参照されている記事です。 2006年1月25日 2003年8月14日ページ履歴 はい はい 番号 記事
最も頻繁に編集されるページ 明らか。 2008年5月 2004年1月 番号 はい 番号 記事
最も人気のあるページ2001年10月 明らかで、更新されていません。人気のあるページを参照してください 2001年10月 番号 はい はい 番号 記事
最も編集されたトークページ 2003年11月11日現在、最も改訂が多いトークページは次のとおりです。 2003年11月11日 2003年2月 番号 はい 番号 記事
言語別のウィキペディアンの成長。カテゴリ内の多くのページ、特に興味深い:ウィキペディア:多言語月間統計(パノラマ)およびウィキペディア:多言語統計 2007年2月 2001年7月 ときどき はい 番号 記事
年ごとの人 出生と死亡のカテゴリを使用して、特定の年に生まれた/死んだ人に関する記事の数をカウントします。Wikipedia:People by year / Reportsも参照してください 2005年7月 2004年9月 番号 はい 番号 記事、技術
プール ウィキペディアのさまざまな将来のマイルストーンについて人々が推測するプールが作成されました。マイルストーンは、「ウィキペディアがいつx個の記事に到達するか」と定義されています。一部の予測分析に役立つ場合があります。 様々 様々 該当なし はい 番号
人気のページ 先月の閲覧数順に並べられたページのリスト 2008年5月 2004年4月 番号 はい 番号 記事
ウィキペディア:ウィキペディアの作者の生産性 ウィキペディアの言語ごとの編集者の活動 2006年半ば 番号 はい はい 番号 編集者
ウィキペディアの調査 このページでは、ウィキペディアでの成功を定量的に測定するいくつかの方法について説明します。基本的にウィキペディアの統計についてのエッセイ。 2003年 番号 はい 番号 番号 全て
検索エンジンの統計 ウィキペディアが検索エンジン(Google)に表示される頻度と卓越性に関するデータを記録します。 2005年11月 番号 はい はい はい 記事、技術
サイズ比較 この記事では、ウィキペディアのサイズを他の百科事典や情報コレクションと比較します。 2007年2月 記事の歴史の中で2002年9月 はい はい 番号 記事、ユーザー
ウィキペディアのサイズ 古い統計ページ。主に歴史的です。 最新のものもあれば、そうでないものもあります。 履歴を確認してください。 はい はい はい 記事、ユーザー
ウィキペディア:統計 メインの公式統計ページ。 ほとんど最新です。 2001年12月ですが、そこでは何も役に立ちません。 はい 番号 番号 全て
スタブのパーセンテージ 2006年の初めにウィキペディアが100万件の記事を超えたので、私は簡単な質問をしました。それらの記事の何パーセントがスタブですか? 2005年7月 番号 はい 番号 はい 記事
ウィキマニア2006ウィキペディアン調査 ウィキペディアの成功の背後にある理由に関する小さな調査。自由形式の質問:そもそもウィキペディアを編集するように人々を駆り立てるものは何ですか?なぜ編集者はプロジェクトにとどまるのですか?ウィキペディアを編集することで、見返りとして何が得られましたか?他に追加したいことはありますか?何歳ですか?どのくらいの頻度で編集しますか?最高のユーザーレベル(匿名、登録ユーザー、管理者、官僚、スチュワード、開発者、取締役会メンバー、ジンボ)は何ですか? 2006年夏 繰り返されない はい 番号 番号 編集者
ウィキペディアインターウィキと専門知識テスト ウィキペディアが同化するための情報はどれくらいありますか? 2006年7月22日 更新されていない はい 番号 番号 記事
リクエストされた記事ボット統計 このページには、RABotが処理できるリクエストされた各記事ページの現在のリクエスト数が表示されます。また、ボットの実行が開始されてから各ページで観察されたリクエストの最大/最小数と、RABotが削除した完了したリクエストの数も表示されます。「1日あたり」の数値は、各ページでRABotが補助として使用された日数を反映しており、スクリプトが存在した合計日数よりも少ない場合があります。これが最初に実行されたときに削除された何百ものリクエストを含む初期クリーニングは、これらの合計には含まれていません。 2006年6月 2005年6月 はい はい 番号 記事
ウィキペディア:統計学部 このプロジェクトである統計部門は、統計に関心のある寄稿者が、いつ、どのように何を測定するかについて話し合うためのスペースを提供します。 非活性 非活性 いくつか いいえ いいえ
記事あたりの単語数 Wikipedia:サイズ比較ページのメトリックの1つは、記事ごとの単語数です。一部のウィキペディアンは、新しい記事の作成率が最終的に遅くなり、代わりに既存の記事の品質を改善するための努力が行われると予想しています。このページでは、品質に大まかに関連するいくつかの傾向、つまり記事ごとの単語数と記事ごとの改訂数を調べます。 2005年10月 2001年1月 はい 番号 はい 記事
ウィキペディアのトラフィックはジップの法則に従いますか? ジップの法則 2006年9月 番号 はい 番号 はい ユーザー
ウィキペディア:Xiongの統計 これは、2002年1月から2005年3月までの期間にわたる選択された英語版ウィキペディアの統計の予備分析です。ウィキペディアコミュニティの価値観と文化的構成の変化の証拠についてデータが調べられます。 2005年3月 2002年1月 はい 番号 はい 記事、ユーザー、編集者
ウィキペディア:トラフィック 2002年後半/ 2003年初頭の英語のウィキペディアの1日あたりのヒット数: 2003年 2002年 はい はい はい ユーザー
ウィキプロジェクトの作成動向 ウィキペディアの進化に関するウィンドウとしてウィキプロジェクト関連のメタデータを使用する。 2005年7月 なし はい 番号 はい 編集者、記事

カテゴリ:研究者向けのウィキペディアリソース

カテゴリの説明:

このカテゴリは、次の2つの分野の研究者向けのリソースを含めることを目的としています。

  1. 調査ツールとしてのウィキペディアの使用(ウィキペディア:ウィキペディアでの調査を参照
  2. 研究テーマとしてのウィキペディアについて(meta:Researchを参照)

驚くべきことにページ数が非常に少ない2番目のサブカテゴリに関心があります。

アイテム 説明とコメント
ウィキペディア:ウィキプロジェクトウィキデミア このプロジェクト、ウィキデミアは、ウィキペディアに関する学術研究に関連する記事のためのスペースを提供します。セミアクティブ。ウィキペディア:ウィキペディアは忘れられた非アクティブなバージョンです、それは表示されます。
ウィキペディア:ウィキペディアの学術研究 ウィキペディアの学術発表と論文の不完全なリスト。
ウィキペディア:ユーザー調査 提案を忘れた場合は、meta:General User Surveyを参照して、もう少し高度な、残念ながら非アクティブなものを確認してください。ウィキペディア:ヴュルツブルク大学の調査、2005年も参照してください
ウィキペディア:ウィキペディアでの調査 これは最初のカテゴリーのリソースですが、より学術的な観点からのウィキペディアの優れた記事であり、優れた入門書です。

カテゴリ:ウィキペディアツール

次のツールは、ウィキペディアおよび関連プロジェクトの調査/統計分析に役立ちます。

アイテム 説明とコメント キーワード
APIクエリ このAPIは、アプリケーションがMediaWikiサーバーから直接データをクエリする方法を提供します。サイトおよび/または特定のページリストに関する1つ以上の情報を取得できます。情報は、マシン(xml、json、php、yaml、wddx)または人間が読める形式のいずれかで返されます。1回のクエリで複数の情報が要求される場合があります。
IBMヒストリー・フロー・ツール この記事につながった2004年の素晴らしいツール(ダウンロード) 、残念ながら(私には)「ハウツー」はありません。1.5より前のMediaWiki(SQLベース)用に設計されているため、今はほとんど価値がありません。誰かが賢明な「使い方」を更新して作成できる場合は、そうしてください。
WhodunitQuery 英語のウィキペディア用に開発されたWindowsベースのアプリケーション。これを使用すると、ユーザーは任意のWikipedia記事をロードし、特定のフレーズを選択できます。ワンクリックで、ページの履歴を検索して、誰がそのフレーズを追加したかを判断できます。一部のコンテンツ分析に非常に役立つ場合があります。
カウンターを編集する Editcounters。データベースダンプを処理しようとする側で、いくつかの有用な統計データを取得する最も簡単な方法。特に便利なもの:TDSのArticle Contribution Counter:寄稿者の数による記事への寄稿者のリスト(anonをまとめて、これを使用してanonのリストを取得します) ; Interiotユーザー統計ツール3およびツール1(異なるレイアウト–それぞれで異なる統計に簡単にアクセスできます)。Flcelloguyのツール–すぐにテストしますが、非常に有望に見えます。ユーザーが作成した記事のリスト
スクリプト 次のスクリプトがデータの収集に役立つと思います。履歴と編集の概要使用分析(便利ですが、ブラウザがクラッシュすることがあり、計算される統計の説明(「コードブック...」)があまり明確ではありません)、新規ページログと新規ユーザーログ編集カウンター(まだ試していません)
メタ上のWikiXRay このプロジェクトの主な目標は、ウィキペディアプロジェクト全体の詳細な定量分析のための堅牢で拡張可能なソフトウェアツールを開発することです。有望に見えますが、現時点ではあまりユーザーフレンドリーではありません(プレアルファレベル))。
WikiEvidens WikiEvidensは、Wikiの統計および視覚化ツールです。

カテゴリ:ウィキペディアのエッセイ

も参照してください