レコード連携

From Wikipedia, the free encyclopedia

レコード リンケージ(データ マッチングデータ リンケージエンティティ解決、および他の多くの用語とも呼ばれます) は、データ セット内で、異なるデータ ソース (データ ファイル、書籍、Web サイトなど) で同じエンティティを参照するレコードを検索するタスクです。およびデータベース)。共通の識別子 (データベース キーURI国民識別番号など)を共有する場合と共有しない場合があるエンティティに基づいて、異なるデータ セットを結合する場合は、レコードのリンケージが必要です。)、レコードの形状、保管場所、またはキュレーターのスタイルや好みの違いによる可能性があります。RL 指向の調整を受けたデータセットは、クロスリンクされていると呼ばれることがあります。

命名規則

「レコード リンケージ」とは、統計学者、疫学者、歴史家などが、あるデータ ソースのレコードを同じエンティティを表す別のデータ ソースと結合するプロセスを表すために使用する用語です。ただし、このプロセスには他の多くの用語が使用されます。残念ながら、このように用語が多用されているため、これらの研究コミュニティ間の相互参照はほとんどありません。[1] [2]

コンピューター科学者は、これを「データ マッチング」または「オブジェクト識別問題」と呼ぶことがよくあります。商用メールやデータベース アプリケーションでは、これを「マージ/パージ処理」または「リスト ウォッシング」と呼んでいます。同じ概念を説明するために使用される他の名前には、「共参照/エンティティ/アイデンティティ/名前/レコードの解決」、「エンティティの曖昧さ回避/リンク」、「ファジー マッチング」、「重複検出」、「重複排除」、「レコード マッチング」、「 (参考)「和解」、「物の識別」、「データ・情報の統合」、「融合」。[3]

名前は似ていますが、レコード リンケージとLinked Data は、データを処理および構造化するための 2 つの別個のアプローチです。どちらも異なるデータ セット間で一致するエンティティを特定することを伴いますが、レコード リンケージは標準的に「エンティティ」を人間の個人と同一視します。対照的に、Linked Data は、対応するより広い識別子の概念、つまりURIを使用して、データ セット間で任意のWeb リソースを相互リンクする可能性に基づいています。

歴史

レコード リンケージの最初のアイデアは、ハルバート L. ダンが1946 年に American Journal of Public Healthに掲載した「レコード リンケージ」というタイトルの記事にまでさかのぼります。[4]

その後、ハワード・ボーデン・ニューカムは、 1959 年のScienceの記事で、現代の記録リンケージ理論の確率論的基礎を築きました。[5]これらは、1969 年にIvan Fellegiと Alan Sunter によって、先駆的な研究「A Theory For Record Linkage」で形式化され、比較属性が条件付きで独立している場合に、彼らが記述した確率的決定規則が最適であることを証明しました。[6]彼らの仕事の中で、彼らはコンピューティングと自動化の進歩を管理データの大規模なコレクションに適用することに関心が高まっていることを認識しており、Fellegi-Sunter 理論は多くの記録リンケージ アプリケーションの数学的基礎として残っています。

1990 年代後半以降、Fellegi-Sunter 理論で必要とされる条件付き確率を推定するために、好ましい条件下で使用できるさまざまな機械学習手法が開発されてきました。何人かの研究者は、Fellegi-Sunter アルゴリズムの条件付き独立性の仮定が実際にはしばしば破られていると報告しています。ただし、比較属性間の条件付き依存関係を明示的にモデル化するための公開された取り組みは、レコードのリンク品質の改善にはつながりませんでした。[要出典]一方、これらの仮定に依存しない機械学習またはニューラル ネットワーク アルゴリズムは、ラベル付けされた十分なトレーニング データが利用可能な場合、はるかに高い精度を提供することがよくあります。[7]

記録の関連付けは、コンピューターの助けを借りずに完全に行うことができますが、記録の関連付けを完了するためにコンピューターがよく使用される主な理由は、手作業によるレビューを削減または排除し、結果をより簡単に再現できるようにすることです。コンピュータ マッチングには、処理の中央監視、より優れた品質管理、速度、一貫性、および結果のより優れた再現性を可能にするという利点があります。[8]

メソッド

データの前処理

レコードのリンケージは、リンクされるデータの品質に非常に敏感であるため、検討中のすべてのデータセット (特にキー識別子フィールド) は、理想的には、レコードのリンケージの前にデータ品質評価を受ける必要があります。同じエンティティの多くのキー識別子は、データ セット間 (およびデータ セット内でも) でまったく異なる方法で提示される可能性があり、事前に理解していない限り、レコードのリンクが非常に複雑になる可能性があります。たとえば、William J. Smith という名前の男性のキー識別子は、次のように 3 つの異なるデータ セットに表示される場合があります。

データセット 名前 生年月日 居住都市
データセット 1 ウィリアム・J・スミス 1973 年 1 月 2 日 カリフォルニア州バークレー
データセット 2 スミス、WJ 1973.1.2 カリフォルニア州バークレー
データセット 3 ビル・スミス 1973年1月2日 カリフォルニア州バークレー

この例では、書式設定スタイルが異なるとレコードが異なって見えますが、実際にはすべてが同じ論理識別子値を持つ同じエンティティを参照しています。すべてではないにしても、ほとんどのレコード リンケージ戦略では、これらの値が最初に正規化または標準化されて一貫した形式になっている場合、より正確なリンケージが得られます (たとえば、すべての名前は「姓、名」であり、すべての日付は「YYYY/MM/DD」です)。 」)。標準化は、単純なルールベースのデータ変換、または語彙ベースのトークン化や確率的隠れマルコフ モデルなどのより複雑な手順によって実現できます。[9]ソフトウェア実装 にリストされているパッケージのいくつかセクションでは、これらの機能の一部を提供して、データ標準化のプロセスを簡素化します。

エンティティの解決

エンティティ解決は、通常、エンティティ解決エンジンまたはミドルウェアによって強化されるオペレーショナルインテリジェンスプロセスです。これにより、組織は異なるデータ ソースを接続して、複数のデータ サイロ間でエンティティの一致の可能性と非自明な関係を理解することできます。複数のデータ ソースから個人やエンティティに関連するすべての情報を分析し、尤度と確率のスコアリングを適用して、一致する ID と、これらの ID 間に存在する非自明な関係 (存在する場合) を判断します。

エンティティ解決エンジンは、通常、リスク詐欺、および利益相反を明らかにするために使用されますが、顧客データ統合(CDI) およびマスター データ管理(MDM) 要件内で使用するための便利なツールでもあります。エンティティ解決エンジンの典型的な用途には、テロリストのスクリーニング、保険詐欺の検出、米国愛国者法の遵守、組織化された小売犯罪リングの検出、および申請者のスクリーニングが含まれます。

例: さまざまなデータ サイロ (従業員記録、ベンダー データ、監視リストなど) にわたって、組織は ABC という名前のエンティティのいくつかのバリエーションを持っている場合があり、それらは同じ個人である場合とそうでない場合があります。これらのエントリは、実際には、これらのデータ ソース内で ABC1、ABC2、または ABC3 として表示される場合があります。住所生年月日社会保障番号などの基礎となる属性間の類似性を比較することにより、ユーザーは一致する可能性のあるものをいくつか除外し、一致する可能性が非常に高いものを確認できます。

エンティティ解決エンジンは、常識的なロジックに基づいてルールを適用し、データ全体の隠れた関係を特定します。上記の例では、おそらく ABC1 と ABC2 は同じ個人ではなく、住所や電話番号などの共通の属性を共有する 2 人の異なる人物です。

データマッチング

エンティティー解決ソリューションにはデータ・マッチング・テクノロジーが含まれていますが、多くのデータ・マッチング・オファリングはエンティティー解決の定義に適合しません。エンティティ解決と情報品質の高度な研究のためのUALRセンターの所長であるジョン タルバート氏によると、エンティティ解決とデータ マッチングを区別する 4 つの要因を以下に示します。

  • 構造化レコードと非構造化レコードの両方で機能し、ソースが非構造化または半構造化されている場合は参照を抽出するプロセスが必要です
  • 入念なビジネス ルールと概念モデルを使用して、欠落、競合、および破損した情報に対処します。
  • 直接一致に加えて、一致しない、アサートされたリンク (アソシエイト) 情報を利用する
  • 非自明な関係と関連ネットワーク (つまり、誰が誰と関連付けられているか) を明らかにします。

データ品質製品とは対照的に、より強力な ID 解決エンジンにはルール エンジンとワークフロー プロセスも含まれており、解決された ID とその関係にビジネス インテリジェンスを適用します。これらの高度なテクノロジーは、自動化された意思決定を行い、リアルタイムでビジネス プロセスに影響を与えるため、人間の介入の必要性が制限されます。

確定的なレコードのリンク

決定論的またはルールベースのレコード リンケージと呼ばれる最も単純な種類のレコードリンケージは、使用可能なデータ セット間で一致する個々の識別子の数に基づいてリンクを生成します。[10] 2 つのレコードは、すべてまたは一部の識別子 (特定のしきい値を超える) が同一である場合、決定論的なレコード リンケージ手順を介して一致すると言われます。データ セット内のエンティティが共通の識別子によって識別される場合、またはデータの品質が比較的高いいくつかの代表的な識別子 (個人を識別する場合の名前、生年月日、性別など) がある場合、決定論的レコード リンケージは適切なオプションです。高い。

例として、病院システムの患者に関するさまざまな情報を含む 2 つの標準化されたデータ セット、セット A とセット B について考えてみます。2 つのデータ セットは、さまざまな識別子 (社会保障番号(SSN)、名前、生年月日 (DOB)、性別、郵便番号(ZIP)) を使用して患者を識別します。2 つのデータ セットのレコード (「#」列で識別) を以下に示します。

データセット # SSN 名前 生年月日 セックス ジップ
セットA 1 000956723 スミス、ウィリアム 1973/01/02 94701
2 000956723 スミス、ウィリアム 1973/01/02 94703
3 000005555 ジョーンズ、ロバート 1942/08/14 94701
4 123001234 スー、メアリー 1972/11/19 女性 94109
セットB 1 000005555 ジョーンズ、ボブ 1942/08/14
2 スミス、ビル 1973/01/02 94701

最も単純な決定論的なレコード リンケージ戦略は、一意に識別されると想定される単一の識別子 (SSN など) を選択し、同じ値を共有するレコードは同じ人物を識別し、同じ値を共有しないレコードは異なる人物を識別すると宣言することです。この例では、SSN に基づく決定論的リンケージは、A1 と A2 に基づくエンティティを作成します。A3 と B1; そしてA4。A1、A2、および B2 は同じエンティティを表しているように見えますが、SSN の値がないため、B2 は一致に含まれません。

欠落している識別子などの例外を処理するには、追加のレコード リンク ルールを作成する必要があります。SSN が見つからない場合のルールの 1 つは、名前、生年月日、性別、郵便番号を他のレコードと比較して、一致するものを見つけることです。上記の例では、名前がまだわずかに異なるため、このルールは A1/A2 と B2 を一致させません。標準化によって名前が適切な (姓、名) 形式に変換されましたが、"Bill" をニックネームとして識別できませんでした。ウィリアム」。SoundexNYSIISmetaphoneなどの音声アルゴリズムによる名前の実行、これらのタイプの問題を解決するのに役立ちます (ただし、結婚または離婚の結果としての姓の変更につまずく可能性があります) が、A2 の郵便番号が異なるため、B2 は A1 とのみ一致します。したがって、特定の識別子 (郵便番号など) の違いが許容できるかどうか (生年月日など) を判断するために、別のルールを作成する必要があります。

この例が示すように、データ品質がわずかに低下したり、データの複雑さがわずかに増加しただけでも、レコードを適切にリンクするために必要なルールの数が大幅に増加する可能性があります。最終的に、これらのリンケージ ルールは非常に多くなり、相互に関連するようになり、専用のソフトウェア ツールを使用しないと構築できなくなります。さらに、リンケージ ルールは、多くの場合、相互にリンクするように設計されたデータ セットの性質に固有です。ある研究では、SSN、NYSIIS でエンコードされた名、誕生月、および性別を使用して、社会保障死亡マスター ファイルを米国中西部の 2 つの病院登録と関連付けることができましたが、これらのルールは他の地理的なデータ セットではうまく機能しない可能性があります。地域または若い人口で収集されたデータを使用します。[11] したがって、新しいデータがシステムに入ってリンクが必要になったときに、これらのルールが期待どおりに機能し続けることを確認するには、これらのルールの継続的な保守テストが必要です。当初の予想とは異なる特性を示す新しいデータは、レコード リンケージ ルール セットの完全な再構築を必要とする可能性があり、これは非常に時間と費用がかかる作業になる可能性があります。

確率的記録リンケージ

確率的レコード リンケージファジー マッチングとも呼ばれます(確率的マージまたはファジー マージとも呼ばれます)。データベースのマージのコンテキストで)、より広い範囲の潜在的な識別子を考慮に入れ、一致または不一致を正しく識別する推定能力に基づいて各識別子の重みを計算することにより、レコードリンケージの問題に対して異なるアプローチをとります。これらの重みを使用して、特定の 2 つのレコードが同じエンティティを参照する確率を計算します。特定のしきい値を超える確率を持つレコード ペアは一致と見なされ、別のしきい値を下回る確率を持つペアは一致しないと見なされます。これら 2 つのしきい値の間にあるペアは、「可能な一致」と見なされ、それに応じて処理できます (要件に応じて、人間によるレビュー、リンク、またはリンクなしなど)。

多くの確率的レコード リンケージ アルゴリズムは、一致/不一致の重みを識別子に割り当てる 2 つの確率を使用します。. の確率は、2 つの一致しないレコードの識別子が純粋に偶然に一致する確率です。たとえば、誕生月の確率 (ほぼ均一に分布する 12 個の値がある場合) は; 一様に分布していない値を持つ識別子は異なる異なる値の確率 (欠損値を含む可能性があります)。の確率は、一致するペアの識別子が一致する (または、ジャロ・ウィンクラー距離またはレーベンシュタイン距離が低い文字列など、十分に類似している)確率です。この値は完全なデータの場合ですが、これが真であることはめったにない (あったとしても) ことを考えると、代わりに推定することができます。この推定は、データ セットの事前の知識に基づいて、多数の一致するペアと一致しないペアを手動で識別して確率的レコード リンケージ アルゴリズムを「トレーニング」するか、アルゴリズムを繰り返し実行して、確率。の値の場合を推定することになった。確率の場合、誕生月識別子の一致/不一致の重みは次のようになります。

結果 リンクの割合 非リンクの割合 度数比 重さ
マッチ
不一致

一致/不一致の重みを見つけるために、検討中の他のすべての識別子に対して同じ計算が行われます。次に、あるレコードのすべての識別子が別のレコードの対応する識別子と比較され、ペアの合計重みが計算されます。一致重みは、識別子のペアが一致するたびに現在の合計に追加されますが、一致しない重みが追加ます。 (つまり、現在の合計が減少します) 識別子のペアが一致しないときはいつでも。次に、結果として得られる総重量を前述のしきい値と比較して、ペアをリンクするか、リンクしないか、または特別な考慮 (手動検証など) のために取っておくかを決定します。[12]

一致/不一致のしきい値をどこに設定するかを決定することは、許容できる感度(または再現率、アルゴリズムによってリンクされた真に一致するレコードの割合) と正の予測値(または精度、リンクされたレコードの割合)の取得の間のバランスをとる作業です。本当に一致するアルゴリズムによって)。最良のしきい値を予測するために、さまざまな手動および自動化された方法が利用可能であり、一部のレコード リンケージ ソフトウェア パッケージには、ユーザーが最も許容できる値を見つけるのに役立つツールが組み込まれています。これは、特に大規模なデータ セットの場合、非常に計算量の多いタスクになる可能性があるため、ブロッキングと呼ばれる手法を使用します。効率を上げるためによく使われます。ブロッキングは、1 つ以上の特に識別可能な識別子が一致するレコードのみに比較を制限しようとします。これは、感度 (リコール) を犠牲にして正の予測値 (精度) を高める効果があります。[12] たとえば、音声コード化された姓と郵便番号に基づいてブロックすると、必要な比較の総数が減り、リンクされたレコードが正しい可能性が高くなります (2 つの識別子が既に一致しているため) が、同じ人を参照しているレコードを見逃す可能性があります。姓または郵便番号が異なる (たとえば、結婚または転勤による)。誕生月に基づくブロックは、データ エラーが発生した場合にのみ変更されると予想されるより安定した識別子であり、正の予測値の向上と感度の低下はより控えめになりますが、12 の異なるグループしか作成されず、大規模なデータセットでは、計算速度が大幅に改善されない場合があります。したがって、

機械学習

近年、さまざまな機械学習技術がレコード連携に利用されています。[7]上記で概説した確率的レコード リンケージのための古典的な Fellegi-Sunter アルゴリズムは、機械学習の分野におけるNaive Bayesアルゴリズムと同等であることが[13]認識されており、その機能の独立性の同じ仮定に悩まされています (通常は正しくない仮定)。[14] [15] 多くの場合、単層パーセプトロン[7] ランダム フォレストSVMなど、さまざまな他の機械学習手法を使用することで、より高い精度を実現できます。[16]分散技術と組み合わせることで、[17]記録リンケージの精度とスケールをさらに向上させることができます。

ヒューマン・マシン・ハイブリッド・レコード・リンケージ

多くの場合、高品質のレコード リンケージには、混沌としたビッグ データの変化し続けるストリームの不確実性を安全に管理するための人間と機械のハイブリッド システムが必要です。[18] [19]リンケージエラーがリンクされたデータとその分析に伝播することを認識して、インタラクティブなレコードリンケージシステムが提案されました。インタラクティブな記録リンケージは、自動化された方法からの結果を人々が繰り返し微調整し、不確実性とその後の分析への伝播を管理することとして定義されます。[20]インタラクティブなレコード リンケージ システムの主な目的は、不確実なリンケージを手動で解決し、特定のアプリケーションで許容可能なレベルになるまで結果を検証することです。人間の対話段階でのプライバシーを強化する対話型記録リンケージのバリエーションも提案されています。[21] [22]

プライバシー保護記録連携

さまざまな組織が保有するデータベース間での記録のリンケージがますます必要とされており、これらの組織が保有する補完的なデータは、たとえば、特定の薬物副作用の影響を受けやすい患者を特定するのに役立ちます(病院、医師、薬局のデータベースをリンク)。しかし、多くのそのようなアプリケーションでは、リンクされるデータベースには、組織間で共有できない個人に関する機密情報が含まれています。[23]

プライバシー保護記録リンケージ (PPRL) メソッドは、リンケージに参加する組織間で元の機密値を共有する必要なしにデータベースをリンクすることを目的として開発されました。[24] [25] PPRL では、一般に、比較対象のレコードの属性値は何らかの形式でエンコードまたは暗号化されます。よく使用されるこのようなエンコード手法はブルーム フィルター[26]です。これにより、対応する機密性の高いプレーン テキスト値を共有する必要なく、エンコードされた値間で近似的な類似性を計算できます。PPRL プロセスの最後に、一致として分類されたレコード ペアに関する限られた情報のみが、リンケージ プロセスに参加する組織に公開されます。PPRL で使用される手法[24]参加組織も外部の敵対者も、リンクされているデータベースのレコードによって表されるエンティティのプライバシーを侵害できないことを保証する必要があります。[27]

数学的モデル

A と B の 2 つのファイルがあるアプリケーションで、行 ( records ) を次のように表します。ファイルAとファイル B で。代入 各レコードの特徴。同一のエンティティを表すレコードのセットは、によって定義されます。

と集合の補数、つまりセット異なるエンティティを表すことは次のように定義されます

.

ベクトル、が定義されており、各特性に関するコード化された合意と不一致が含まれています。

どこファイル内の特徴 (性別、年齢、婚姻状況など) の添字です。特定のベクトルを観測する条件付き確率与えられたとして定義されます

それぞれ。[6]

アプリケーション

マスターデータ管理

ほとんどのマスター データ管理(MDM) 製品は、レコード リンケージ プロセスを使用して、同じ現実世界のエンティティを表すさまざまなソースからのレコードを識別します。このリンケージは、エンティティに関するクリーンで調整されたデータを含む「ゴールデン マスター レコード」を作成するために使用されます。MDM で使用される手法は、一般的にレコード リンクと同じです。MDM はこの照合を拡張して、「ゴールデン マスター レコード」を作成するだけでなく、関係を推測します。(つまり、同一/類似の姓と同一/類似の住所を持っている人は、家族関係を共有していることを意味する場合があります)。

データ ウェアハウジングとビジネス インテリジェンス

レコード リンケージは、データ ウェアハウジングビジネス インテリジェンスにおいて重要な役割を果たします。データ ウェアハウスは、さまざまな運用ソース システムからのデータを 1 つの論理データ モデルに結合する役割を果たします。その後、レポートと分析のためにビジネス インテリジェンス システムにフィードできます。各運用ソース システムには、論理データ モデルで使用される同じエンティティを識別するための独自の方法がある場合があるため、1 つのソース システム内の特定のエンティティに関する情報を、そのエンティティに関する情報とシームレスに比較できるようにするために、異なるソース間のレコード リンクが必要になります。別のソース システムからの同じエンティティ。データの標準化とそれに続くレコードのリンクは、多くの場合、データの「変換」部分で発生します。抽出、変換、ロード(ETL) プロセス。

歴史研究

国勢調査記録や教区登録簿などのほとんどのデータセットは、国民識別番号が発明されるずっと前に記録されたため、記録のリンケージは社会史研究にとって重要です。古い情報源がデジタル化された場合、データセットのリンクは縦断研究の前提条件です。このプロセスは、名前の標準的な綴りの欠如、住居によって変化する姓、行政上の境界の変更、および他のソースとのデータの照合の問題によって、さらに複雑になることがよくあります。レコード リンケージは、1980 年代の歴史とコンピューティングの分野で最も重要なテーマの 1 つでしたが、それ以来、研究ではあまり注目されていません。[引用が必要]

医療行為と研究

記録連携は、国民の健康や医療制度そのものを調べるために必要なデータを作成するための重要なツールです。データ保持、データ収集、品質評価、および情報の普及を改善するために使用できます。データ ソースを調べて、重複した記録を排除し、過少報告や欠落している症例 (国勢調査の人口数など) を特定し、個人指向の健康統計を作成し、疾病登録と健康監視システムを生成することができます。一部のがんレジストリは、さまざまなデータ ソース (入院、病理および臨床レポート、死亡登録など) をリンクしてレジストリを生成します。レコード リンケージは、ヘルス インジケーターの作成にも使用されます。たとえば、胎児と乳児の死亡率は、国の社会経済的発展、公衆衛生、健康状態の一般的な指標です。そして母子サービス。乳児の死亡記録が出生記録と一致する場合、出生時体重や在胎週数などの出生変数を、死因などの死亡データとともにデータの分析に使用できます。リンケージは、コホートまたは他のグループのフォローアップ研究に役立ち、生命状態、居住状態、または健康状態などの要因を判断できます。産業コホート、臨床試験、縦断調査の追跡調査では、死因やがんの原因を突き止めるために追跡が必要になることがよくあります。人口ベースの医学研究を可能にする成功した長期にわたる記録リンケージシステムの例は、死因など、データを分析する上で。リンケージは、コホートまたは他のグループのフォローアップ研究に役立ち、生命状態、居住状態、または健康状態などの要因を判断できます。産業コホート、臨床試験、縦断調査の追跡調査では、死因やがんの原因を突き止めるために追跡が必要になることがよくあります。人口ベースの医学研究を可能にする成功した長期にわたる記録リンケージシステムの例は、死因など、データを分析する上で。リンケージは、コホートまたは他のグループのフォローアップ研究に役立ち、生命状態、居住状態、または健康状態などの要因を判断できます。産業コホート、臨床試験、縦断調査の追跡調査では、死因やがんの原因を突き止めるために追跡が必要になることがよくあります。人口ベースの医学研究を可能にする成功した長期にわたる記録リンケージシステムの例は、ミネソタ州ロチェスターを拠点とするロチェスター疫学プロジェクト[28]

既存のソフトウェア実装に対する批判

引用された主な理由は次のとおりです。[要出典]

  • プロジェクトの費用: 通常、数十万ドルの費用
  • 時間: 大規模なデータ クレンジングソフトウェアを処理する時間がない
  • セキュリティ: 情報の共有、システム間でのアプリケーション アクセスの許可、レガシー システムへの影響に関する懸念
  • スケーラビリティ: レコードに一意の識別子がないため、レコード リンクは計算コストが高く、スケーリングが困難です。[29]
  • 正確性: ビジネス データを変更し、リンクのためのすべてのルールを取得することは、困難で広範な作業です。

も参照

注記と参考文献

  1. ^ Cristen, P & T: Febrl - 自由に拡張可能な生物医学記録リンケージ (マニュアル、リリース 0.3) p.9
  2. ^ エルマガルミド、アーメド。Panagiotis G. Ipeirotis; Vassilios Verykios (2007 年 1 月)。「重複レコードの検出: 調査」(PDF) . 知識とデータ工学に関する IEEE トランザクション19 (1): pp. 1–16. ドイ: 10.1109/tkde.2007.250581 . S2CID 386036 . 2009 年 3 月 30 日閲覧  
  3. ^ シングラ、パラグ。ドミンゴス、ペドロ (2006 年 12 月)。「マルコフ論理によるエンティティ解決」(PDF) . データ マイニングに関する第 6 回国際会議 (ICDM'06) : 572–582。ドイ: 10.1109/ICDM.2006.65 . ISBN  9780769527024. S2CID  12211870 . 2023年3月1日閲覧
  4. ^ Dunn, Halbert L. (1946 年 12 月). 「レコードリンケージ」 . 公衆衛生のアメリカジャーナル36 (12): pp. 1412–1416. ドイ10.2105/AJPH.36.12.1412PMC 1624512 . PMID 18016455  
  5. ^ ニューカム、HB。JMケネディ; SJアクスフォード; AP ジェームス (1959 年 10 月)。「バイタルレコードの自動連携」。科学130 (3381): 954–959. Bibcode : 1959Sci...130..954N . ドイ: 10.1126/science.130.3381.954 . PMID 14426783 
  6. ^ a b Fellegi、Ivan ; サンター、アラン(1969年12月)。「レコードリンケージの理論」(PDF) . アメリカ統計協会のジャーナル64 (328): pp. 1183–1210. ドイ10.2307/2286061JSTOR 2286061 .  
  7. ^ a b c Wilson、D. Randall、D. Randall (2011 年 7 月 31 日 – 8 月 5 日)。確率論的記録リンケージを超えて: ニューラル ネットワークと複雑な機能を使用して系図記録リンケージを改善する(PDF) . ニューラル ネットワークに関する国際合同会議の議事録。米国カリフォルニア州サンノゼ。
  8. ^ Winkler, William E. "Matching and Record Linkage" (PDF) . 米国国勢調査局2011 年11 月 12 日閲覧
  9. ^ 教会、ティム。ピーター・クリステン; キム・リム; Justin Xi Zhu (2002 年 12 月 13 日)。「隠れマルコフモデルを用いたレコード連携用の氏名・住所データの作成」 . BMC 医療情報学と意思決定2 : 9.ドイ: 10.1186/1472-6947-2-9 . PMC 140019 . PMID 12482326  
  10. ^ ロース、LL; ワイダ A (1991 年 4 月)。「記録リンケージ戦略。パートI:情報を推定し、アプローチを評価する」. 医学における情報の方法30 (2): 117–123. ドイ: 10.1055/s-0038-1634828 . PMID 1857246 
  11. ^ グラニス、SJ。オーバーヘイジ JM; マクドナルド CJ (2002)。「決定論的リンケージ アルゴリズムを使用した識別子のパフォーマンスの分析」 . Proc AMIA Symp。: 305–9. PMC 2244404 . PMID 12463836  
  12. ^ b ブレイクリー、トニー; Salmond、Clare (2002 年 12 月)。「確率的記録連鎖と陽性的中率の計算方法」 . 疫学の国際ジャーナル31 (6): 1246–1252。ドイ: 10.1093/ije/31.6.1246 . PMID 12540730 
  13. ^ クアス、ダラン、スターキー、ポール. 「家系データベースの記録リンケージ」、ACM SIGKDD '03 データ クリーニング、記録リンケージ、およびオブジェクト統合に関するワークショップ、2003 年 8 月 24 ~ 27 日、ワシントン DC
  14. ^ Langley、Pat、Wayne Iba、および Kevin Thompson. 「ベイジアン分類子の分析」、人工知能に関する第 10 回全国会議の議事録、(AAAI-92)、AAAI プレス/MIT プレス、ケンブリッジ、マサチューセッツ州、pp. 223-228、1992 年。
  15. ^ みちえD.; Spiegelhalter、D.; テイラー、C. (1994)。機械学習、ニューラルおよび統計的分類イギリス、ハートフォードシャー:エリス・ホーウッド。ISBN 0-13-106360-X.
  16. ^ Ramezani、M.; イランゴバン、G.; クム、HC。(2021)。人間とコンピューターのハイブリッド レコード リンケージ システムにおける機械学習アルゴリズムの評価(PDF)巻。2846. CEUR ワークショップ議事録。
  17. ^ "Spark によるファジー マッチング" . スパークサミット。
  18. ^ ブロンスタイン、ジャネット M.; Lomatsch、チャールズ・T。フレッチャー、デビッド。ウッテン、テリー。リン、ツァイメイ。ニュージェント、リチャード。ローリー、カーティス L. (2008-05-01)。「メディケイド妊娠エピソードをバイタル レコード データに照合する際の問題とバイアス: アーカンソー州の経験」 . 母子健康ジャーナル. 13 (2): 250–259. ドイ10.1007/s10995-008-0347-z . ISSN 1092-7875PMID 18449631S2CID 22259447 .   
  19. ^ ボスコ、フランシス P.; シュラグ、デボラ。チェン、クン; Roohan、パトリック J。Schymura、マリア J. (2010-12-15)。「ニューヨーク州のメディケイド人口におけるがん治療を評価する能力の構築」 . 医療サービス研究46 (3): 805–820。ドイ: 10.1111/j.1475-6773.2010.01221.x . ISSN 0017-9124 . PMC 3087842 . PMID 21158856 .   
  20. ^ クム・ヘチョン; クリシュナムルシー、アショク。マチャナバジャラ、アシュウィン。ライター、マイケル・K。Ahalt、スタンリー (2014 年 3 月)。「プライバシー保護双方向記録連携(PPIRL)」 . アメリカ医療情報学会誌21 (2): 212–220. ドイ: 10.1136/amiajnl-2013-002165 . ISSN 1067-5027 . PMC 3932473 . PMID 24201028   
  21. ^ クム、HC.; Ragan、E。イランゴバン、G.; ラメザニ、M。リー、Q。シュミット、C. (2019)。インタラクティブなオンデマンドの増分情報開示インターフェースによるプライバシーの強化: プライバシー・バイ・デザインをレコードのリンケージに適用する(PDF) . Usable Privacy and Security (SOUPS) に関する第 15 回シンポジウム。pp.175–189。ISBN  978-1-939133-05-2.
  22. ^ ラガン、エリック D.; クム・ヘチョン; イランゴバン、グルデフ。王漢 (2018-04-21). 「ビジュアルマスキングによる双方向記録連携におけるプライバシーと情報開示のバランス」 . コンピューティング システムにおけるヒューマン ファクターに関する 2018 CHI 会議の議事録米国ニューヨーク州ニューヨーク: ACM: 1–12. ドイ10.1145/3173574.3173900ISBN 9781450356206. S2CID  5051254 .
  23. ^ Vatsalan、D。セヒリ、Z; クリステン、P。Rahm、E(2017)。「ビッグデータのプライバシー保護記録リンケージ:現在のアプローチと研究課題」 . ビッグデータ技術ハンドブック: 851–895. ドイ: 10.1007/978-3-319-49340-4_25 . hdl : 1885/247396ISBN 978-3-319-49339-8.
  24. ^ a b クリステン、P; ランバデュージ、T。Schnell、R(2020)。機密データのリンク: 実用的なプライバシー保護情報共有の方法とテクニック. ハイデルベルク: スプリンガー。ドイ: 10.1007/978-3-030-59706-1 . ISBN 978-3-030-59706-1. S2CID  222821833 .
  25. ^ Gkoulalas-Divanis、A; Vatsalan、D。カラピペリス、D。Kantarcioglu、M (2021)。「最新のプライバシー保護レコード リンケージ テクニック: 概要」 . 情報フォレンジックとセキュリティに関する IEEE トランザクション16 : 4966–4987. ドイ: 10.1109/TIFS.2021.3114026 . S2CID 239088979 . 
  26. ^ シュネル、R; バクテラー、T。Reiher、J(2009)。「ブルームフィルターを使ったプライバシー保護記録連携」 . BMC 医療情報学と意思決定9 : 41. doi : 10.1186/1472-6947-9-41 . PMC 2753305 . PMID 19706187 .  
  27. ^ Vidanage、A (2022). プライバシー保護記録リンケージのための効率的な暗号解読技術(論文)。キャンベラ: オーストラリア国立大学。ドイ10.25911/VSBZ-A727hdl : 1885/254502
  28. ^ St. Sauver JL; Grossardt BR; あくびBP; メルトン LJ 3 位。パンクラッツ JJ; ブルーSM; ロッカWA(2012)。「データ リソース プロファイル: ロチェスター疫学プロジェクト (REP) 医療記録リンケージ システム」 . Int Jエピデミオール41 (6): 1614–24. ドイ: 10.1093/ije/dys195 . PMC 3535751 . PMID 23159830  
  29. ^ 「大規模なエンティティ解決」 . 2020 年 2 月 14 日。

外部リンク