Larrabee(マイクロアーキテクチャ)

ウィキペディアから、無料の百科事典
ナビゲーションにジャンプ 検索にジャンプ
2008年8月SIGGRAPHカンファレンスで発表されたLarrabeeGPUアーキテクチャ

Larrabeeは、Intel現在の統合グラフィックアクセラレータのラインとは別に開発していたキャンセルされたGPGPUチップのコードネームですワシントンワットコム郡のベリンガムの町の近くにあるララビーまたはララビー州立公園ちなんで名付けられました[1] [2]このチップは、消費者向け3Dグラフィックカードのコアとして2010年にリリースされる予定でしたが、遅延と初期のパフォーマンス数値の失望により、これらの計画はキャンセルされました。[3] [4] Larrabee研究プロジェクトから直接GPU小売製品を生産するプロジェクトは、2010年5月に終了しました[5]。そしてその技術はXeonPhiに受け継がれましたインテルMICマルチプロセッサ、2010年に発表されたアーキテクチャは、ララビープロジェクトから多くのデザイン要素を継承しますが、ユニットを処理し、グラフィックスとして機能しません。この製品は、ハイパフォーマンスコンピューティングのコプロセッサーとして使用することを目的としています。

ほぼ10年後の2018年6月12日。Intel専用GPUのアイデアは、2020年までに発売される予定のディスクリートGPUを作成したいというIntelの願望により、(Intel Xeとして再び復活しました。[6]ただし、この新しい開発がLarrabeeの開発に関連しているかどうかは不明です。

プロジェクトステータス

2009年12月4日、Intelは、第1世代のLarrabeeがコンシューマーGPU製品としてリリースされないことを正式に発表しました。[7]代わりに、グラフィックスおよびハイパフォーマンスコンピューティングの開発プラットフォームとしてリリースされる予定でした戦略的リセットの公式の理由は、ハードウェアとソフトウェアの開発の遅れに起因していました。[8]で2010年5月25日、インテル@テクノロジーはララビーは、GPUとしてリリースされないだろうが、その代わりと競合コンピューティング、高性能のための製品としてリリースすることを発表ブログのNvidia Teslaの[9]

ララビーの研究プロジェクトから直接GPUの小売製品を製造するためのプロジェクトは、2010年5月に終了した[5]インテルMICのマルチプロセッサアーキテクチャはララビープロジェクトから2010継承された多くのデザイン要素に発表されたが、機能ユニットを処理し、グラフィックスとしてはありません。この製品は、ハイパフォーマンスコンピューティングのコプロセッサーとして使用することを目的としています。プロトタイプのカードが選ばれました騎士フェリー、名前の22ナノメートルプロセスで構築された生産カード騎士コーナーは、 2012年以降に生産のために計画されました。[引用が必要]

競合製品との比較

Intelによると、部分的にしかプログラムできない現世代のグラフィックカードとは対照的に、Larrabeeには完全にプログラム可能なパイプラインがあります。

Larrabeeは、マルチコア CPUGPUのハイブリッドと見なすことができ、両方に類似しています。その一貫したキャッシュ 階層x86アーキテクチャの互換性はCPUに似ていますが、その広いSIMDベクトルユニットとテクスチャサンプリングハードウェアはGPUに似ています。

GPUとして、Larrabeeはゲーム用の従来のラスタライズされた3DグラフィックスDirect3DおよびOpenGL)をサポートしていました。ただし、CPUとGPU機能のハイブリッド化は、汎用GPU(GPGPU)またはストリーム処理タスクにも適しているはずです。たとえばスーパーコンピューターのコンポーネントとして、ゲームの場合リアルタイムで、科学研究の場合はオフラインでレイトレーシングまたは物理処理[10]を実行した可能性があります[11]

Larrabeeの初期のプレゼンテーションは、GPUの競合他社からいくつかの批判を集めました。でNVISION 08のNvidia従業員は、インテルのと呼ばれるSIGGRAPHの業界アナリスト(「パフを販売」と引用さララビーに関する論文ピーターGlaskowskyララビー・アーキテクチャは「のようなものだったと推測)GPU 2006年を」。[12] 2009年6月までに、IntelはLarrabeeのプロトタイプがNvidia GeForce GTX285と同等であると主張しました[13] ジャスティン・ラトナー、インテルCTOは、2009年11月17日に開催されたSupercomputing 2009カンファレンスで基調講演を行いました。講演中に、彼はオーバークロックされたLarrabeeプロセッサのパフォーマンスが1テラフロップスを超えていることを示しました。彼は、これが1テラフロップスを超えるシングルチップシステムの最初の公開デモンストレーションであると主張しました。彼は、これは初期のシリコンであり、それによってアーキテクチャの最終的なパフォーマンスに関する疑問を残していると指摘しました。これは利用可能な競合グラフィックスボードの5分の1にすぎなかったため、Larrabeeは2009年12月4日に「スタンドアロンのディスクリートグラフィックス製品として」キャンセルされました。[3]

最新のGPUとの違い

Larrabeeは、GeForce200シリーズRadeon4000シリーズなどの古いディスクリートGPUと3つの主要な点で異なることを目的としていました。

  • Larrabee固有の拡張機能を備えx86命令セットを使用することでした[14]
  • それは、すべてのコアにわたってキャッシュコヒーレンシ特徴とすることでした[14]
  • タイルベースのレンダリングアプローチを使用して、ソフトウェアでのzバッファリング、クリッピング、ブレンディングなどのタスクを実行する代わりに、特殊なグラフィックハードウェアをほとんど含めることはありませんでした[14]

これにより、Larrabeeは現在のGPUよりも柔軟性が高くなり、ゲームや他の3Dアプリケーション間で外観をより差別化できるようになると期待されていました。IntelのSIGGRAPH2008の論文では、現在のGPUでは実現が困難ないくつかのレンダリング機能について言及しています。レンダリングターゲットの読み取り、順序に依存しない透過性不規則なシャドウマッピング、リアルタイムレイトレーシングです。[14]

ATIのRadeonHD5xxxやNvidiaのGeForce400シリーズなどの最近のGPUは、DirectX11 DirectComputeとOpenCLを介したますます幅広い汎用コンピューティング機能と、Nvidia独自のCUDAテクノロジーを備えており、Larrabeeの機能の多くを提供します。

CPUとの違い

ララビーでx86プロセッサ・コアのような現在のインテルのCPUにコアからいくつかの点で異なってCore 2 DuoプロセッサまたはコアI7

  • そののx86コアがはるかに簡単に基づいていたP54C ペンティアムまだで使用するために維持されている設計組込みアプリケーションに最適です。[15] P54C由来のコアであるスーパースカラが、含まれていないアウトオブオーダー実行を、それのような現代的な機能と更新されているが、x86-64のサポート、[14] に類似ボンネルマイクロアーキテクチャで使用されるアトム順序どおりに実行すると、個々のコアのパフォーマンスが低下しますが、コアが小さいため、より多くのコアを1つのチップに収めることができ、全体的なスループットが向上します。実行もより決定論的であるため、コンパイラーは命令とタスクのスケジューリングを行うことができます。
  • 各コアには512ビットのベクトル処理ユニットが含まれており、一度に16個の単精度浮動小数点数を処理できます。これは、ほとんどのx86プロセッサのSSEユニットと似ていますが、4倍大きく、スキャッタ/ギャザー命令や、ベクトルユニットの使用をより簡単かつ効率的にするように設計されたマスクレジスタなどの追加機能があります。Larrabeeは、これらのベクトル単位からその数の計算能力のほとんどを引き出すことになっていました。[14]
  • これには、1つの主要な固定機能グラフィックハードウェア機能であるテクスチャサンプリングユニットが含まれていましたこれらは、トリリニアおよび異方性フィルタリングテクスチャ解凍を実行します。[14]
  • コア間およびメモリへの通信用に1024ビット(片道512ビット)のリングバスがありました。[14]このバスは、16コア以上または16コア未満のLarrabee製品をサポートするように2つのモードで構成できます。[16]
  • これには、データの読み取り/書き込みを1回だけ行うストリーミング操作中のキャッシュスラッシングを減らすための明示的なキャッシュ制御命令が含まれていました。[14] L2またはL1キャッシュへの明示的なプリフェッチもサポートされています。
  • 各コアは、各プロセッサレジスタの4つのコピーを使用して、4ウェイインターリーブマルチスレッドをサポートしていました[14]

理論的には、Larrabeeのx86プロセッサコアは、既存のPCソフトウェア、さらにはオペレーティングシステムを実行することができたはずです。プロセッサの異なるバージョンが使用してマザーボードのCPUソケットに座る可能性があるのQuickPathを[17]が、インテルは、このための任意の計画を発表したことはありません。 LarrabeeのネイティブC / C ++コンパイラには自動ベクトル化が含まれており、多くのアプリケーションは再コンパイル後に正しく実行できましたが、最大の効率を得るには、C ++ベクトル組み込み関数またはインラインLarrabeeアセンブリコードを使用したコードの最適化が必要でした。[14]ただし、すべてのGPGPUと同様に、すべてのソフトウェアがベクトル処理ユニットの利用から恩恵を受けたわけではありません。ある技術ジャーナリズムサイトは、Larrabeeのグラフィックス機能がHaswellマイクロアーキテクチャに基づいてCPUに統合される予定であると主張しています。[18]

Cellブロードバンドエンジンとの比較

多くの小さくて単純なコアを使用するというLarrabeeの哲学は、Cellプロセッサの背後にある考え方と似ていましたコア間で通信するために高帯域幅のリングバスを使用するなど、さらにいくつかの共通点があります。[14]しかしながら、Larrabeeのプログラミングをより簡単にすることが期待された実装には多くの重要な違いがありました。

  • Cellプロセッサには、多くの小さなプロセッサを制御する1つのメインプロセッサが含まれています。さらに、メインプロセッサはオペレーティングシステムを実行できます。対照的に、Larrabeeのコアはすべて同じであり、LarrabeeがOSを実行することは期待されていませんでした。
  • セル(SPE内の各コンピューターコアにはローカルストアがあり、DRAMへのすべてのアクセスに明示的(DMA)操作が使用されます。通常のDRAMへの読み取りと書き込みは許可されていません。 Larrabeeでは、すべてのオンチップメモリ​​とオフチップメモリ​​が自動的に管理されるコヒーレントキャッシュ階層のにあるため、そのコアは標準コピー(MOV)命令を通じて実質的に均一なメモリ空間を共有していました。 Larrabeeコアにはそれぞれ256KBのローカルL2キャッシュがあり、別のL2セグメントにヒットするアクセスはアクセスに時間がかかります。[14]
  • 上記のキャッシュコヒーレンシにより、Larrabeeで実行されている各プログラムは、従来の汎用CPUと同様に、実質的に大きな線形メモリを備えていました。一方、Cellのアプリケーションは、各SPEに関連付けられているローカルストアの限られたメモリフットプリントを考慮してプログラムする必要があります(詳細については、この記事を参照してください)が、理論的にはより高い帯域幅を使用します。ただし、ローカルL2へのアクセスは高速であるため、セルスタイルのプログラミング方法を使用することで利点を得ることができます。[要出典]
  • Cellは、オンチップローカルメモリとの間のデータ転送にDMA使用します。これにより、ローカルメモリに格納されているオーバーレイを明示的に維持して、メモリをコアに近づけ、アクセスレイテンシを短縮できますが、メインメモリとの一貫性を維持するには追加の作業が必要です。一方、Larrabeeは、キャッシュ操作用の特別な命令(特に、キャッシュエビクションヒントとプリフェッチ命令)を備えたコヒーレントキャッシュを使用しました。これにより、ミスとエビクションのペナルティが軽減され、キャッシュの汚染が軽減されます(パイプラインやその他のストリームのような計算のレンダリングなど)。キャッシュの一貫性を維持するための追加のトラフィックとオーバーヘッド。[14]
  • セル内の各計算コアは、一度に1つのスレッドのみを順番に実行します。Larrabeeのコアは最大4つのスレッドを実行しましたが、一度に1つしか実行しませんでした。Larrabeeのハイパースレッディングは、順序どおりの実行に固有のレイテンシーを隠すのに役立ちました。[引用が必要]

IntelGMAとの比較

Intelは2004年にIntelGMAブランドでマザーボードへのGPUラインの統合を開始しました。マザーボードに統合されたため(Sandy Bridgeでリリースされたものなどの新しいバージョンはCPUと同じダイに組み込まれています)、これらのチップは別売りではありませんでした。Intel GMAチップは低コストで消費電力が少ないため、小型のラップトップやそれほど要求の厳しいタスクには適していませんが、ハイエンドのゲーミングコンピューター市場のシェアを求めて現代のNvidiaやAMD / ATIGPUと競合する3Dグラフィックス処理能力が不足しています。 、HPCマーケット、または人気のあるビデオゲームコンソールの場所対照的に、Larrabeeはマザーボードとは別のディスクリートGPUとして販売される予定であり、次世代のビデオゲームコンソールで検討するのに十分なパフォーマンスが期待されていました。[19] [20]

Larrabeeに取り組んでいるチームは、IntelGMAチームとは別でした。ハードウェアはネハレムを設計したチームとは別に、オレゴン州ヒルズボロのインテルのサイトで新しく結成されたチームによって設計されましたソフトウェアとドライバーは、新しく結成されたチームによって作成されました。3Dスタックは、特にRAD Game Toolsの開発者Michael Abrashを含むによって作成されました[21]

Intel Visual Computing Instituteは、Larrabeeベースの製品に適用できる基礎技術と応用技術を研究します。[22]

予測されるパフォーマンスデータ

2008 SIGGRAPHペーパーのベンチマーク結果。予測されたパフォーマンスは、処理コア数の近似線形関数として示されています。

IntelのSIGGRAPH2008ペーパーでは、Larrabeeの予測パフォーマンスのサイクル精度のシミュレーション(メモリ、キャッシュ、テクスチャユニットの制限が含まれています)について説明しています[14]グラフは、いくつかの人気のあるゲームで1600×1200の解像度で60フレーム/秒を維持するために必要な1 GHzLarrabeeコアの数を示しています。Gears of Warにはアンチエイリアシングなし約25コアFEARには4倍アンチエイリアシングありで25コア、Half-Life 2:Episode2では10コアが必要です。4倍のアンチエイリアスを使用します。 Intelは、Larrabeeは1 GHzよりも高速に実行される可能性が高いと主張しているため、これらの数値は実際のコアではなく、そのような仮想タイムスライスを表しています。別のグラフは、これらのゲームのパフォーマンスが最大32コアのコア数にほぼ直線的に比例することを示しています。 48コアでは、線形関係が継続した場合に期待されるパフォーマンスの90%にパフォーマンスが低下します。[23]

A 2007年6月PCウォッチ最初のララビーチップは32個のx86プロセッサコアを備えていますし、2009年後半に出てくるだろうと示唆した記事では、上に製造された45ナノメートルプロセス歩留まりの問題によりコアに欠陥がいくつかあるチップは、24コアバージョンとして販売されます。2010年後半、Larrabeeは、48コアバージョンを可能にするために32ナノメートルの製造プロセスのために縮小されました[24]

パフォーマンスの最後のステートメントは、次のように計算できます(理論的にはこれが可能な最大パフォーマンスです)。理論的には、32コア×16単精度浮動小数点SIMD /コア×2FLOP(融合積和)×2 GHz = 2TFLOPSです。

公開デモ

Larrabeeアーキテクチャの公開デモンストレーションは、2009年9月22日にサンフランシスコで開催されたIntel DeveloperForumで行われました。以前のCPUベースの研究プロジェクトQuakeWars:RayTracedの初期の移植版がリアルタイムで表示されました。シーンには、船やいくつかの空飛ぶ乗り物などの周囲のオブジェクトを正確に反射する光線追跡された水面が含まれていました。

2番目のデモは、2009年11月17日にポートランドで開催されたSC09会議で、IntelCTOのジャスティンラトナーによる基調講演で行われましたLarrabeeカードは、SGEMM4Kx4Kの計算で1006GFLopsを達成することができました。

Larrabeeカードのエンジニアリングサンプルは、2018年5月14日に公開されたビデオでLinus Sebastianによって調達およびレビューされました。ただし、マザーボードにPOSTコードD6が表示されているため、カードにビデオ出力を提供させることはできませんでした。[25]

も参照してください

参考文献

  1. ^ フォーサイス、トム。「SMACNIからAVX512への命令セットのライフサイクル」 (PDF)
  2. ^ フォーサイス、トム(2020-12-22)。「Larrabee命令セットの命名に関するトムフォーサイス」2020年12月22日にオリジナルからアーカイブされました20201222日取得
  3. ^ a b Crothers、ブルック(2009年12月4日)。「Intel:最初のLarrabeeグラフィックチップがキャンセルされました」CNETCBSインタラクティブ
  4. ^ チャーリーDemerjian(2009年12月4日)。「Intelは消費者のLarrabeeを殺害し、将来の亜種に焦点を当てる-SemiAccurate」SemiAccurate.com 2017年4月9日取得
  5. ^ a b スミス、ライアン(2010年5月25日)。「IntelはLarrabeeGPUを殺し、ディスクリートグラフィックス製品を市場に投入しません」AnandTech
  6. ^ スミス、ライアン(2018年6月13日)。「2020年に向けたインテル初の(最新の)ディスクリートGPUセット」アナンドテック2018年11月4日取得
  7. ^ ストークス、ジョン(2009年12月5日)。「IntelのLarrabeeGPUが氷上に置かれ、2010年にはさらに多くのニュースが来る」ArsTechnicaコンデナスト
  8. ^ スミス、ライアン。「IntelはLarrabee小売製品をキャンセルし、Larrabeeプロジェクトは存続しますAnandTech.com 2017年4月9日取得
  9. ^ 「Blogs @ Intel-Intelブログ」Intel.com 2017年4月9日取得
  10. ^ ストークス、ジョン。「Intelは、今後のGPU製品のためにゲーム物理エンジンを採用しました」ArsTechnica 20079月17日取得
  11. ^ ストークス、ジョン。「IntelのLarrabeeに関する混乱を解消する」ArsTechnica 2007年6月1日取得
  12. ^ 「ララビーパフォーマンス-サウンドバイトを超えて」CNet.com 2017年4月9日取得
  13. ^ 「GeForceGTX285と同等のIntelの「Larrabee」」TomsHardware.com2009年6月2日2017年4月9日取得
  14. ^ a b c d e f g h i j k l m n o Seiler、L。;キャビン、D。;エスパサ、E。; Grochowski、T。;フアン、M。;ハンラハン、P。; Carmean、S。; Sprangle、A。;フォーサイス、J。; Abrash、R。; Dubey、R。;ジュンキンス、E。;湖、T。; Sugerman、P。(2008年8月)。「Larrabee:ビジュアルコンピューティングのためのメニーコアx86アーキテクチャ」(PDF)グラフィックスでのACMトランザクション。 ACM SIGGRAPH 2008年の議事録27(3):午後06時11。土井10.1145 /1360612.1360617ISSN 0730から0301まで2008年8月6日取得  
  15. ^ 「秘密のペンタゴン技術に基づくIntelのLarrabeeGPU、sorta [更新]」ArsTechnica 2008年8月6日取得
  16. ^ グラスコウスキー、ピーター。「IntelのLarrabee--目に見える以上のもの」CNET 2008年8月20日取得
  17. ^ ストークス、ジョン。「IntelのLarrabee、パートIIに関する混乱を解消する」ArsTechnica 2008年1月16日取得
  18. ^ 「CPUでLarrabeeグラフィックスを使用するIntel-SemiAccurate」SemiAccurate.com2009年8月19日2017年4月9日取得
  19. ^ クリスレイトン(2008年8月13日)。「IntelのLarrabeeは次世代コンソールに向けて形を整えていますか?」2008年8月17日にオリジナルからアーカイブされまし2008年8月24日取得
  20. ^ チャーリーDemerjian(2009年2月5日)。「IntelWillDesign PlayStation4GPU」2009年5月11日にオリジナルからアーカイブされました2009年8月28日取得CS1 maint:不適切なURL(リンク
  21. ^ ウィルソン、アナンドラルシンピ&デレク。「IntelのLarrabeeアーキテクチャの開示:計算された最初の動き」AnandTech.com 2017年4月9日取得
  22. ^ Ng、Jansen(2009年5月13日)。「IntelVisualComputing Instituteがオープンし、「Larrabee」開発に拍車をかけますDailyTech2009年5月16日にオリジナルからアーカイブされまし2009年5月13日取得
  23. ^ スティーブ・シギーン(2008年8月20日)。「Intelの「Larrabee」からShakeup [原文のまま] AMD、Nvidia」トムスハードウェア2008年8月24日取得
  24. ^ ララビー「Intelは32コアCPU推進している『(日本語で)を。pc.watch.impress.co.jp 2008年8月6日取得翻訳
  25. ^ Linus Tech Tips(2018-05-14)、インテルのプロトタイプグラフィックカードを入手しました!! 、取得済み2019-05-10

外部リンク