Files
陈赣 06f1fd69a6
Some checks failed
Self-hosted runner (nightly-past-ci-caller) / Get number (push) Has been cancelled
Self-hosted runner (nightly-past-ci-caller) / TensorFlow 2.11 (push) Has been cancelled
Self-hosted runner (nightly-past-ci-caller) / TensorFlow 2.10 (push) Has been cancelled
Self-hosted runner (nightly-past-ci-caller) / TensorFlow 2.9 (push) Has been cancelled
Self-hosted runner (nightly-past-ci-caller) / TensorFlow 2.8 (push) Has been cancelled
Self-hosted runner (nightly-past-ci-caller) / TensorFlow 2.7 (push) Has been cancelled
Self-hosted runner (nightly-past-ci-caller) / TensorFlow 2.6 (push) Has been cancelled
Self-hosted runner (nightly-past-ci-caller) / TensorFlow 2.5 (push) Has been cancelled
Self-hosted runner (benchmark) / Benchmark (aws-g5-4xlarge-cache) (push) Has been cancelled
Build documentation / build (push) Has been cancelled
Build documentation / build_other_lang (push) Has been cancelled
CodeQL Security Analysis / CodeQL Analysis (push) Has been cancelled
New model PR merged notification / Notify new model (push) Has been cancelled
PR CI / pr-ci (push) Has been cancelled
Slow tests on important models (on Push - A10) / Get all modified files (push) Has been cancelled
Secret Leaks / trufflehog (push) Has been cancelled
Update Transformers metadata / build_and_package (push) Has been cancelled
Slow tests on important models (on Push - A10) / Model CI (push) Has been cancelled
Check Tiny Models / Check tiny models (push) Has been cancelled
Self-hosted runner (Intel Gaudi3 scheduled CI caller) / Model CI (push) Has been cancelled
Self-hosted runner (Intel Gaudi3 scheduled CI caller) / Pipeline CI (push) Has been cancelled
Self-hosted runner (Intel Gaudi3 scheduled CI caller) / Example CI (push) Has been cancelled
Self-hosted runner (Intel Gaudi3 scheduled CI caller) / DeepSpeed CI (push) Has been cancelled
Self-hosted runner (Intel Gaudi3 scheduled CI caller) / Trainer/FSDP CI (push) Has been cancelled
Nvidia CI - Flash Attn / Setup (push) Has been cancelled
Nvidia CI - Flash Attn / Model CI (push) Has been cancelled
Nvidia CI / Setup (push) Has been cancelled
Nvidia CI / Model CI (push) Has been cancelled
Nvidia CI / Torch pipeline CI (push) Has been cancelled
Nvidia CI / Example CI (push) Has been cancelled
Nvidia CI / Trainer/FSDP CI (push) Has been cancelled
Nvidia CI / DeepSpeed CI (push) Has been cancelled
Nvidia CI / Quantization CI (push) Has been cancelled
Nvidia CI / Kernels CI (push) Has been cancelled
Doctests / Setup (push) Has been cancelled
Doctests / Call doctest jobs (push) Has been cancelled
Doctests / Send results to webhook (push) Has been cancelled
Extras Smoke Test / Get supported Python versions (push) Has been cancelled
Extras Smoke Test / Test extras on Python ${{ matrix.python-version }} (push) Has been cancelled
Extras Smoke Test / Check Slack token availability (push) Has been cancelled
Extras Smoke Test / Notify failures to Slack (push) Has been cancelled
Self-hosted runner (AMD scheduled CI caller) / Trigger Scheduled AMD CI (push) Has been cancelled
Stale Bot / Close Stale Issues (push) Has been cancelled
first commit
2026-06-05 16:53:03 +08:00

7.2 KiB

Data2Vec

Overview

Data2Vec モデルは、data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language で Alexei Baevski、Wei-Ning Hsu、Qiantong Xu、バArun Babu, Jiatao Gu and Michael Auli. Data2Vec は、テキスト、音声、画像などのさまざまなデータ モダリティにわたる自己教師あり学習のための統一フレームワークを提案します。 重要なのは、事前トレーニングの予測ターゲットは、モダリティ固有のコンテキストに依存しないターゲットではなく、入力のコンテキスト化された潜在表現であることです。

論文の要約は次のとおりです。

自己教師あり学習の一般的な考え方はどのモダリティでも同じですが、実際のアルゴリズムと 単一のモダリティを念頭に置いて開発されたため、目的は大きく異なります。一般に近づけるために 自己教師あり学習では、どちらの音声に対しても同じ学習方法を使用するフレームワークである data2vec を紹介します。 NLP またはコンピューター ビジョン。中心となるアイデアは、完全な入力データの潜在的な表現を、 標準の Transformer アーキテクチャを使用した自己蒸留セットアップの入力のマスクされたビュー。 単語、視覚的トークン、人間の音声単位などのモダリティ固有のターゲットを予測するのではなく、 本質的にローカルであるため、data2vec は、からの情報を含む文脈化された潜在表現を予測します。 入力全体。音声認識、画像分類、および 自然言語理解は、新しい最先端技術や、主流のアプローチに匹敵するパフォーマンスを実証します。 モデルとコードは、www.github.com/pytorch/fairseq/tree/master/examples/data2vec. で入手できます。

このモデルは、edugp および patrickvonplaten によって提供されました。 sayakpaulRocketknight1 は、TensorFlow のビジョンに Data2Vec を提供しました。

元のコード (NLP および音声用) は、こちら にあります。 ビジョンの元のコードは こちら にあります。

Usage tips

  • Data2VecAudio、Data2VecText、および Data2VecVision はすべて、同じ自己教師あり学習方法を使用してトレーニングされています。
  • Data2VecAudio の場合、前処理は特徴抽出を含めて [Wav2Vec2Model] と同じです。
  • Data2VecText の場合、前処理はトークン化を含めて [RobertaModel] と同じです。
  • Data2VecVision の場合、前処理は特徴抽出を含めて [BeitModel] と同じです。

Resources

Data2Vec の使用を開始するのに役立つ公式 Hugging Face およびコミュニティ (🌎 で示される) リソースのリスト。

Data2VecText ドキュメント リソース

Data2VecAudio ドキュメント リソース

Data2VecVision ドキュメント リソース

ここに含めるリソースの送信に興味がある場合は、お気軽にプル リクエストを開いてください。審査させていただきます。リソースは、既存のリソースを複製するのではなく、何か新しいものを示すことが理想的です。

Data2VecTextConfig

autodoc Data2VecTextConfig

Data2VecAudioConfig

autodoc Data2VecAudioConfig

Data2VecVisionConfig

autodoc Data2VecVisionConfig

Data2VecAudioModel

autodoc Data2VecAudioModel - forward

Data2VecAudioForAudioFrameClassification

autodoc Data2VecAudioForAudioFrameClassification - forward

Data2VecAudioForCTC

autodoc Data2VecAudioForCTC - forward

Data2VecAudioForSequenceClassification

autodoc Data2VecAudioForSequenceClassification - forward

Data2VecAudioForXVector

autodoc Data2VecAudioForXVector - forward

Data2VecTextModel

autodoc Data2VecTextModel - forward

Data2VecTextForCausalLM

autodoc Data2VecTextForCausalLM - forward

Data2VecTextForMaskedLM

autodoc Data2VecTextForMaskedLM - forward

Data2VecTextForSequenceClassification

autodoc Data2VecTextForSequenceClassification - forward

Data2VecTextForMultipleChoice

autodoc Data2VecTextForMultipleChoice - forward

Data2VecTextForTokenClassification

autodoc Data2VecTextForTokenClassification - forward

Data2VecTextForQuestionAnswering

autodoc Data2VecTextForQuestionAnswering - forward

Data2VecVisionModel

autodoc Data2VecVisionModel - forward

Data2VecVisionForImageClassification

autodoc Data2VecVisionForImageClassification - forward

Data2VecVisionForSemanticSegmentation

autodoc Data2VecVisionForSemanticSegmentation - forward