最近、ある概念を見ました:LVM(Large Vision Model)。もちろん、私はこの分野の専門家ではないので、浅く学んでみるだけです。
大型視覚モデル(LVM)は、画像の処理と理解に焦点を当てた人工知能モデルです。大規模言語モデル(LLM)がテキストベースのインテリジェンスの集合体であるのと同じように、LVMはさまざまな分類段階を持つ物体や事物の画像の集合体です。
吴恩達教授の共有内容は以下の通りです:
吴教授は主に特定ドメインのLVMについて説明しています。彼らの公式サイトはこちらです:https://landing.ai/。特定ドメインとは、農業、医療機器、製造業などの特定の産業や領域に関連する一連の特定画像で訓練されることを指します。これらのモデルのドメイン特有性により、数十万、数百万、場合によっては数十億にも及ぶ企業独自のプライベート画像を使用して訓練することができます。
LVMの発展は、画像処理分野における革命と見なされており、これはLLMの発展が私たちのテキスト処理方法を変えたのと同じようにです。しかし、両者の間には重要な違いがあります。LLMがインターネット上のテキストから学習する内容は、多くの企業のテキストと十分似ているためモデルに適用できますが、多くの企業が保有する独自の画像は、オンラインで見つかる典型的な画像とは大きく異なることがあります。
畢竟、私も産業内の専門家ではないので、今日は表面的なことを学ぶだけです。😓