DeepSeek

GRPO(グループ相対方策最適化)学習ノート

GRPO(グループ相対方策最適化)学習ノート

私たちは、Proximal Policy Optimization (PPO) の変種である Group Relative Policy Optimization (GRPO) を紹介します。

DeepSeek #オープンソースウィーク - 連続5日間の公開

DeepSeek #オープンソースウィーク - 連続5日間の公開

私たちは小さなチームです@deepseek_aiでAGIを探索しています。

アンドレジ・カルパシーによる大規模言語モデル(LLM)技術の詳細解説(パート1)-【事前学習と推論】

アンドレジ・カルパシーによる大規模言語モデル(LLM)技術の詳細解説(パート1)-【事前学習と推論】

- はじめに - 事前学習データ (インターネット) - トークナイゼーション - ニューラルネットワークの入出力 - ニューラルネットワーク内部 - 推論

DeepSeek Janusシリーズ:統合型多モーダル理解および生成モデル

DeepSeek Janusシリーズ:統合型多モーダル理解および生成モデル

ヤヌスシリーズ:統合されたマルチモーダル理解および生成モデル

ChatGPT o1 pro と DeepSeek R1 の思考プロセスの比較

ChatGPT o1 pro と DeepSeek R1 の思考プロセスの比較

DeepSeek R1 対 ChatGPT 01 (私の経験)

DeepSeek R1:X.com ユーザーの評価

DeepSeek R1:X.com ユーザーの評価

Deepseek-r1はオープンソースであり、o1 previewと同等 - @bindureddy

DeepSeek-R1の論文:次世代推論モデルの探求と突破

DeepSeek-R1の論文:次世代推論モデルの探求と突破

DeepSeek-R1: 強化学習を用いたLLMにおける推論能力の向上