🔥虚無との戦い

❯

🤖強化学習

🤖強化学習

2026年5月31日2 min read

WIKI
AI
RL

Reinforcement Learning, RL.

強化学習とは

ある環境内における知的エージェントが、現在の状態を観測し、得られる収益（累積報酬）を最大化するために、どのような行動をとるべきかを決定する機械学習の一分野.

🐥Glossary

エージェント/Agents

Agent. 行動を選択する主体（例：ロボット、AIキャラクター）

環境/Environemt

env.ironment. エージェントが行動を取る場で、エージェントの行動に応じてフィードバック（状態や報酬）を返します。

報酬/Reward

状態/State

行動/Action

方策/Policy

価値関数/value funtion

強化学習においてある状態や行動の良さ（将来得られる報酬の合計期待値）を定量化したもの.

🔦生物的な感情が意思決定を効率的に導く価値関数 - イリヤ・サツケバー

強化学習アルゴリズム

📝マルコフ過程
📝モンテカルロ法

Topics

🤖RL Trading bot
📝OpenAI: もともとは強化学習からスタート.

Insights

LEGO Mindstormsの crawler を強化学習で前に進むことを学習させた | Futurismo
実践的な強化学習のオンライン学習教材、Practical RL をはじめた | Futurismo

—

✨ACTの行動モデルで意義の快楽を強化学習させる
🌱メタ認知の快楽報酬として知的感動の電流が脳髄を走る

👉Related

up: 📝機械学習
📝ACT行動モデル
🔖損得マシーン

グラフビュー

強化学習とは
🐥Glossary
エージェント/Agents
環境/Environemt
報酬/Reward
状態/State
行動/Action
方策/Policy
価値関数/value funtion
強化学習アルゴリズム
Topics
Insights
👉Related

バックリンク

🤖機械学習(ML)
🤖RL Trading bot
🤖人工知能(AI)
🎲確率論
🤖Sotware Agents
🤖ロボット
🌱メタ認知の快楽報酬として知的感動の電流が脳髄を走る
💊ドーパミン
👨マックス・ヴェーバー
🤖ChatGPT
🏢OpenAI
🌱価値判断とは過去にあるルールに従った場合の快と不快の報酬によって学習された判断
🌳ACT
📑努力の罰金
🌱AIは報酬と罰に従って進むが人間は価値のコンパスに従って進む
🎓行動主義心理学
🎓計算神経科学

Recents

🛕ハッカー文化
2026年6月22日
💸マーケットメイク戦略
2026年6月22日
🚀イノベーション
2026年6月22日
📜テクノロジー史
2026年6月22日
📊ファンダメンタルズ分析
2026年6月22日
💎価値(Value)
2026年6月22日

作成 Quartz v4.5.2 © 2026