잘 정리된 블로그가 있어 기록상 남겨놓음
https://yoonschallenge.tistory.com/971
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning - 논문 리뷰
https://arxiv.org/abs/2501.12948 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement LearningWe introduce our first-generation reasoning models, DeepSeek-R1-Zero and DeepSeek-R1. DeepSeek-R1-Zero, a model trained via large-scale rein
yoonschallenge.tistory.com
많이 쉬운 가장 기초중의 기초 내용
https://www.youtube.com/watch?v=KTonvXhsxpc
'# Machine Learning > 글 공부' 카테고리의 다른 글
KL-Divergence Loss 간단 설명 (2) | 2021.02.15 |
---|---|
이제 금융권에서는 딥러닝으로 고객을 분석합니다? (0) | 2020.11.23 |
추천 시스템(Recommendation System) 공부 정리 (1) (0) | 2020.09.16 |
BERT 설명하기 (3) | 2020.08.07 |
클래스 불균형, UnderSampling & OverSampling (0) | 2019.09.06 |