주요 내용
1. 개념
- randomly drop units during training(temporarily removing it from the network)
* explore different regions of the weight space
- each unit is retained with p, chosen using a validation set
- the individual models are different from each other
- At test time, the weights are multiplied by p
- The gradients for each parameter are averaged over the training cases in each mini-batch

2. 활용
- the input units optimal p is usually closer to 1 than to 0.5.
- Dropping out 20% of the input units and 50% of the hidden units was often found to be optimal.
- Dropout can be interpreted as a way of regularizing a neural network by adding noise to its hidden units.
3. 새롭게 배운거
- co-adapt : 공동 적응.. 뉴런들이 서로 지나치게 연관되어 overfitting 발생하는 것. 과하게 특정 패턴에 특화됨.
- element-wise product : 원소간 곱. 행렬에서 위치별로 곱하는 것(행렬 곱이 아닌 단순 성분별로 곱함)
- 베르누이 분포 : 결과가 2가지(0과 1)밖에 없는 분포. 동전 던지기. 이걸 N번 시행하면 이항분포(binomial distribution)
4. 느낀점
- 연산의 끝이 아닌 맨 처음에 놓는게 제일 좋지않나..? 연산한게 다 불필요해지는데.
-> 연산 끝이 맞음. 그래야 b를 죽일 수 있음..00
Abstract
DNN이 강력하지만 overfitting 문제가 있음. 또한 거대한 네트워크는 느리고 overfitting. Dropout이 이걸 다루기 위한 기술임.
핵심 아이디어는 training간 무작위로 유닛(연결 포함해서)을 생략하는 것. overfitting 막고 다른 regulazation보다 improvements. 지도학습(비전, 음성 인식, 문서 분류 등)에서 성능 향상을 확인했음.
Introduction
DNN은 비선형 히든레이어를 갖고있으며 이는 복잡한 relationships를 가짐. 제한된 트레이닝 셋은 training과 test data가 다르기 때문에 sampling noise를 가질 수 밖에 없고 이게 오버피팅을 만듬. 방지하기위해 validation set, L1/L2 penalty, soft weight sharing을 써왔음.
제일 좋은 regularize 방법은 모든 가능한 파라미터의 평균을 내거나 model combination인데 엄청난 비용과 데이터가 필요함.
Dropout은 두 문제를 모두 해결하며 오버피팅과 combining을 효율적으로 해냄.
테스트때는 단순 평균을 내며 dropout을 쓰지않음. 그러나 p만큼 scaled-down 돼있으므로 결과값에 p를 곱해줘야함.
Motivation
Sexual reprodution에서 motivation
우수한 단일 개체가 무성생식하는 것보다 다양한 개체가 유성생식하는게 가장 진보하고 좋았다(advanced, robust).
- 섞었으니까, co-adapted 막음,
유용한 새 유전자에 기회를 줌
5명이 만든 10개의 작당모의가 50명이 만든 1개의 작당모의보다 낫다. co-adaption 면에서
Model Description
베르누이 분포 따르는 r 추가

Learning Dropout Nets
각 파라미터의 기울기는 각 미니배치의 training case에 평균. dropout으로 사용되지않은 파라미터는 기울기 0임
하이퍼파라미터 상수C를 upper bound로하면 더 좋은 dropout 효과
constant c(tunable hyperparameter, which is determined using a validation set)
- max-norm regularization. improves performance
- large decaying learning rates and high momntum
- possible to use a huge learning rate without the possibility of weights blowing up
- adding noise to its hidden units allows to explore different regions of weight space
'논문 리뷰' 카테고리의 다른 글
| Layer Normalization 리뷰 (6) | 2024.12.04 |
|---|---|
| Batch Normalization: Accelerating Deep Network Training by ReducingInternal Covariate Shift 리뷰 (7) | 2024.12.04 |
| Resnet(Deep Residual Learning for Image Recognition) 리뷰 (9) | 2024.12.01 |
| 논문 단어 (10) | 2024.11.24 |
| Alexnet(ImageNet Classification with Deep Convolutional Neural Networks) 리뷰 (4) | 2024.11.16 |