How can I prevent overfitting in a convolutional neural network while training on a small?

Unfollow Follow

Maitrik

Updated 1 day ago in

I’m training a CNN on a relatively small image dataset, and the training accuracy quickly reaches near 100%, but validation accuracy stagnates and then drops. I suspect overfitting is the issue.

Here’s a simplified version of my training code in PyTorch:

import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms

# Dataset
train_dataset = datasets.ImageFolder('data/train', transform=transforms.ToTensor())
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=32, shuffle=True)

# Simple CNN
class SimpleCNN(nn.Module):
    def __init__(self):
        super(SimpleCNN, self).__init__()
        self.conv1 = nn.Conv2d(3, 16, 3, padding=1)
        self.pool = nn.MaxPool2d(2, 2)
        self.fc1 = nn.Linear(16*32*32, 10)

    def forward(self, x):
        x = self.pool(torch.relu(self.conv1(x)))
        x = x.view(-1, 16*32*32)
        x = self.fc1(x)
        return x

model = SimpleCNN()
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

# Training loop
for epoch in range(10):
    for inputs, labels in train_loader:
        optimizer.zero_grad()
        outputs = model(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

I’ve read about techniques like data augmentation, dropout, and weight regularization, but I’m not sure how to integrate them effectively.

What strategies or best practices would you recommend for reducing overfitting in small datasets while training CNNs?

<p class="PDq2pG_selectionAnchorContainer" data-start="221" data-end="436">I’m training a CNN on a relatively small image dataset, and the training accuracy quickly reaches near 100%, but validation accuracy stagnates and then drops. I suspect overfitting is the issue.</p>
<p data-start="438" data-end="499">Here’s a simplified version of my training code in PyTorch:</p>
<div class="relative w-full mt-4 mb-1">
<div class="">
<div class="contents">
<div class="border border-token-border-light border-radius-3xl corner-superellipse/1.1 rounded-3xl">
<div class="relative h-full w-full border-radius-3xl bg-token-bg-elevated-secondary corner-superellipse/1.1 overflow-clip rounded-3xl lxnfua_clipPathFallback">
<div class="relative">
<div class="h-full min-h-0 min-w-0">
<div class="h-full min-h-0 min-w-0">
<div class="">
<div class="relative">
<div class="">
<div class="relative z-0 flex max-w-full">
<div id="code-block-viewer" class="q9tKkq_viewer cm-editor z-10 light:cm-light dark:cm-light flex h-full w-full flex-col items-stretch ͼd ͼr" dir="ltr">
<div class="cm-scroller">
<pre class="cm-content q9tKkq_readonly m-0"><code><span class="ͼg">import</span> <span class="ͼm">torch</span><br /><span class="ͼg">import</span> <span class="ͼm">torch</span><span class="ͼg">.</span><span class="ͼm">nn</span> <span class="ͼg">as</span> <span class="ͼm">nn</span><br /><span class="ͼg">import</span> <span class="ͼm">torch</span><span class="ͼg">.</span><span class="ͼm">optim</span> <span class="ͼg">as</span> <span class="ͼm">optim</span><br /><span class="ͼg">from</span> <span class="ͼm">torchvision</span> <span class="ͼg">import</span> <span class="ͼm">datasets</span>, <span class="ͼm">transforms</span><br /><br /><span class="ͼe"># Dataset</span><br /><span class="ͼm">train_dataset</span> <span class="ͼg">=</span> <span class="ͼm">datasets</span><span class="ͼg">.</span>ImageFolder(<span class="ͼk">'data/train'</span>, <span class="ͼm">transform</span><span class="ͼg">=</span><span class="ͼm">transforms</span><span class="ͼg">.</span>ToTensor())<br /><span class="ͼm">train_loader</span> <span class="ͼg">=</span> <span class="ͼm">torch</span><span class="ͼg">.</span>utils<span class="ͼg">.</span>data<span class="ͼg">.</span>DataLoader(<span class="ͼm">train_dataset</span>, <span class="ͼm">batch_size</span><span class="ͼg">=</span><span class="ͼj">32</span>, <span class="ͼm">shuffle</span><span class="ͼg">=</span><span class="ͼj">True</span>)<br /><br /><span class="ͼe"># Simple CNN</span><br /><span class="ͼg">class</span> <span class="ͼl">SimpleCNN</span>(<span class="ͼm">nn</span><span class="ͼg">.</span>Module):<br />    <span class="ͼg">def</span> <span class="ͼm">__init__</span>(<span class="ͼm">self</span>):<br />        <span class="ͼm">super</span>(<span class="ͼm">SimpleCNN</span>, <span class="ͼm">self</span>)<span class="ͼg">.</span>__init__()<br />        <span class="ͼm">self</span><span class="ͼg">.</span>conv1 <span class="ͼg">=</span> <span class="ͼm">nn</span><span class="ͼg">.</span>Conv2d(<span class="ͼj">3</span>, <span class="ͼj">16</span>, <span class="ͼj">3</span>, <span class="ͼm">padding</span><span class="ͼg">=</span><span class="ͼj">1</span>)<br />        <span class="ͼm">self</span><span class="ͼg">.</span>pool <span class="ͼg">=</span> <span class="ͼm">nn</span><span class="ͼg">.</span>MaxPool2d(<span class="ͼj">2</span>, <span class="ͼj">2</span>)<br />        <span class="ͼm">self</span><span class="ͼg">.</span>fc1 <span class="ͼg">=</span> <span class="ͼm">nn</span><span class="ͼg">.</span>Linear(<span class="ͼj">16</span><span class="ͼg">*</span><span class="ͼj">32</span><span class="ͼg">*</span><span class="ͼj">32</span>, <span class="ͼj">10</span>)<br /><br />    <span class="ͼg">def</span> <span class="ͼm">forward</span>(<span class="ͼm">self</span>, <span class="ͼm">x</span>):<br />        <span class="ͼm">x</span> <span class="ͼg">=</span> <span class="ͼm">self</span><span class="ͼg">.</span>pool(<span class="ͼm">torch</span><span class="ͼg">.</span>relu(<span class="ͼm">self</span><span class="ͼg">.</span>conv1(<span class="ͼm">x</span>)))<br />        <span class="ͼm">x</span> <span class="ͼg">=</span> <span class="ͼm">x</span><span class="ͼg">.</span>view(<span class="ͼg">-</span><span class="ͼj">1</span>, <span class="ͼj">16</span><span class="ͼg">*</span><span class="ͼj">32</span><span class="ͼg">*</span><span class="ͼj">32</span>)<br />        <span class="ͼm">x</span> <span class="ͼg">=</span> <span class="ͼm">self</span><span class="ͼg">.</span>fc1(<span class="ͼm">x</span>)<br />        <span class="ͼg">return</span> <span class="ͼm">x</span><br /><br /><span class="ͼm">model</span> <span class="ͼg">=</span> <span class="ͼm">SimpleCNN</span>()<br /><span class="ͼm">criterion</span> <span class="ͼg">=</span> <span class="ͼm">nn</span><span class="ͼg">.</span>CrossEntropyLoss()<br /><span class="ͼm">optimizer</span> <span class="ͼg">=</span> <span class="ͼm">optim</span><span class="ͼg">.</span>Adam(<span class="ͼm">model</span><span class="ͼg">.</span>parameters(), <span class="ͼm">lr</span><span class="ͼg">=</span><span class="ͼj">0.001</span>)<br /><br /><span class="ͼe"># Training loop</span><br /><span class="ͼg">for</span> <span class="ͼm">epoch</span> <span class="ͼg">in</span> <span class="ͼm">range</span>(<span class="ͼj">10</span>):<br />    <span class="ͼg">for</span> <span class="ͼm">inputs</span>, <span class="ͼm">labels</span> <span class="ͼg">in</span> <span class="ͼm">train_loader</span>:<br />        <span class="ͼm">optimizer</span><span class="ͼg">.</span>zero_grad()<br />        <span class="ͼm">outputs</span> <span class="ͼg">=</span> <span class="ͼm">model</span>(<span class="ͼm">inputs</span>)<br />        <span class="ͼm">loss</span> <span class="ͼg">=</span> <span class="ͼm">criterion</span>(<span class="ͼm">outputs</span>, <span class="ͼm">labels</span>)<br />        <span class="ͼm">loss</span><span class="ͼg">.</span>backward()<br />        <span class="ͼm">optimizer</span><span class="ͼg">.</span>step()</code></pre>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
<div class="">
<div class=""> </div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
<p data-start="1540" data-end="1684">I’ve read about techniques like <strong data-start="1572" data-end="1629">data augmentation, dropout, and weight regularization</strong>, but I’m not sure how to integrate them effectively.</p>
<p data-start="1686" data-end="1809">What strategies or best practices would you recommend for <strong data-start="1744" data-end="1806">reducing overfitting in small datasets while training CNNs</strong>?</p>

Cancel

0
16
1 day ago
0

Reply

Write your reply here to join the conversation

YOUR PREVIEW

Avatar