Why does my neural network overfit despite using dropout and early stopping?

Unfollow Follow

Tariq

Updated 1 day ago in

I’m training a simple deep learning model, but it still overfits even after applying dropout and early stopping. Training accuracy is high, but validation performance drops.

import tensorflow as tf
from tensorflow.keras import layers, models

model = models.Sequential([
layers.Dense(128, activation=‘relu’, input_shape=(20,)),
layers.Dropout(0.5),
layers.Dense(64, activation=‘relu’),
layers.Dense(1, activation=‘sigmoid’)
])

model.compile(optimizer=‘adam’,
loss=‘binary_crossentropy’,
metrics=[‘accuracy’])

history = model.fit(X_train, y_train,
validation_data=(X_val, y_val),
epochs=50,
batch_size=32)

What are the common reasons this still happens in practice, and how can it be mitigated beyond basic regularization?

<div class="relative basis-auto flex-col -mb-(--composer-overlap-px) [--composer-overlap-px:28px] grow flex">
<div class="flex flex-col text-sm pb-25">
<article class="text-token-text-primary w-full focus:outline-none [--shadow-height:45px] has-data-writing-block:pointer-events-none has-data-writing-block:-mt-(--shadow-height) has-data-writing-block:pt-(--shadow-height) [&:has([data-writing-block])>*]:pointer-events-auto scroll-mt-[calc(var(--header-height)+min(200px,max(70px,20svh)))]" dir="auto" data-turn-id="request-698d9bbb-4f20-8323-9b61-f2b445b5e95b-3" data-testid="conversation-turn-408" data-scroll-anchor="true" data-turn="assistant">
<div class="text-base my-auto mx-auto pb-10 [--thread-content-margin:var(--thread-content-margin-xs,calc(var(--spacing)*4))] @w-sm/main:[--thread-content-margin:var(--thread-content-margin-sm,calc(var(--spacing)*6))] @w-lg/main:[--thread-content-margin:var(--thread-content-margin-lg,calc(var(--spacing)*16))] px-(--thread-content-margin)">
<div class="[--thread-content-max-width:40rem] @w-lg/main:[--thread-content-max-width:48rem] mx-auto max-w-(--thread-content-max-width) flex-1 group/turn-messages focus-visible:outline-hidden relative flex w-full min-w-0 flex-col agent-turn">
<div class="flex max-w-full flex-col gap-4 grow">
<div class="min-h-8 text-message relative flex w-full flex-col items-end gap-2 text-start break-words whitespace-normal [.text-message+&]:mt-1" dir="auto" data-message-author-role="assistant" data-message-id="8a304d4e-529e-4350-8670-472937a4d7e5" data-message-model-slug="gpt-5-3">
<div class="flex w-full flex-col gap-1 empty:hidden">
<div class="markdown prose dark:prose-invert w-full wrap-break-word light markdown-new-styling">
<p data-start="171" data-end="363"><span class="BZ_Pyq_fadeIn">I’m </span><span class="BZ_Pyq_fadeIn">training </span><span class="BZ_Pyq_fadeIn">a </span><span class="BZ_Pyq_fadeIn">simple </span><span class="BZ_Pyq_fadeIn">deep </span><span class="BZ_Pyq_fadeIn">learning </span><span class="BZ_Pyq_fadeIn">model, </span><span class="BZ_Pyq_fadeIn">but </span><span class="BZ_Pyq_fadeIn">it </span><span class="BZ_Pyq_fadeIn">still </span><span class="BZ_Pyq_fadeIn">overfits </span><span class="BZ_Pyq_fadeIn">even </span><span class="BZ_Pyq_fadeIn">after </span><span class="BZ_Pyq_fadeIn">applying </span><span class="BZ_Pyq_fadeIn">dropout </span><span class="BZ_Pyq_fadeIn">and </span><span class="BZ_Pyq_fadeIn">early </span><span class="BZ_Pyq_fadeIn">stopping. </span><span class="BZ_Pyq_fadeIn">Training </span><span class="BZ_Pyq_fadeIn">accuracy </span><span class="BZ_Pyq_fadeIn">is </span><span class="BZ_Pyq_fadeIn">high, </span><span class="BZ_Pyq_fadeIn">but </span><span class="BZ_Pyq_fadeIn">validation </span><span class="BZ_Pyq_fadeIn">performance </span><span class="BZ_Pyq_fadeIn">drops.</span></p>
<div class="relative w-full mt-4 mb-1">
<div class="">
<div class="relative">
<div class="h-full min-h-0 min-w-0">
<div class="h-full min-h-0 min-w-0">
<div class="border border-token-border-light border-radius-3xl corner-superellipse/1.1 rounded-3xl">
<div class="h-full w-full border-radius-3xl bg-token-bg-elevated-secondary corner-superellipse/1.1 overflow-clip rounded-3xl lxnfua_clipPathFallback">
<div class="pointer-events-none absolute inset-x-4 top-12 bottom-4">
<div class="pointer-events-none sticky z-40 shrink-0 z-1!">
<div class="sticky bg-token-border-light"> </div>
</div>
</div>
<div class="">
<div class="relative z-0 flex max-w-full">
<div id="code-block-viewer" class="q9tKkq_viewer cm-editor z-10 light:cm-light dark:cm-light flex h-full w-full flex-col items-stretch ͼ5 ͼj" dir="ltr">
<div class="cm-scroller">
<div class="cm-content q9tKkq_readonly"><span class="ͼ8">import</span> <span class="ͼe">tensorflow</span> <span class="ͼ8">as</span> <span class="ͼe">tf</span><br /><span class="ͼ8">from</span> <span class="ͼe">tensorflow</span><span class="ͼ8">.</span><span class="ͼe">keras</span> <span class="ͼ8">import</span> <span class="ͼe">layers</span>, <span class="ͼe">models</span></p>
<p><span class="ͼe">model</span> <span class="ͼ8">=</span> <span class="ͼe">models</span><span class="ͼ8">.</span>Sequential([<br /><span class="ͼe">layers</span><span class="ͼ8">.</span>Dense(<span class="ͼb">128</span>, <span class="ͼe">activation</span><span class="ͼ8">=</span><span class="ͼc">‘relu’</span>, <span class="ͼe">input_shape</span><span class="ͼ8">=</span>(<span class="ͼb">20</span>,)),<br /><span class="ͼe">layers</span><span class="ͼ8">.</span>Dropout(<span class="ͼb">0.5</span>),<br /><span class="ͼe">layers</span><span class="ͼ8">.</span>Dense(<span class="ͼb">64</span>, <span class="ͼe">activation</span><span class="ͼ8">=</span><span class="ͼc">‘relu’</span>),<br /><span class="ͼe">layers</span><span class="ͼ8">.</span>Dense(<span class="ͼb">1</span>, <span class="ͼe">activation</span><span class="ͼ8">=</span><span class="ͼc">‘sigmoid’</span>)<br />])</p>
<p><span class="ͼe">model</span><span class="ͼ8">.</span>compile(<span class="ͼe">optimizer</span><span class="ͼ8">=</span><span class="ͼc">‘adam’</span>,<br /><span class="ͼe">loss</span><span class="ͼ8">=</span><span class="ͼc">‘binary_crossentropy’</span>,<br /><span class="ͼe">metrics</span><span class="ͼ8">=</span>[<span class="ͼc">‘accuracy’</span>])</p>
<p><span class="ͼe">history</span> <span class="ͼ8">=</span> <span class="ͼe">model</span><span class="ͼ8">.</span>fit(<span class="ͼe">X_train</span>, <span class="ͼe">y_train</span>,<br /><span class="ͼe">validation_data</span><span class="ͼ8">=</span>(<span class="ͼe">X_val</span>, <span class="ͼe">y_val</span>),<br /><span class="ͼe">epochs</span><span class="ͼ8">=</span><span class="ͼb">50</span>,<br /><span class="ͼe">batch_size</span><span class="ͼ8">=</span><span class="ͼb">32</span>)</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
<div class="">
<div class=""> </div>
</div>
</div>
</div>
</div>
<p data-start="917" data-end="1033" data-is-last-node="" data-is-only-node=""><span class="BZ_Pyq_fadeIn">What </span><span class="BZ_Pyq_fadeIn">are </span><span class="BZ_Pyq_fadeIn">the </span><span class="BZ_Pyq_fadeIn">common </span><span class="BZ_Pyq_fadeIn">reasons </span><span class="BZ_Pyq_fadeIn">this </span><span class="BZ_Pyq_fadeIn">still </span><span class="BZ_Pyq_fadeIn">happens </span><span class="BZ_Pyq_fadeIn">in </span><span class="BZ_Pyq_fadeIn">practice, </span><span class="BZ_Pyq_fadeIn">and </span><span class="BZ_Pyq_fadeIn">how </span><span class="BZ_Pyq_fadeIn">can </span><span class="BZ_Pyq_fadeIn">it </span><span class="BZ_Pyq_fadeIn">be </span><span class="BZ_Pyq_fadeIn">mitigated </span><span class="BZ_Pyq_fadeIn">beyond </span><span class="BZ_Pyq_fadeIn">basic </span><span class="BZ_Pyq_fadeIn">regularization?</span></p>
</div>
</div>
</div>
</div>
</div>
</div>
</article>
</div>
</div>

Cancel

Deep Learning