How to handle imbalanced datasets effectively in classification problems?

Unfollow Follow

Naomi Teng

Updated 5 hours ago in

I’m working on a classification problem where one class heavily outweighs the others (around 90:10 ratio). My model is achieving high accuracy, but it’s clearly biased toward the majority class.

Here’s a simplified version:

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

model = RandomForestClassifier()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))

Accuracy looks good, but recall and precision for the minority class are poor.

What I want to understand:

What are the best techniques to handle imbalance (SMOTE, class weights, etc.)?
When should I prefer resampling vs adjusting model parameters?
Which evaluation metrics should I focus on in such cases?

Would appreciate practical advice based on real-world experience.

<div class="flex flex-col text-sm pb-25">
<section class="text-token-text-primary w-full focus:outline-none [--shadow-height:45px] has-data-writing-block:pointer-events-none has-data-writing-block:-mt-(--shadow-height) has-data-writing-block:pt-(--shadow-height) [&:has([data-writing-block])>*]:pointer-events-auto scroll-mt-[calc(var(--header-height)+min(200px,max(70px,20svh)))]" dir="auto" data-turn-id="request-69c5238c-3394-8321-a1c2-57d1d397b4e8-20" data-testid="conversation-turn-86" data-scroll-anchor="true" data-turn="assistant">
<div class="text-base my-auto mx-auto pb-10 [--thread-content-margin:var(--thread-content-margin-xs,calc(var(--spacing)*4))] @w-sm/main:[--thread-content-margin:var(--thread-content-margin-sm,calc(var(--spacing)*6))] @w-lg/main:[--thread-content-margin:var(--thread-content-margin-lg,calc(var(--spacing)*16))] px-(--thread-content-margin)">
<div class="[--thread-content-max-width:40rem] @w-lg/main:[--thread-content-max-width:48rem] mx-auto max-w-(--thread-content-max-width) flex-1 group/turn-messages focus-visible:outline-hidden relative flex w-full min-w-0 flex-col agent-turn">
<div class="flex max-w-full flex-col gap-4 grow">
<div class="min-h-8 text-message relative flex w-full flex-col items-end gap-2 text-start break-words whitespace-normal outline-none keyboard-focused:focus-ring [.text-message+&]:mt-1" dir="auto" data-message-author-role="assistant" data-message-id="70860f9e-a4f8-4937-8a76-162be7555d90" data-message-model-slug="gpt-5-3" data-turn-start-message="true">
<div class="flex w-full flex-col gap-1 empty:hidden">
<div class="markdown prose dark:prose-invert w-full wrap-break-word light markdown-new-styling">
<p data-start="201" data-end="395">I’m working on a classification problem where one class heavily outweighs the others (around 90:10 ratio). My model is achieving high accuracy, but it’s clearly biased toward the majority class.</p>
<p data-start="397" data-end="425">Here’s a simplified version:</p>
<div class="relative w-full mt-4 mb-1">
<div class="">
<div class="relative">
<div class="h-full min-h-0 min-w-0">
<div class="h-full min-h-0 min-w-0">
<div class="border border-token-border-light border-radius-3xl corner-superellipse/1.1 rounded-3xl">
<div class="h-full w-full border-radius-3xl bg-token-bg-elevated-secondary corner-superellipse/1.1 overflow-clip rounded-3xl lxnfua_clipPathFallback">
<div class="pointer-events-none absolute inset-x-4 top-12 bottom-4">
<div class="pointer-events-none sticky z-40 shrink-0 z-1!">
<div class="sticky bg-token-border-light"> </div>
</div>
</div>
<div class="w-full overflow-x-hidden overflow-y-auto">
<div class="relative z-0 flex max-w-full">
<div id="code-block-viewer" class="q9tKkq_viewer cm-editor z-10 light:cm-light dark:cm-light flex h-full w-full flex-col items-stretch ͼ5 ͼj" dir="ltr">
<div class="cm-scroller">
<div class="cm-content q9tKkq_readonly"><span class="ͼ8">from</span> <span class="ͼe">sklearn</span><span class="ͼ8">.</span><span class="ͼe">model_selection</span> <span class="ͼ8">import</span> <span class="ͼe">train_test_split</span><br /><span class="ͼ8">from</span> <span class="ͼe">sklearn</span><span class="ͼ8">.</span><span class="ͼe">ensemble</span> <span class="ͼ8">import</span> <span class="ͼe">RandomForestClassifier</span><br /><span class="ͼ8">from</span> <span class="ͼe">sklearn</span><span class="ͼ8">.</span><span class="ͼe">metrics</span> <span class="ͼ8">import</span> <span class="ͼe">classification_report</span></p>
<p><span class="ͼe">X_train</span>, <span class="ͼe">X_test</span>, <span class="ͼe">y_train</span>, <span class="ͼe">y_test</span> <span class="ͼ8">=</span> <span class="ͼe">train_test_split</span>(<span class="ͼe">X</span>, <span class="ͼe">y</span>, <span class="ͼe">test_size</span><span class="ͼ8">=</span><span class="ͼb">0.2</span>)</p>
<p><span class="ͼe">model</span> <span class="ͼ8">=</span> <span class="ͼe">RandomForestClassifier</span>()<br /><span class="ͼe">model</span><span class="ͼ8">.</span>fit(<span class="ͼe">X_train</span>, <span class="ͼe">y_train</span>)</p>
<p><span class="ͼe">y_pred</span> <span class="ͼ8">=</span> <span class="ͼe">model</span><span class="ͼ8">.</span>predict(<span class="ͼe">X_test</span>)<br /><span class="ͼe">print</span>(<span class="ͼe">classification_report</span>(<span class="ͼe">y_test</span>, <span class="ͼe">y_pred</span>))</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
</div>
<div class="">
<div class=""> </div>
</div>
</div>
</div>
</div>
<p data-start="810" data-end="888">Accuracy looks good, but recall and precision for the minority class are poor.</p>
<p data-start="890" data-end="916">What I want to understand:</p>
<ul data-start="917" data-end="1122">
<li data-section-id="et1w6m" data-start="917" data-end="997">What are the best techniques to handle imbalance (SMOTE, class weights, etc.)?</li>
<li data-section-id="1s64rqk" data-start="998" data-end="1062">When should I prefer resampling vs adjusting model parameters?</li>
<li data-section-id="dd9rqj" data-start="1063" data-end="1122">Which evaluation metrics should I focus on in such cases?</li>
</ul>
<p data-start="1124" data-end="1189" data-is-last-node="" data-is-only-node="">Would appreciate practical advice based on real-world experience.</p>
</div>
</div>
</div>
</div>
<div class="z-0 flex min-h-[46px] justify-start"> </div>
<div class="mt-3 w-full empty:hidden">
<div class="text-center"> </div>
</div>
</div>
</div>
</section>
</div>
<div class="pointer-events-none h-px w-px absolute bottom-0" aria-hidden="true" data-edge="true"> </div>

Cancel

Data science