Kahibaro
Discord Login Register

علم داده چیست؟

مقدمهٔ ساده به علم داده

علم داده (Data Science) ترکیبی از چند حوزه است:

هدف علم داده این است که از «داده خام» به «دانش و تصمیم» برسیم.

به زبان خیلی ساده:

$$
\text{داده خام} \;\longrightarrow\; \text{پردازش و تحلیل} \;\longrightarrow\; \text{بینش و تصمیم}
$$

داده دقیقاً چیست؟

در علم داده، «داده» می‌تواند هر چیزی باشد که بتوان آن را ذخیره و اندازه‌گیری کرد:

علم داده تلاش می‌کند از این تودهٔ عظیم داده، چیزهای مفید بیرون بکشد.

سوال‌های معمول در علم داده

علم داده معمولاً برای پاسخ دادن به این نوع سوال‌ها استفاده می‌شود:

علم داده می‌تواند در هر چهار نوع تحلیل نقش داشته باشد، ولی در عمل خیلی از پروژه‌های ساده روی دو مورد اول (توصیفی و کمی پیش‌بینی) تمرکز دارند.

چرخهٔ کار در علم داده

تقریباً همهٔ پروژه‌های علم داده، با شکل‌ها و نام‌های مختلف، این مراحل را دارند:

  1. درک مسئله
    • مسئله چیست؟
    • چه تصمیمی باید گرفته شود؟
    • چه سوالی می‌خواهیم پاسخ بدهیم؟
  2. جمع‌آوری داده
    • خواندن فایل‌ها (.csv, .xlsx, …)
    • اتصال به پایگاه داده
    • دریافت داده از API یا وب‌سایت‌ها
  3. پاک‌سازی و آماده‌سازی داده‌ها
    رایج‌ترین و زمان‌برترین بخش کار علم داده:
    • حذف یا کامل کردن مقدارهای گمشده (Missing Values)
    • درست کردن نوع داده (مثلاً تبدیل متن به عدد)
    • حذف ردیف‌های تکراری
    • اصلاح خطاهای واضح (مثلاً سن = ۲۵۰ سال!)
  4. کاوش و تحلیل مقدماتی
    • نگاه کلی به داده: چند سطر، چند ستون، میانگین‌ها، حداقل، حداکثر
    • رسم نمودارهای ساده: هیستوگرام، نمودار خطی، نمودار میله‌ای
    • پیدا کردن الگوها و روابط اولیه بین متغیرها
  5. مدل‌سازی (تحلیل پیشرفته / یادگیری ماشین)
    • ساخت مدل برای پیش‌بینی یا دسته‌بندی (این بخش در این دوره فقط در حد آشنایی مرور می‌شود، اگر جایی مطرح شود)
  6. تفسیر و ارائهٔ نتایج
    • تبدیل نتایج عددی و نمودارها به توضیح قابل فهم برای انسان
    • ارائهٔ گزارش، داشبورد، یا اسلاید
    • پیشنهاد اقدام (Action) بر اساس نتایج

در این فصل، روی مراحل ساده‌تر و قابل انجام با پایتون برای مبتدی‌ها تمرکز می‌کنیم:
جمع‌آوری، پاک‌سازی، تحلیل ساده و مصورسازی اولیه.

نقش پایتون در علم داده

پایتون یکی از محبوب‌ترین زبان‌ها برای علم داده است، به چند دلیل مهم:

علم داده در دنیای واقعی: چند مثال ساده

مثال ۱: فروش فروشگاه

فرض کنید یک فروشگاه فایل sales.csv دارد که شامل این ستون‌ها است:

با علم داده می‌توانیم:

اینجا علم داده کمک می‌کند «تصمیم‌های تجاری» بهتر گرفته شوند.

مثال ۲: تحلیل نظرات کاربران

یک سایت، هزاران نظر (کامنت) از کاربران دریافت می‌کند:

حتی با تکنیک‌های ساده می‌توان مثلاً تعداد دفعاتی که کلمات «خوب»، «بد»، «گرون»، «کند» و … آمده را شمرد و الگوها را دید.

مثال ۳: داده‌های سلامتی

یک پزشک داده‌هایی مثل:

را برای تعداد زیادی بیمار دارد. با تحلیل این داده‌ها می‌توان:

علم داده در چه حوزه‌هایی استفاده می‌شود؟

فقط چند نمونه:

هر جایی که «داده» وجود دارد، احتمالاً علم داده هم می‌تواند نقش داشته باشد.

تفاوت علم داده با چند اصطلاح نزدیک

در دنیای واقعی این اصطلاح‌ها زیاد شنیده می‌شوند و خیلی وقت‌ها با هم قاطی می‌شوند. در این دوره وارد جزئیات فنی عمیق نمی‌شویم، فقط یک تصویر کلی می‌دهیم:

در این فصل، تمرکز ما روی «علم داده مقدماتی با پایتون» است؛ یعنی کار با داده‌ها، تحلیل ساده و رسم نمودارها. بحث یادگیری ماشین فقط اگر لازم باشد، در حد اشاره مطرح می‌شود.

چرا یاد گرفتن علم داده مفید است؟

حتی اگر شغل شما مستقیماً «دانشمند داده» نباشد، مهارت‌های علم داده می‌توانند کمک کنند:

در بخش‌های بعدی این فصل، خواهید دید که چطور با کمک پایتون، قدم‌به‌قدم روی داده‌ها کار می‌کنیم:
از خواندن و آماده‌سازی، تا تحلیل‌های ساده و مصورسازی.

Views: 6

Comments

Please login to add a comment.

Don't have an account? Register now!