Table of Contents
مقدمهٔ ساده به علم داده
علم داده (Data Science) ترکیبی از چند حوزه است:
- آمار و احتمال
- برنامهنویسی (مثل پایتون)
- درک مسئلهٔ دنیای واقعی (کسبوکار، علوم، مهندسی و …)
هدف علم داده این است که از «داده خام» به «دانش و تصمیم» برسیم.
به زبان خیلی ساده:
$$
\text{داده خام} \;\longrightarrow\; \text{پردازش و تحلیل} \;\longrightarrow\; \text{بینش و تصمیم}
$$
داده دقیقاً چیست؟
در علم داده، «داده» میتواند هر چیزی باشد که بتوان آن را ذخیره و اندازهگیری کرد:
- عددها: فروش روزانه، دما، سرعت، تعداد کاربران
- متن: پیامهای شبکههای اجتماعی، نظرات کاربران، ایمیلها
- تصویر: عکسها، اسکن پزشکی، تصاویر ماهوارهای
- صدا و ویدئو: ضبط صدا، فیلم، مکالمات
- دادهٔ جدولی: فایلهای اکسل، CSV، جدولهای دیتابیس
علم داده تلاش میکند از این تودهٔ عظیم داده، چیزهای مفید بیرون بکشد.
سوالهای معمول در علم داده
علم داده معمولاً برای پاسخ دادن به این نوع سوالها استفاده میشود:
- چه اتفاقی افتاده است؟
مثال: «فروش ماه قبل چقدر بوده؟ کدام محصول بیشتر فروخته شده؟»
→ این نوع سوالها «تحلیل توصیفی» هستند. - چرا این اتفاق افتاده؟
مثال: «چرا فروش این ماه کم شده؟ در چه شهرهایی کاهش بیشتری داشتیم؟»
→ این نوع سوالها «تحلیل تشخیصی» هستند. - چه چیزی ممکن است در آینده رخ بدهد؟
مثال: «فروش ماه بعد احتمالاً چقدر میشود؟»
→ این نوع سوالها «تحلیل پیشبینی» هستند. - چه کاری باید انجام دهیم؟
مثال: «برای افزایش فروش چه پیشنهادهایی میتوان داد؟»
→ این نوع سوالها «تحلیل تجویزی» هستند.
علم داده میتواند در هر چهار نوع تحلیل نقش داشته باشد، ولی در عمل خیلی از پروژههای ساده روی دو مورد اول (توصیفی و کمی پیشبینی) تمرکز دارند.
چرخهٔ کار در علم داده
تقریباً همهٔ پروژههای علم داده، با شکلها و نامهای مختلف، این مراحل را دارند:
- درک مسئله
- مسئله چیست؟
- چه تصمیمی باید گرفته شود؟
- چه سوالی میخواهیم پاسخ بدهیم؟
- جمعآوری داده
- خواندن فایلها (
.csv,.xlsx, …) - اتصال به پایگاه داده
- دریافت داده از API یا وبسایتها
- پاکسازی و آمادهسازی دادهها
رایجترین و زمانبرترین بخش کار علم داده: - حذف یا کامل کردن مقدارهای گمشده (Missing Values)
- درست کردن نوع داده (مثلاً تبدیل متن به عدد)
- حذف ردیفهای تکراری
- اصلاح خطاهای واضح (مثلاً سن = ۲۵۰ سال!)
- کاوش و تحلیل مقدماتی
- نگاه کلی به داده: چند سطر، چند ستون، میانگینها، حداقل، حداکثر
- رسم نمودارهای ساده: هیستوگرام، نمودار خطی، نمودار میلهای
- پیدا کردن الگوها و روابط اولیه بین متغیرها
- مدلسازی (تحلیل پیشرفته / یادگیری ماشین)
- ساخت مدل برای پیشبینی یا دستهبندی (این بخش در این دوره فقط در حد آشنایی مرور میشود، اگر جایی مطرح شود)
- تفسیر و ارائهٔ نتایج
- تبدیل نتایج عددی و نمودارها به توضیح قابل فهم برای انسان
- ارائهٔ گزارش، داشبورد، یا اسلاید
- پیشنهاد اقدام (Action) بر اساس نتایج
در این فصل، روی مراحل سادهتر و قابل انجام با پایتون برای مبتدیها تمرکز میکنیم:
جمعآوری، پاکسازی، تحلیل ساده و مصورسازی اولیه.
نقش پایتون در علم داده
پایتون یکی از محبوبترین زبانها برای علم داده است، به چند دلیل مهم:
- ساده بودن سینتکس
کسانی که تازه شروع کردهاند، میتوانند نسبتاً سریع به قسمت تحلیل داده برسند. - کتابخانههای قدرتمند
(در بخشهای بعدی این فصل به آنها میپردازیم، فقط نام میبریم:) NumPy: کار با آرایهها و محاسبات عددیpandas: کار با دادههای جدولی (مثل اکسل)matplotlibوseaborn: رسم نمودارها و مصورسازی- کتابخانههای دیگر برای یادگیری ماشین، آمار و …
- جامعهٔ کاربری بسیار بزرگ
مثالها، آموزشها، و جواب سوالها تقریباً برای هر مسئلهای در اینترنت پیدا میشود.
علم داده در دنیای واقعی: چند مثال ساده
مثال ۱: فروش فروشگاه
فرض کنید یک فروشگاه فایل sales.csv دارد که شامل این ستونها است:
- تاریخ خرید
- نام محصول
- قیمت
- تعداد
- شهر
با علم داده میتوانیم:
- بفهمیم کدام محصولها بیشترین فروش را دارند.
- مشخص کنیم در کدام ماهها فروش بیشتر است.
- ببینیم در چه شهرهایی فروش پایین است و شاید نیاز به تبلیغ دارد.
اینجا علم داده کمک میکند «تصمیمهای تجاری» بهتر گرفته شوند.
مثال ۲: تحلیل نظرات کاربران
یک سایت، هزاران نظر (کامنت) از کاربران دریافت میکند:
- بعضی نظرها مثبت هستند، بعضی منفی، بعضی پیشنهاد میدهند.
- میتوان با تحلیل متن (Text Analysis) تشخیص داد:
- کاربران بیشتر از چه چیزی ناراضیاند؟
- چه ویژگیهایی را دوست دارند؟
حتی با تکنیکهای ساده میتوان مثلاً تعداد دفعاتی که کلمات «خوب»، «بد»، «گرون»، «کند» و … آمده را شمرد و الگوها را دید.
مثال ۳: دادههای سلامتی
یک پزشک دادههایی مثل:
- قد، وزن، سن، فشار خون، قند خون، …
را برای تعداد زیادی بیمار دارد. با تحلیل این دادهها میتوان:
- الگوهای خطر را پیدا کرد (مثلاً ترکیب سن بالا + فشار خون بالا)
- پیشنهادهایی برای سبک زندگی سالمتر ارائه داد.
علم داده در چه حوزههایی استفاده میشود؟
فقط چند نمونه:
- کسبوکار و بازاریابی: تحلیل فروش، رفتار مشتریان، پیشنهاد محصول
- مالی و بانکی: تشخیص تقلب، تحلیل ریسک، پیشبینی بازار
- سلامت و پزشکی: تحلیل پروندههای پزشکی، کمک به تشخیص، تحقیق علمی
- شبکههای اجتماعی: پیشنهاد دوست، محتوا، تبلیغات هدفمند
- حملونقل: مسیرهای بهینه، پیشبینی ترافیک، زمانبندی
- ورزشی: تحلیل عملکرد بازیکنان، برنامهریزی تمرین
هر جایی که «داده» وجود دارد، احتمالاً علم داده هم میتواند نقش داشته باشد.
تفاوت علم داده با چند اصطلاح نزدیک
در دنیای واقعی این اصطلاحها زیاد شنیده میشوند و خیلی وقتها با هم قاطی میشوند. در این دوره وارد جزئیات فنی عمیق نمیشویم، فقط یک تصویر کلی میدهیم:
- تحلیل داده (Data Analysis)
بیشتر روی بررسی و توصیف آنچه اتفاق افتاده تمرکز دارد (گزارش، نمودار، میانگینها و …). - علم داده (Data Science)
معمولاً گستردهتر است: از جمعآوری و پاکسازی تا تحلیل و بعضی وقتها ساخت مدل و پیشبینی. - یادگیری ماشین (Machine Learning)
بیشتر به بخش «مدلسازی خودکار» مربوط است؛ یعنی ساخت الگوریتمی که از دادهها «یاد میگیرد» تا در آینده پیشبینی یا تصمیم بگیرد.
در این فصل، تمرکز ما روی «علم داده مقدماتی با پایتون» است؛ یعنی کار با دادهها، تحلیل ساده و رسم نمودارها. بحث یادگیری ماشین فقط اگر لازم باشد، در حد اشاره مطرح میشود.
چرا یاد گرفتن علم داده مفید است؟
حتی اگر شغل شما مستقیماً «دانشمند داده» نباشد، مهارتهای علم داده میتوانند کمک کنند:
- بهتر بتوانید اعداد و نمودارها را بفهمید.
- تصمیمهای خود را بر اساس «واقعیت و داده» بگیرید، نه حدس و گمان.
- گزارشها و تحلیلهای قابل فهم برای دیگران تهیه کنید.
- در شغلهای مختلف (مهندسی، مدیریت، بازاریابی، تحقیقاتی و …) یک مزیت مهم داشته باشید.
در بخشهای بعدی این فصل، خواهید دید که چطور با کمک پایتون، قدمبهقدم روی دادهها کار میکنیم:
از خواندن و آمادهسازی، تا تحلیلهای ساده و مصورسازی.