دانشمند داده یا دیتا ساینتیست کیست؟

این متن تلاش دارد تا تعریف واضحی از علم داده و دانشمند داده ارائه دهد، زیرا اختلاف‌نظرهای زیادی در این زمینه وجود دارد. برخی دیدگاه‌های محدود، دانشمندان داده را تنها افرادی می‌دانند که با داده‌های بزرگ (Big Data) یا ابزارهایی خاص مانند یادگیری ماشین کار می‌کنند، اما این رویکرد می‌تواند بسیاری از افراد را نادیده بگیرد.

تعریف دانشمند داده

دانشمند داده فردی است که مسائل را با تحلیل داده‌های کوچک یا بزرگ حل کرده، از ابزارهای مناسب استفاده می‌کند و یافته‌های خود را به صورت داستانی برای ذینفعان توضیح می‌دهد. دانشمند داده باید کنجکاو، مسلط به تحلیل و قادر به انتقال موثر نتایج باشد. اندازه داده یا نوع ابزار مورد استفاده نباید محدودیتی در این تعریف ایجاد کند.

کار دانشمندان داده چیست؟

حل مسائل واقعی: دانشمندان داده به دنبال یافتن توضیحاتی برای مشکلات پیچیده هستند. مثلاً دکتر مرتضی حیدر رابطه‌ای بین شکایات حمل‌ونقل عمومی تورنتو و بدی آب‌وهوا کشف کرد.

همچنین، با استفاده از شبکه‌های عصبی مصنوعی، مشکلات زیست‌محیطی مانند پیش‌بینی شکوفایی جلبک‌ها برای جلوگیری از سمی شدن آب‌ها حل می‌شود.

توسعه ابزارهای نوآورانه: نورمن وایت، استاد مدرسه کسب‌وکار استرن، یک موتور توصیه‌گر ساخت که مشکلات پیچیده در بخش‌های مختلف را ساده‌سازی کرد.

مهارت‌های لازم برای دانشمند داده شدن

دانشمند داده تلفیقی از متخصص نرم‌افزار، مهندس کامپیوتر و متخصص آمار است. در واقع توانایی تبدیل داده‌های غیرساختاریافته به بینشی ساختاریافته، مهارت کلیدی آنهاست. دانشمند داده باید ترکیبی از مهارت‌های برنامه‌نویسی، تحلیل آماری و تفکر سیستمی داشته باشد و همچنین تسلط نسبی بر جبر، حساب، احتمالات و آمار، برای این رشته مورد نیازند. به طور کلی توانایی درک، تحلیل و روایت داده‌ها، به همراه کنجکاوی، از ویژگی‌های کلیدی یک دانشمند داده موفق است.

ابزارها و تکنیک‌های دیتا ساینتیست

مدل‌های آماری و الگوریتم‌ها: از مدل‌هایی مانند رگرسیون برای کشف رابطه بین متغیرها (مثلاً مسافت رانندگی و میزان مصرف سوخت) استفاده می‌شود. الگوریتم‌هایی مانند “نزدیک‌ترین همسایه” در یادگیری ماشین برای پردازش داده‌های بزرگ به کار می‌روند.

داده‌های متنوع: داده‌ها از منابع مختلف مانند ویدیو، صدا، متون بدون ساختار (مانند ایمیل و لاگ‌ها) و داده‌های ساختاریافته (مانند جداول و فایل‌های JSON) جمع‌آوری می‌شوند.

در واقع می توان گفت زمین بازی دانشمند داده، بیگ دیتا است. در مقاله ای دیگر توضیح داده ام که بیگ دیتا چیست که پیشنهاد می کنم آن را هم بخوانید.

تفاوت علم داده و آمار

گرچه برخی علم داده را زیرمجموعه‌ای از آمار یا وابسته به یادگیری ماشین می‌دانند، تعریف دقیق‌تر علم داده بر حل مسائل داده‌محور و توانایی ارائه داستان‌هایی جذاب از داده‌ها تمرکز دارد.

به عنوان یک متخصص داده، شما با انواع مختلفی از فرمت‌ها و فایل‌های داده‌ای کار خواهید کرد. درک ساختار و ویژگی‌های هر فرمت کمک می‌کند تا تصمیمات مناسبی برای انتخاب فرمت‌های مناسب با نیازهای داده و عملکرد خود بگیرید. برخی از فرمت‌های استاندارد که عبارتند از:

فرمت‌های فایل متنی جدا شده (Delimited Text Files): این فایل‌ها داده‌ها را به صورت متنی ذخیره می‌کنند که در آن هر سطر یا ردیف شامل مقادیر جدا شده توسط یک جداکننده است. معمول‌ترین جداکننده‌ها شامل کاما، تب، دو نقطه، خط عمودی و فاصله هستند. رایج‌ترین فرمت‌های این دسته، CSV (مقادیر جدا شده با کاما) و TSV (مقادیر جدا شده با تب) هستند.
فرمت Microsoft Excel Open XML Spreadsheet (XLSX): فرمت فایل مبتنی بر XML است که توسط مایکروسافت برای برنامه Excel طراحی شده است. در فایل‌های XLSX می‌توان چندین صفحه گسترده داشت که هر صفحه شامل ردیف‌ها و ستون‌ها است.
زبان نشانه‌گذاری قابل گسترش (XML): یک زبان نشانه‌گذاری است که قوانین خاصی برای کدگذاری داده‌ها دارد. این فرمت هم توسط انسان و هم ماشین قابل خواندن است و برای ارسال اطلاعات از طریق اینترنت طراحی شده است.
فرمت PDF (Portable Document Format): فرمت فایلی است که توسط Adobe طراحی شده و امکان نمایش اسناد را بدون توجه به نرم‌افزار، سخت‌افزار یا سیستم‌عامل فراهم می‌آورد. این فرمت برای اسناد قانونی و مالی کاربرد زیادی دارد.
JavaScript Object Notation (JSON): فرمت متنی استاندارد باز است که برای ارسال داده‌های ساختاریافته از طریق وب استفاده می‌شود. زبان این فرمت مستقل است و به راحتی با انواع مختلف مرورگرها و برنامه‌نویسی‌ها سازگار است.

اینها برخی از فرمت‌های محبوب داده‌ای بودند. در این قسمت، منابع مختلف داده‌ها مورد بررسی قرار خواهند گرفت.

داده های ساختار یافته و ساختار نیافته

داده های ساختار یافته مانند آن چیزی هستند که در EXCEL دیده اید، جدول مانند هستند و دارای سطر و ستون هستند. در مقابل، داده‌های غیرساختار یافته (مثل متنی، ویدیو، و صوتی) از وب می‌آیند و نیاز به الگوریتم‌های پیچیده‌تری برای استخراج داده‌ها دارند. برای پیدا کردن ساختار و بیرون کشیدن اطلاعات از این نوع داده ها مثل وب پیج ها، زمان زیادی صرف می شود.

یکی از مفاهیمی که به شما در درک بهتر داده ها کمک می کند رگرسیون است. در مورد رگرسیون، بسیاری از کتاب‌ها و سخنرانی‌ها، توضیحات پیچیده‌ای ارائه می‌دهند که درک آن‌ها دشوار است. اما رگرسیون را می‌توان به ساده‌ترین شکل این‌طور توضیح داد:

وقتی شما سوار تاکسی می‌شوید، مبلغ ثابت اولیه‌ای به عنوان کرایه اولیه (مثل 2.50 دلار) وجود دارد. سپس به ازای هر متر یا هر صد متر، کرایه اضافه می‌شود. همچنین اگر در ترافیک گیر کنید، برای هر دقیقه اضافی باید کرایه بیشتری بپردازید. در این مثال، رگرسیون به شما کمک می‌کند تا رابطه بین کرایه، زمان، و فاصله را درک کنید و ثابت اولیه (مثل 2.50 دلار) را محاسبه کنید.

این همان کاری است که رگرسیون انجام می‌دهد: آنچه که شما نمی‌دانید را محاسبه می‌کند و روابط بین متغیرها را مشخص می‌کند.

در این مقاله با جزِئیات بیشتری درباره دانشمند داده و مهارت های مورد نیاز آن آشنا شدیم، همچنین انواع فایل ها و ساختارهای منابع داده را نیز بررسی کردیم. در مقاله های بعدی راجع به ابزارهای علم داده صحبت خواهیم کرد.

زهرا نقیبی

همیشه به فرآیند تحقیق و کشف علاقه داشتم و دوست داشتم این مهارت را در حوزه های مختلف به کار بگیرم. اول با برنامه نویسی و IT شروع کردم و بعد تا مقطع کارشناسی ارشد در دانشگاه تهران برنامه ریزی رفاه اجتماعی خواندم. در ادامه به سمت تحلیل داده های بزرگ گرایش پیدا کردم و دیتا ساینس را دانشگاه شریف و Coursera آموختم و تصمیم دارم آنچه آموخته ام را با شما به اشتراک بگذارم.