این متن تلاش دارد تا تعریف واضحی از علم داده و دانشمند داده ارائه دهد، زیرا اختلافنظرهای زیادی در این زمینه وجود دارد. برخی دیدگاههای محدود، دانشمندان داده را تنها افرادی میدانند که با دادههای بزرگ (Big Data) یا ابزارهایی خاص مانند یادگیری ماشین کار میکنند، اما این رویکرد میتواند بسیاری از افراد را نادیده بگیرد.
تعریف دانشمند داده
دانشمند داده فردی است که مسائل را با تحلیل دادههای کوچک یا بزرگ حل کرده، از ابزارهای مناسب استفاده میکند و یافتههای خود را به صورت داستانی برای ذینفعان توضیح میدهد. دانشمند داده باید کنجکاو، مسلط به تحلیل و قادر به انتقال موثر نتایج باشد. اندازه داده یا نوع ابزار مورد استفاده نباید محدودیتی در این تعریف ایجاد کند.
کار دانشمندان داده چیست؟
حل مسائل واقعی: دانشمندان داده به دنبال یافتن توضیحاتی برای مشکلات پیچیده هستند. مثلاً دکتر مرتضی حیدر رابطهای بین شکایات حملونقل عمومی تورنتو و بدی آبوهوا کشف کرد.
همچنین، با استفاده از شبکههای عصبی مصنوعی، مشکلات زیستمحیطی مانند پیشبینی شکوفایی جلبکها برای جلوگیری از سمی شدن آبها حل میشود.
توسعه ابزارهای نوآورانه: نورمن وایت، استاد مدرسه کسبوکار استرن، یک موتور توصیهگر ساخت که مشکلات پیچیده در بخشهای مختلف را سادهسازی کرد.
مهارتهای لازم برای دانشمند داده شدن
دانشمند داده تلفیقی از متخصص نرمافزار، مهندس کامپیوتر و متخصص آمار است. در واقع توانایی تبدیل دادههای غیرساختاریافته به بینشی ساختاریافته، مهارت کلیدی آنهاست. دانشمند داده باید ترکیبی از مهارتهای برنامهنویسی، تحلیل آماری و تفکر سیستمی داشته باشد و همچنین تسلط نسبی بر جبر، حساب، احتمالات و آمار، برای این رشته مورد نیازند. به طور کلی توانایی درک، تحلیل و روایت دادهها، به همراه کنجکاوی، از ویژگیهای کلیدی یک دانشمند داده موفق است.
ابزارها و تکنیکهای دیتا ساینتیست
مدلهای آماری و الگوریتمها: از مدلهایی مانند رگرسیون برای کشف رابطه بین متغیرها (مثلاً مسافت رانندگی و میزان مصرف سوخت) استفاده میشود. الگوریتمهایی مانند “نزدیکترین همسایه” در یادگیری ماشین برای پردازش دادههای بزرگ به کار میروند.
دادههای متنوع: دادهها از منابع مختلف مانند ویدیو، صدا، متون بدون ساختار (مانند ایمیل و لاگها) و دادههای ساختاریافته (مانند جداول و فایلهای JSON) جمعآوری میشوند.
در واقع می توان گفت زمین بازی دانشمند داده، بیگ دیتا است. در مقاله ای دیگر توضیح داده ام که بیگ دیتا چیست که پیشنهاد می کنم آن را هم بخوانید.
تفاوت علم داده و آمار
گرچه برخی علم داده را زیرمجموعهای از آمار یا وابسته به یادگیری ماشین میدانند، تعریف دقیقتر علم داده بر حل مسائل دادهمحور و توانایی ارائه داستانهایی جذاب از دادهها تمرکز دارد.
به عنوان یک متخصص داده، شما با انواع مختلفی از فرمتها و فایلهای دادهای کار خواهید کرد. درک ساختار و ویژگیهای هر فرمت کمک میکند تا تصمیمات مناسبی برای انتخاب فرمتهای مناسب با نیازهای داده و عملکرد خود بگیرید. برخی از فرمتهای استاندارد که عبارتند از:
- فرمتهای فایل متنی جدا شده (Delimited Text Files): این فایلها دادهها را به صورت متنی ذخیره میکنند که در آن هر سطر یا ردیف شامل مقادیر جدا شده توسط یک جداکننده است. معمولترین جداکنندهها شامل کاما، تب، دو نقطه، خط عمودی و فاصله هستند. رایجترین فرمتهای این دسته، CSV (مقادیر جدا شده با کاما) و TSV (مقادیر جدا شده با تب) هستند.
- فرمت Microsoft Excel Open XML Spreadsheet (XLSX): فرمت فایل مبتنی بر XML است که توسط مایکروسافت برای برنامه Excel طراحی شده است. در فایلهای XLSX میتوان چندین صفحه گسترده داشت که هر صفحه شامل ردیفها و ستونها است.
- زبان نشانهگذاری قابل گسترش (XML): یک زبان نشانهگذاری است که قوانین خاصی برای کدگذاری دادهها دارد. این فرمت هم توسط انسان و هم ماشین قابل خواندن است و برای ارسال اطلاعات از طریق اینترنت طراحی شده است.
- فرمت PDF (Portable Document Format): فرمت فایلی است که توسط Adobe طراحی شده و امکان نمایش اسناد را بدون توجه به نرمافزار، سختافزار یا سیستمعامل فراهم میآورد. این فرمت برای اسناد قانونی و مالی کاربرد زیادی دارد.
- JavaScript Object Notation (JSON): فرمت متنی استاندارد باز است که برای ارسال دادههای ساختاریافته از طریق وب استفاده میشود. زبان این فرمت مستقل است و به راحتی با انواع مختلف مرورگرها و برنامهنویسیها سازگار است.
اینها برخی از فرمتهای محبوب دادهای بودند. در این قسمت، منابع مختلف دادهها مورد بررسی قرار خواهند گرفت.
داده های ساختار یافته و ساختار نیافته
داده های ساختار یافته مانند آن چیزی هستند که در EXCEL دیده اید، جدول مانند هستند و دارای سطر و ستون هستند. در مقابل، دادههای غیرساختار یافته (مثل متنی، ویدیو، و صوتی) از وب میآیند و نیاز به الگوریتمهای پیچیدهتری برای استخراج دادهها دارند. برای پیدا کردن ساختار و بیرون کشیدن اطلاعات از این نوع داده ها مثل وب پیج ها، زمان زیادی صرف می شود.
یکی از مفاهیمی که به شما در درک بهتر داده ها کمک می کند رگرسیون است. در مورد رگرسیون، بسیاری از کتابها و سخنرانیها، توضیحات پیچیدهای ارائه میدهند که درک آنها دشوار است. اما رگرسیون را میتوان به سادهترین شکل اینطور توضیح داد:
وقتی شما سوار تاکسی میشوید، مبلغ ثابت اولیهای به عنوان کرایه اولیه (مثل 2.50 دلار) وجود دارد. سپس به ازای هر متر یا هر صد متر، کرایه اضافه میشود. همچنین اگر در ترافیک گیر کنید، برای هر دقیقه اضافی باید کرایه بیشتری بپردازید. در این مثال، رگرسیون به شما کمک میکند تا رابطه بین کرایه، زمان، و فاصله را درک کنید و ثابت اولیه (مثل 2.50 دلار) را محاسبه کنید.
این همان کاری است که رگرسیون انجام میدهد: آنچه که شما نمیدانید را محاسبه میکند و روابط بین متغیرها را مشخص میکند.
در این مقاله با جزِئیات بیشتری درباره دانشمند داده و مهارت های مورد نیاز آن آشنا شدیم، همچنین انواع فایل ها و ساختارهای منابع داده را نیز بررسی کردیم. در مقاله های بعدی راجع به ابزارهای علم داده صحبت خواهیم کرد.