علم داده به عنوان یکی از امیدوارکنندهترین و پر تقاضاترین مسیرهای شغلی برای متخصصان ماهر با تحولات بنیادین در جنبههای مختلف زندگی بشر، جهان را به شکلی بیسابقه تغییر داده است. همانطور که در مقاله پردرآمد ترین گرایش در مهندسی کامپیوتر خواندیم، تحلیل داده یکی از گرایشهای پرطرفدار و پردآمد رشته مهندسی کامپیوتر است. امروزه، متخصصان داده درک میکنند که باید استفاده از مهارتهای سنتی برای تجزیه و تحلیل دادهها را با دادهکاوی به شیوههای نوین همراه با بهرهگیری از مهارتهای برنامهنویسی جایگزین نمایند. دانشمندان داده باید برای کشف اطلاعات مفید برای سازمانهای خود به طیف کاملی از چرخه زندگی علوم داده تسلط داشته باشند و از انعطافپذیری و درک برخوردار باشند تا به حداکثر رساندن بازده در هر مرحله از فرآیند را تسهیل نمایند.
چرا علم داده مهم است؟
علم داده درباره یافتن الگوها در دادهها، از طریق تحلیل و پیشبینی آینده است. این علم با بهرهگیری از ریاضیات و آمار، برنامهنویسی تخصصی، تجزیه و تحلیل پیشرفته، هوش مصنوعی (AI) و یادگیری ماشین همراه با ترکیب آن با موضوعات خاص توانسته است تا بینشهای پنهان را در دادههای سازمان آشکار نماید. این بینشها به جهت هدایت، تصمیمگیری و برنامهریزی استراتژیک نقش مهمی را ایفا مینمایند.
حجم بالای منابع داده باعث گردیده است که علم داده یکی از سریعترین زمینههای در حال رشد در هر صنعت به شمار رود. مجلهی هاروارد بیزینس ریویو (HBR.org) در پژوهشی جدید، دانشمند داده را با عنوان «جذابترین شغل قرن بیست و یکم» معرفی کرده است و به اهمیت و نقش مهم این حرفه بهطور مفصل پرداخته است. سازمانها برای تفسیر دادهها و ارائه توصیههای عملی برای بهبود نتایج کسب و کار به طور فزایندهای به آنها متکی هستند. با استفاده از علم داده، شرکتها میتوانند موارد زیر را به انجام برسانند:
- تصمیمات بهتر و منطقی
- تحلیلهای پیشبینیکننده
- کشف الگوها و روشها
دیتا ساینتیست کیست و چه مهارتهایی دارد؟
در یک دهه گذشته، دانشمندان داده به داراییهایی ارزشمند برای سازمانها تبدیل شدهاند و تقریباً در همه شرکتها حضور دارند. این متخصصان افراد کاملاً حرفهای و دارای مهارتهای فنی سطح بالا هستند که قادر به ساختن الگوریتمهای کمی پیچیده برای سازماندهی و سنتز مقادیر زیادی از اطلاعات مورد استفاده برای پاسخ به سؤالات و هدایت استراتژی در سازمان خود هستند. این همراه با تجربه ارتباطات و رهبری لازم برای ارائه نتایج ملموس به ذینفعان مختلف در یک سازمان یا تجارت خواهد بود.
دانشمندان داده باید با دانش و مهارتهای ارتباطی خاص صنعت، کنجکاو و نتیجهگرا باشند که به آنها امکان میدهد نتایج بسیار فنی را برای همتایان غیرفنی خود توضیح دهند. آنها دارای پیشینه کمی قوی در آمار و جبر خطی و همچنین دانش برنامهنویسی با تمرکز در انبارداری دادهها، معدن و مدلسازی برای ساخت و تجزیه و تحلیل الگوریتمها هستند.
دانشمندان این حیطه بررسی میکنند که چه سؤالاتی نیاز به پاسخگویی دارند و دادههای مرتبط را از کجا و چگونه پیدا کنند. آنها دارای مهارتهای شغلی و مهارتهای تحلیلی و توانایی ارائه و تمیز هستند. مشاغل از دانشمندان داده برای منابع، مدیریت و تجزیه و تحلیل مقادیر زیادی از دادههای بدون ساختار استفاده میکنند. نتایج سپس سنتز و به ذینفعان اصلی برای هدایت تصمیمگیری استراتژیک در سازمان منتقل میشوند. افراد متخصص در این حوزه باید همواره در حال بهروزرسانی اطلاعات و دانش خود باشند. با شرکت در دورههای آموزشی برای یادگیری و ارتقای مهارتهای علم داده میتوان به عنوان کارشناس علم داده شروع به فعالیت نمود. برخی از مهارتهای مورد نیاز در این حوزه شامل موارد زیر است:
- مهارتهای برنامهنویسی SAS، R و Python:
در حوزه علم داده نرمافزار SAS در تحلیلهای آماری نقش مهمی را ایفا نموده و یک استاندارد طلایی محسوب میگردد. در نرمافزار برنامهنویسی R نیز با استفاده از کدهای مخصوص آمار و احتمالات، تحلیلهای آماری پیشرفته به همراه تصویرسازی آنها را انجام میدهد.
نقش پایتون نیز با کتابخانههای گسترده آن در تمامی علوم و حیطههای پژوهشی نیز غیرقابل انکار خواهد بود. کتابخانههایی مانند Pytorch و Pandas به پردازش دادهها در مقیاسهای مختلف و حل مسائل پیچیده میپردازد. علاقهمندان برای ورود به حوزهی علم داده میتوانند در دورههای آموزشی زیر شرکت نمایند و در کمترین زمان ممکن مطالب اصولی و مهم علم داده را دریابند:
- مهارتهای آماری و ریاضی
دانشمندان داده در قدم اول یادگیری مهارتهای ریاضی باید به جبر خطی مسلط باشند و پس از آن آمار و حساب دیفرانسیل و انتگرال را در دستور کار آموزش قرار دهند. یک دانشمند داده باید ساختار کلی ریاضیات را بداند و از آن در کار خود استفاده کند.
- تجسم دادهها(visualization)
مصورسازی دادهها فرآیند نمایش گرافیکی دادهها محسوب میشود. این عمل تبدیل دادهها به یک زمینه بصری است که دانشمندان علم داده میتوانند با استفاده از نمودارها، انیمیشنها و اینفوگرافیکها به تحلیل دادهها میپردازند. یک متخصص داده با مصورسازی دادهها برای پرسنل مدیریت به پیشبینی ساختار سازمانی کمک شایانی مینماید. متخصصین داده با یادگیری اصول مصورسازیها میتوانند درک بهتری از دادههای خود داشته باشند.
- توانایی در Hadoop SQL
دادههای متعدد و متنوع در علوم داده نیاز به تجزیه، تحلیل، پردازش و ذخیرهسازی دارند که استفاده از سیستمهای سنتی برای آنها چالشبرانگیز خواهد بود. متخصصین داده با بهرهگیری از چهارچوبی به نام Hadoop برای پردازش و ذخیرهسازی و ساختارهای SQL به همراه آن میتوانند دادههای بزرگ را مدیریت کنند.
تحلیلگر داده، مهندس داده یا دانشمند داده؟ مقایسه نقشها و مهارتها
در دنیای علم داده عنوانهای شغلی و مهارتی فقط به یک یا دو عنوان بسنده نکرده است و حتی جزئیترین موارد نیز به افراد متخصص در همان حوزه نیازمند خواهد بود. در ادامه سه نقش مهم در علم داده مورد بررسی قرار میگیرد تا علاقهمندان حوزهی علم داده بتوانند با دید باز یکی از این حرفهها را انتخاب کنند:
تحلیلگر داده: این افراد فعال در علم داده فاصله بین دانشمندان داده و تحلیلگران کسب و کار را پر میکنند. سوالاتی که نیاز به پاسخ از سوی یک سازمان دارند به آنها ارائه میشود و سپس دادهها را سازماندهی و تجزیه و تحلیل میکنند تا نتایجی را بیابند که با استراتژی کسب و کار سطح بالا هماهنگ باشد. تحلیلگران داده مسئول ترجمه تحلیل تکنیکال در موارد اقدام کیفی و انتقال موثر یافتههای خود به ذینفعان مختلف هستند.
مهارتهای مورد نیاز در این حوزه شامل موارد زیر خواهد بود:
- مهارتهای برنامهنویسی
- مهارتهای آماری و ریاضی
- تجسم دادهها
مهندس داده: مهندسان داده، مقادیر تصاعدی دادههایی را که به سرعت در حال تغییر هستند مدیریت میکنند. آنها بر توسعه، استقرار، مدیریت و بهینهسازی خطوط داده و زیرساخت برای تبدیل و انتقال دادهها به دانشمندان داده برای پرس و جو تمرکز میکنند.
مهارتهای مورد در این حوزه شامل موارد زیر است:
- زبانهای برنامهنویسی (جاوا، اسکالا)
- تسلط بر پایگاههای داده مانند NoSQL، MongoDB، Cassandra DB
- یادگیری چارچوبها (Apache Hadoop)
دانشمند داده: افراد فعال در این حیطه میتوانند توصیههایی در مورد نوع داده مفید یا مورد نیاز ارائه دهند. دانشمندان داده لزوماً مسئول مستقیم همه فرایندهای درگیر در چرخه حیات علم داده نیستند. آنها میتوانند مدلهای یادگیری ماشین را بسازند، مقیاس این تلاشها در سطحی بزرگتر به مهارتهای مهندسی نرمافزار بیشتری برای بهینهسازی یک برنامه برای اجرای سریعتر نیاز دارد. در نتیجه برای یک دانشمند داده معمول است که با مهندسان یادگیری ماشین برای مقیاسبندی مدلهای یادگیری ماشین شریک شود. مسئولیتهای دانشمند داده معمولاً میتواند با یک تحلیلگر داده در موارد تجزیه و تحلیل دادههای اکتشافی و تجسم دادهها همپوشانی داشته باشد. با این حال، مجموعه مهارتهای یک دانشمند داده معمولاً گستردهتر از میانگین تحلیلگر داده است.
دانشمندان داده معمولا در موارد زیر مهارت کسب میکنند:
- زبانهای برنامهنویسی رایج مانند R و Python برای استنتاج آماری و تجسم دادهها
- یادگیری هوش تجاری در تجزیه و تحلیل دادهها (دوره آموزش هوش تجاری (Business Intelligence))
- تسلط بر روشهای داده کاوی و پایگاه داده
- تجزیه و پیشبینی با بهرهگیری از هوش مصنوعی
برای انجام این وظایف، دانشمندان داده به علوم کامپیوتر و مهارتهای علمی خالص فراتر از یک تحلیلگر تجاری معمولی یا تحلیلگر داده نیاز دارند. دانشمند داده همچنین باید ویژگیهای کسبوکار، مانند ساخت خودرو، تجارت الکترونیک یا مراقبتهای بهداشتی را درک کند.
تا به اینجا سه نقش مهم در علم داده همراه با فعالیتها و مهارتهای آنها بیان شد. بهتر است مقایسهای نیز صورت گیرد تا علاقهمندان با دیدی باز تصمیم خود را برای ورود به این عرصه بگیرند:
مشاغل علم داده |
تفاوت دیدگاههای کلی بر دادهها |
مهندس داده |
|
دانشمند علم داده |
|
تحلیلگر داده |
|
تفاوت علم داده و هوش تجاری
ممکن است به راحتی بتوان اصطلاحات "علم داده" و "هوش تجاری" (BI) را اشتباه گرفت زیرا هر دو به دادههای سازمان و تجزیه و تحلیل آن دادهها مربوط میشوند اما در تمرکز بر موضوعات متفاوت خواهند بود.
هوش تجاری (BI) را میتوان به صورت زیر تعریف نمود و تفاوتهای شاخص آن با علم داده را به شکل زیر بیان نمود:
- معمولاً یک اصطلاح چتر برای فناوری است که آمادهسازی دادهها، دادهکاوی، مدیریت دادهها و تجسم دادهها را امکانپذیر میکند.
- ابزارها و فرآیندهای هوش تجاری اطلاعات عملی را از دادههای خام شناسایی میکند و تصمیمگیری مبتنی بر داده را در سازمانها در صنایع مختلف تسهیل کنند.
- هوش تجاری بیشتر بر دادههای گذشته تمرکز میکند و بینشهای ابزارهای BI ماهیت توصیفیتری دارند.
- هوش تجاری از دادهها برای درک آنچه قبلاً رخ داده است استفاده میکند تا یک دوره اقدام را اطلاع دهد.
- BI به سمت دادههای ایستا (تغییرناپذیر) که معمولاً ساختاری هستند هدایت میشود.
در مقابل علم داده به شکل زیر بیان میگردد:
- ابزارهای علم داده در بسیاری از موارد هوش تجاری با هم همپوشانی دارند.
- علم داده از دادههای توصیفی استفاده میکند.
- در علم داده با دادههای توصیفی به تعیین متغیرهای پیشبینیکننده پرداخته میشود تا سپس برای دستهبندی دادهها یا پیشبینیها استفاده شود.
علم داده و BI با وجود ویژگیهای بسیار متقابلاً منحصر به فرد نیستند. سازمانهای هوشمند از هر دو برای درک کامل و استخراج ارزش از دادههای خود استفاده میکنند. یادگیری هر دوی این علوم برای علاقهمندان این حوزه پیشنهاد میگردد. دانشپژوهان این حوزه میتوانند در دورههای گروه آموزشی پارس پژوهان شرکت نمایند و از بهترین روشهای تدریس بهرهمند شوند.
مزایا و معایب علم داده برای کسب و کارها
تا اینجا به صورت گسترده به تعریف علم داده و نقش آن پرداخته شد، حالا بهتر است تا نقش مستقیم این علم در کسب و کارها مورد بررسی قرار گیرد و مزایا و معایبی که به همراه دارد بیان گردد:
مزایای علم داده |
معایب علم داده |
توانمندسازی و تسهیل تصمیمگیری سازمان |
نگرانی برای حجم عظیم دادهها و اطلاعات شخصی |
توانمندی در استفاده از شواهد قابل سنجش و مبتنی بر داده برای تصمیمگیری |
داشتن هزینههای بالا و سرسامآور برای راهاندازی زیرساختها و تهیهی ابزار مربوط به علم داده |
افزایش سود و بهبود بهرهوری عملیاتی، کارایی کسبوکار و جریانهای کاری |
دشواری و سختی در تسلط بر علم داده به دلیل تشکیل شدن از چند علم گسترده و پیچیده |
شناسایی و جلب مخاطبان هدف |
وابستگی بالا به کیفیت دادهها برای تحلیل نتایج |
کمک به سازمانها در استخدام نیروها |
وجود اشباع شغلی در حوزهی علم داده |
آینده و بازار کار علم داده
آینده علم داده با فرصتهای هیجانانگیزی که توسط فناوریهای جدیدی ظهور میکنند و با روشهای کاملا نوین برای تجزیه و تحلیل و استفاده از دادهها همراه خواهد بود. با پیشرفت این فناوریها، علم داده فرصتهای جدیدی را در صنایع ایجاد خواهد کرد و مشاغل متعددی برای افراد فعال در این حوزهها ایجاد خواهد شد. این پیشرفتها در علم داده به وقوع موارد زیر منجر خواهد شد:
- پیشبینی روندها و تصمیمگیریهای مبتنی بر داده به صورت سادهتر
- بهرهگیری دقیقتر از مدلهای یادگیری ماشین
- متحول شدن صنعت و درمان و بازارهای مالی
- جایگزین شدن ابزارهای سنتی با محاسبات کوانتومی
- درک سهبعدی دادهها در موقعیتهای واقعیت مجازی (VR)
جمعبندی
با توجه به افزایش حجم دادهها در عصر حاضر و اهمیت بالای استفاده بهینه و پردازش این دادهها، تربیت و بهکارگیری افراد با استعداد در این حوزه امری مهم محسوب میگردد. مزایا و معایب علم داده نشان میدهد که چرا رویکرد به این حوزه با طرز فکر و آموزش صحیح ضروری است. با یادگیری اصولی علم داده می توان به این عرصه ورود کرد و پس از تمرین و مداومت در آموزش مقدمات ورود به بازار کار و کسب درآمد مهیا خواهد شد. علم داده به عنوان رشتهای پرطرفدار در کسب و کارها و حتی در زندگی به شمار میرود. و تخصص داشتن در آن میتواند آینده خوبی را برای فرد هم از نظر علمی و مالی رقم بزند.
نویسنده: نگین بشیری، کارشناس مهندسی برق - صالحه علی پور، کارشناس ارشد مهندسی پزشکی