The Basic steps for any Data Science Project

Advertisements

As a beginner, did you ask yourself what are the basic steps for any Data Science project?

  1. Project’s idea study:

The objective of this step is to comprehend the issue by applying a study for the business problem.

For example, let’s say you are trying to predict the obesity rate in certain country. In this case, you need to comprehend the terminology used in the research industry and the main problem, and then collect enough relevant data about that meet your research. 

2- Preparing the Data:

 A data scientist should first explore the dataset to specify any missing data or data that are useless to our analysis goals. During this process, you must go through several steps, including:

Data Integration:

It is used to Resolve any struggles in the dataset and wipe out redundancies.

Data Transformation

Normalize, transform and aggregate data using ETL (extract, transform, load) methods

Data Reduction

decrease the size of the data without affecting the quality of the results

Data Cleaning

learning has many steps depending on the data quality and the mess levels. So, in this step, we perform filling in the gaps, transform the data structure from one type to another.

3-Model Planning:

After you have cleaned up the data, you should pick an appropriate model. The model you need should match with the idea of the issue—is it a regression issue, or a classification one? This part of working additionally includes an Exploratory Data Analysis (EDA) to dive more into data to reveal the insights and comprehend the connection between the variables. A few strategies utilized for EDA are histograms, box plots, bar charts, and so on.

After finishing choosing the model, split the data into training and testing data—training data to prepare the model, and testing information to validate the model. On the off chance that the testing isn’t exact, you should re-train another model. but if it is good working, you can place it into production.

The different tools utilized for modeling are:

R:

This tool can be used for normal statistical analysis and visualization

Python:

Python has great scientific libraries to apply machine learning and data analysis

SAS:

It is a great tool to perform full statistical analysis.

4- Model Building:

The following step is to create the model. Utilizing different analytical methods to discover useful information. You can quickly build models using Python packages from libraries like PandasMatplotlib, or NumPy.

5- Communication

During this step, the basic goal is to interpret our work to the stakeholders

by including details about steps taken and visualize it to make it easier to read.

6- Finalizing:

When all the team parties approve the discoveries, they get started. In this stage, the partners likewise get the last reports, code, and specialized archives.

Advertisements

:بالعربي
: الخطوات الاساسية اللازمة لتنفيذ مشروع في مجال علم البيانات-

Advertisements

.كمبتدىء في مجال علم البيانات يجب كمرحلة اولى ان يكون لديك دراية بماهية الخطوات المتبعة اثناء تنفيذ مشروع لعلم البيانات

:١- اجراء دراسة اولية لفكرة المشروع

الغاية من هذه الخطوة هو فهم الفكرة الاساسية للمشروع المراد تنفيذه من خلال المعرفة الكافية بالمصطلحات الاساسية الخاصة بالمشروع وما هي الغاية من تنفيذ المشروع

:مثال على ذلك

اذا اردنا التنبؤ بمعدل البدانة ببلد ما , في هذه الحالة يجب فهم المصطلحات الاساسية الخاصة بهذا المجال وماهي البدانة والعوامل المؤثرة في ازدياد معدل البدانة وبالتالي معرفة المتغيرات اللازم ادخالها في عملية التحليل والتي تفيدنا بالحصول على نتائج جيدة

:٢- مرحلة تحضير البيانات

كأي عالم بيانات يجب بداية استكشاف الداتا للتخلص من البيانات الغير مهم ادخالها في عملية التحليل او اذا كانت هناك بيانات مفقودة يجب التعامل معها اما بحذفها او بملئها ببيانات جديدة مشتقة من البيانات الموجودة سابقا

:يعتمد تنفيذ هذه المرحلة على عدة مراحل لاحقة

Data Integration:

تستخدم هذه المرحلة للتخلص من البيانات المكررة

Data Transformation

وهي مرحلة من مراحل معالجة البيانات تعتمد على استخلاص البيانات من قواعد البيانات معالجتهاETLتدعى هذه

واعادة تحميلها

Data Reduction

اذا كان لدينا بيانات هائلة وضخمة فيمكن التخلص من جزء من هذه الداتا او اخذ عينة منها بحيث لايتم التأثير على مدى جودة الداتا

Data Cleaning

كماذكرنا سابقا هذه المرحلة تعتمد على مدى فوضوية البيانات وعشوائيتها لنقوم باتخاذ الخطوات المناسبة لتصحيحها وجعلها جاهزة لاعطاء النتائج

:٤- التخطيط لبناء المودل

بعد عملية تصحصح البيانات عليك البدء باختيار المودل المناسب لحل المشكلة التي تواجهك حسب نوعيتها هل هيه مشكلة لتحليل بيانات متوالية او مشكلة تصنيفية بمعنى النتائج يجب ان تكون اما نعم او لا

اي عملية استكشاف البيانات لايجاد العلاقة بين المتغيرات وماهية البيانات وتوزعها EDAايضا تتصمن هذه المرحلة ويكون ذلك بالتمثيل البياني والمخططات البيانية كمنحني التوزع الطبيعي (الهيستوغرام) او ال(البوكس بلوت) او( الباي تشارت

HISTOGRAM
PIE CHART
BAR CHART

والغاية منه تدريب Training dataنقوم بتقسيم البيانات الى قسمين الاول يسمى EDAبعد الانتهاء من انتقاء المودل وعملية ال

والغاية منه تطبيق المودل بعد تدريبه للحصول على النتائجtesting dataالمودل على جزء من الداتا والبيانات والقسم التاني هو ال

اذا كانت النتائج مشكوك بدقتها او صحتها فيجب اخيتار داتا اكتر للتدريب واذا استمر الخطأ ممكن ان testing فبعد عملية ال

نقوم باستبدال المودل بمودل اخر

ماهي الادوات المستخدمة في عملية التحليل وما هي ميزاتها

R١- برنامج ال

هو لغة من لغات البرمجة يتم استخدامها من اجل العمليات الاحصائية والتمثيل البياني يتميز بقوته في رياضيات الاحصاء

٢-. البايثون

هو ايضا لغة من اللغات البرمجة والتي تعتبر سهلة جدا بالتعلم للمبتدئين في هذا المجال يتميز بتنوع مكاتبه العلمية المستخدم لرياضيات خوارزميات الماشين ليرنينغ وايضا مكاتب التمثيل البياني

SAS– ٣

من اهم البرامج المستخدمة في عمليات التحليل الاحصائي للبيانات

٤- مرحلة بناء المول

بناء المودل المناسب الهدف منه كما ذكرنا سابقا هو اكتشاف ماوراء الداتا , ففي حالة برنامج البايثون يتم استخدام مكتبات متعددة Matplotlibوايضاpandasوايضا Numpyمثل ال

٥- مرحلة مايسمى بترجمة النتائج

تعتبر هذه المرحلة من اهم مراحل عمل مشاريع الداتا ساينس وهي كتابة التقريرالنهائي بطريقة مبسطة وسهلة الفهم وباستخدام مخططات تمثيلية تسهل وصول الفكرة بشكل بسيط يتم شرح مبسط لما تم تطبيقه سابقا وشرح النتائج التي تم الوصول اليها وتقديم الحلول اذا اقتضى الامر

٦- المرحلة النهائية

وهي المرحلة النهائية التي يتم اعتماد النتائج التي تم الوصول اليها لتطبيقها ومرحلة استلام كودات العمل والتقارير النهائية

Advertisements

Leave a comment