Data Visualization By Python

Advertisements

Here I will explain visualization by using python. The explanation will be on a real case but I will only introduce python codes with charts explanation.

What is the Dataset about?

We will work on the Breast Cancer Wisconsin (Diagnostic) Dataset. Here, Features are taken from the image of a fine needle aspirate (FNA) of a breast mass. They describe characteristics of the cell nuclei present in the image. You can find this dataset in Kaggle.

What are the Data Visualization steps on this Dataset?

1. Importing libraries

2. Distribution plot

3. Pair plot

4. Count plot for Categorical columns

5. Checking Outliers existence

6. Correlation matrix

Matplotlib & Seaborn are the two main libraries in Python as well as other libraries such as: GGplot and Plotly

So let’s start with the first step:

1. Importing the required libraries:

import matplotlib.pyplot as plt

import seaborn as sns

2. Using Distribution plot for all columns:

By creating distribution plots, we can know if the data is normally distributed or there is some skew in it, then we may need to make some transformations to get better results from the machine learning models.

Here we will create the distribution plot for all columns in the dataset and I will display the distribution plot for the “area_mean” column

We clearly notice the right skewness for the “area_mean” column, like most of the columns in the data set. This method of analysis called Univariate Analysis, where we take one variable and analyze it, but when we take two variables at the same time and try to find a relationship between them, then it is called Multivariate Analysis.

3-Pair plot:

The main concept of the pair plot is to understand the relationship between the variables.

Its code is:

4- Count plot for Categorical columns:

When we have a categorical variable we will plot it in a count plot.

This dataset contains one categorical variable (“target”) with two classes:

0 (Benign) and 1 (Malignant)

Count plot can show the total counts for each cateu. As we can see, the number of data points with a rating of ‘0’ is higher than that of ‘1’ which means that we have more Benign cases than Malignant cases in this dataset which is an indication about unbalanced Data.

5- Outliers:

Most ML algorithms such as Regression models, K-Nearest Neighbors, etc are sensitive to Outliers, but other models such as Random forest are not affected by Outliers.

The plot that reveals the outliers is a BOX and Whisker plot:

At the top of the plot in the loop we will create a box for all the columns in the data set which we will display to the “radius_mean” variable alone.

The circles at the top of the top whisker and below the bottom whisker represent the values of the Outliers

In our example, the Outliers values are in the top section only.

6- Correlation matrix:

Its purpose is to find out the correlation between the variables in the data set so that the useful features are selected and the unnecessary ones removed.

We will create a Heat Map to visualize the relationship between the variables :

correlation values range from +1 to -1
If the correlation between two variables is +1, the correlation is positive, and if the correlation is -1, it is negative
Determining the type of correlation between two variables helps in facing the problem of multiple linearity and assit us to take the decision in removing one of the features especially when we have two independent variables that are highly correlated.

Finally, These are the most popular plots that we can create for the dataset that we have. There are several other plots like Pie chart, Scatter plot, etc. We always decide the plots that we need to use depending on the dataset and the insights we are looking for as the conclusions that we derived from Data Visualization process will be helpful for models applications.

Advertisements
Advertisements
Advertisements

Best Books for Data Science (Intermediate )

  • To advance past the junior data scientist level the key is to practice coding as much as could reasonably be expected to remain on top.
Advertisements
  • First : Python for Data Analysis is the ideal method to become more familiar with standard Python libraries like NumPy or pandas, as you need these libraries for Real-World Data analysis and visualization. So, this book is a finished composition that begins by reminding you how Python functions and investigates how to extract helpful insights from any data you may deal with as a Data Scientist.
Advertisements
  • Second: Python Data Science Handbook is an extraordinary aide through all standard Python libraries also like NumPy, pandas, Matplotlib, Scikit-learn.
  • This book is an extraordinary reference for any data-related issues you may have as a data scientist. Clean, transform and manipulate data to discover what is behind the scene.
Advertisements
  • Third: Python Machine Learning is somewhere close to transitional and master. It will request both specialists and individuals who are somewhere in the middle.

It begins delicately and afterward, continues to latest advances in AI and machine learning.

It is an Extraordinary read for any AI engineer or Data Scientist exploring different avenues regarding AI calculations!

Advertisements
  • Fourth: Active Machine Learning with Scikit-Learn and TensorFlow (the second version is out!) is a stunning reference for a mid-level data scientist.

This book covers all basics (classification methods, dimensionality reduction) and afterward gets into neural organizations and deep learning utilizing Tensorflow and Keras to assemble ML models.

  • These are some of many important books for intermediate level, if you know other books please share in comments.
Advertisements

:بالعربي

Advertisements

كما قرأنا سابقا” عن بعض الكتب التي تساعدك كمبتدئء في علم البيانات بالدخول الى هذا المجال من دون الحاجة لمعرفة اي لغة من لغات البرمجة, ولكن لتصبح متمرس اكتر لابد من البدء بتعلم لغة واحدة على الاقل وانا انصح بلغة البايثون لسهولة تعلمها.

ومن هنا لنتعرف على الكتاب التالي وهو (البايثون لتحليل الداتا) يعتبر اقتناء هذا الكتاب وقرائته طريقى مثلى للبدء بالتعرف غلى مكاتب البايثون اللازمة قي تحليل البيانات و تمثيلها مرئيا” مثل مكتبة الباندا و النمباي, حيث يتدرج في شرح المعلومات من مستوى المبتدئء وحتى مستوى متقدم اكثر.

Advertisements

الكتاب الثاني هو ( البايثون لتعلم الداتا ساينس) , يعتبر هذا الكتاب المساعد الاول لاي عالم بيانات مستجد حيث من خلاله يمكنك ايجاد الكثير من الحلول التي ممكن ان تواجهك اثناء تصحيح البيانات ومعالجتها , او تطبيق الخوارزميات وغيرها.

Advertisements

اما الكتاب الثالث فهو (البايثون لتعلم الالة) يعتبر هذا الكتاب مرجع جيد لمن هم في منتصف الطريق في رحلة تعلمهم لعلم البيانات او حتى ممن يمارسون المهنة فهو دليل شامل يتدرج من المستوى المبتدئ و حتى مستويات اعلى.

Advertisements

اما الكتاب الرابع فهو ( تعلم الالة باستخدام الكيراس و التنسر فلو) , يعتبر هذا الكتاب ايضا مهم جدا للمستويات المتوسطة في علم البيانات حيث يساعدك على تعلم مبادئء خوارزميات التصنيف و غيرها و من ثم ينتقل الى مستويات اعلى بتعلم ميادئء الشبكات العصبية والتعلم العميق باستخدام التنسرفلو و الكيراس.

المقالة القادمة ستكون لكتب المرحلة المتقدمة , اذا كان لديكم كتب اخرى قمتم بقرائتها واستفدتم منها شاركونا بالتعليقات

Advertisements

Best Books for Data Science (For Beginners)

Advertisements
  • Data Science is certainly the most sizzling business sector at this time. Pretty much every organization has a Data science position opened or will open soon. That implies, it’s the best ideal opportunity to turn into a Data Scientist or sharpen your abilities in case you’re as of now one and need to step up to more senior positions. So, to get such a valuable help in this career, I will recommend you with the most valuable books that could lead you to know more skills in Data Science. More further, books are good and necessary but 70% of your Data analysis skills comes in practicing and performing projects.
Advertisements

Data Science books for Beginners

1- In case you’re simply beginning your experience with Data Science, you should start with this book:

  • You do not need to know Python to start, this book is very helpful to start from the beginning as you’ll get a brief training in Python, learn basic math for Dat Science, and you will be able to break down data and analyzing it.
Advertisements

2- In case you’re a beginner in machine learning you will find this book very helpful:

  • you do not need to know Python as well as this book will help you to know all machine learning Algorithms and how to apply them in Python.
Advertisements

3- Finally, assuming you are looking for a good guidance of what Data Scientist mean?, then, at that point view a valuable book:

  • This book will help you to know what skills you need to obtain to turn into Data Scientist, how Data Scientists perform their jobs, or how to land your first interview for the first position.

I introduced most important books for Beginners who are taking their decision to become a Data Scientist. So, Good Luck, and it is my pleasure to share in comments some of other valuable books in Data Science for beginners that you may know about, that we can all exchange our experience.

Advertisements

( Arabic):بالعربي

:اهم الكتب في مجال علم البيانات

Advertisements

علم البيانات هو من أهم قطاعات العمل المنتشرة في العصر الحديث وخاصة في دول الغرب جميع الشركات حاليا تسعى لاستثمار البيانات المتوفرة والموجودة لديها في تحسين اداء العمل واكتشاف الثغرات و وضع خطط عمل مستقبلية تتماشى مع تحقيق اهداف الشركة ,لذلك بدأت هذه الشركات بتوظيف علماء ومحللين البيانات للتعامل مع البيانات وتوظيفها كما ذكرنا في ما يخدم مصلحة العمل.

فاذا كنت حاليا بدأت بتعلم هذا الاختصاص او تمارس هذا الاختصاص في احدى الشركات وبحاجة. الى كتب تساعدك في رحلة التعلم اليك هذا المقال الذي سنستعرض فيه اهم الكتب للمبتدئين في مجال الداتا ساينس

Advertisements

١- بداية اذا كنت مستجد في هذا المجال ولا تعرف عن الاختصاص الا اسمه يمكنك البدء بهذا الكتاب الذي يساعدك بوضع اللبنة الاولى برحلة تعلمك الجديدة ومن دون اي حاجة لمعرفة سابقة بلغات البرمجة , حيث يساعدك بتعلم الرياضيات الاساسية في مجال الداتا ساينس وكيفية تطبيقها بشكل مبسط على برنامج البايثون الذي يعتبر من اسهل لغات البرمجة

Advertisements

٢- اذا كنت من المستجدين في تعلم لغة الالة فهذا الكتاب سيساعدك كثيرا لفهم هذا المجال وفهم الخوارزميات المستخدمة في التعلم الالي و كيفية تطبيقها بخطوات بسيطة على برنامج البايثون

Advertisements

٣- اما اذا كنت تبحث عن كتاب يوفر لك معلومات عن معنى علم البيانات وماهي المهارات التي يجب ان تتعلمها للدخول في هذا المجال , او كيف يمكن ان تحصل على المقابلة الاولى التي ستوفر لك العمل المناسب فإليك هذا الكتاب

وفي ختام هذا المقال نكون قد استعرضنا اهم الكتب اللازمة للمبتدئين في مجال علم البيانات , نتمنى للجميع التوفيق و نتمنى ايضا مشاركتنا بالتعليقات عن كتب اخرى قمتم بقرائتها لتبادل الخبرات والمعرفة بين الجميع

Advertisements
Advertisements

How To Build A Career In DATA SCIENCE?

Advertisements

introduction:

Data Scientists are a blend of mathematicians, trend-spotters, and Computer Scientists. The Data Scientists’ job is to deal with huge amounts of data and complete further investigation to discover trends and gain a more profound understanding of what everything implies.

To start a career in Data Science you need some skills like analysis, machine learning, statistics, Hadoop, etc. Also, you need other skills like critical thinking, persuasive communications, and are a great listener and problem solver. 

This is an industry where plenty of opportunities are available, so once you have the education and capabilities, the positions are sitting tight for you—presently and later on.

Advertisements

Data Scientist Job Market:

These days Data is considered very valuable, organizations are utilizing the discovered insights that data scientists give to remain one step ahead of their opposition. Large names like Apple, Microsoft, Google, Walmart, and more famous companies have many job opportunities for Data Scientists.

Data science job role was discovered to be the most encouraging vocation in 2019 and has positioned one of the best 50 positions in the US.

Advertisements
  • How to start your first step?

The academic requirements for Data Science jobs are among the outstanding roles in the IT business—about 40% of these positions today expect you to hold a postgraduate education. There are also many platforms that offer to teach Data Science online like EDX, Coursera, Data world workshops, and many others.

These courses permit you to acquire deep learning about the most developed skills and techniques that Data scientists use, like Power Bi, Hadoop, R, SAS, Python, AI, and more.

Did you start your career, write in comments which is the best platform to learn the skills from your perspective?

Advertisements

بالعربي

كيف تبني خبراتك المستقبلية لتصبح خبير في مجال علم البيانات؟

Advertisements

عالم البيانات يعتبر مزيج من علم الرياضيات والمعلوماتية حيث يعتمد علم البيانات كما قرأنا سابقا على معالجة حجوم كبيرة من البيانات لاستكشاف ماوراء الداتا , مدلولاتها , والترند التي تشير اليها و بالتالي فهم ماهية الامور و كيفية حدوثها .

للبدء باختصاص الداتا ساينس لابد من اكتساب المهارات اللازمة لهذا المجال و اهمها القدرة على تحليل الامور و قراءة المخططات البيانية التحليلية وفهم مدلولاتها بالاضافة لاكتساب معلومات اولية في مبادىء الاحصاء والاحتمالات الرياضية التي تساعد كثيرا في تحليل الداتا

ايضا بالاضافة للمهارة السابقة يجب تعلم لغة برمجية تساعد اثناء عملية التحليل وتطبيق الخوارزميات او تعلم البرامج التحليلية الجاهزة متل النايم وغيره , و اما اذا كنت تتعامل مع كميات كبيرة وضخمة جدا من البيانات يجب التطرق الى المنصتين الاساسيتين للداتا الضخمة وهما سبارك و هادوب

اما لتعلم مهارات التصوير البياني او مايسمى باللغة الانكليزية فيجواليزيشن عليك التطرق الى احدى المنصتين هما تابلو و بور بي اي

ايضا بالاضافة للمهارات السابقة يجب ان يكون لديك المهارة والقدرة العالية على تحليل الامور و ربط الاحداث مع بعضها بالاضافة للمهارات الجيدة بالتواصل مع الزملاء و العمل ضمن فريق كامل متكامل لايجاد الحلول للمشاكل التي يمكن ان تواجهك اثناء عملية التحليل

يعتبر هذا المجال حاليا مجال العصر والمستقبل وبسبب النقص الكبير في اعداد الخبراء هناك توفر كبير لفرص العمل بالاضافة للرواتب الجيدة نسبيا ومهما كانت شهادتك البكالوريوس التي حصلت عليها سابقا بامكانك تعلم مهارات علم البيانات والدخول به حيث انه مجال شامل مكمل لاي اختصاص سابق ويتم تطبيقه في العديد من القطاعات ومجالات الحياة

Advertisements

سوق العمل في مجال الداتا ساينس:

ذكرنا سابقا ان العديد من الوظائف مفتوحة في مجال الداتا ساينس ولكن هناك نقص كبير بالخبراء , لكن هل سالت نفسك لماذا هذا الاقبال الشديد من قبل الشركات على هذا الاختصاص تحديدا؟

حقيقة الكثير من الشركات وخاصة الشركات الكبرى مثل غوغل, مايكرو سوفت, امازون , ابل وغيرها يعتمدون على هذا المجال لزيادة ارباحهم وتقييم منتجاتهم و وضع خطط مستقبلية لتطوير منتجاتهم من خلال دراسة اقبال الناس على شراء منتجاتهم و المنتجات المحبذة لدى الزبائن و دراسة متطلباتهم ,و كل ذلك يتم بدراسات احصائية و تحليلية طويلة الامد تحتاج خبراء حقيقين في مجال الداتا ساينس

منذ العام ٢٠١٩ اعتبر مجال الداتا ساينس من اهم القطاعات التي يجب التشجيع عليها و تعلم مهاراتها حيث اصبح هذا المجال من اوئل ال ٥٠ وظيفة الاكثر اهمية وطلبا في سوق العمل في الولايات المتحدة الامريكية

Advertisements

اذا ماهي الخطوة الاولى للبدء في هذا المجال؟

الدراسة الاكاديمية الان ضرورية جدا للدخول في هذا المجال حيث ان معظم الشركات حوالي الاربعين بالمئة منهم يطلبون اذا لم يكن تخصصك الجامعي في مجال الحاسوب او المعلوماتية ان يكون لديك على الاقل دبلوم عالي في مجال الداتا ساينس, ولكن هذا لا يعني انه عليك اكتساب الدبلوم او الماستر اولا للبدء في هذا المجال وانما يمكنك تعلم المهارات من خلال العديد من منصات الاون لاين واحتراف المهارات المطلوبة من دون دراسة اكاديمية , و من اهم هذه المنصات داتا كامب, ايدكس , كورسيرا وغيرها كثير

هل بدأتم بتعلم هذا المجال؟ اكتبولي بالتعليقات ماهي افضل المنصات التعليمية الاون لاين من وجهة نظركم وحسب تجربتكم؟

Advertisements