The 5 Most Difficult Questions to Ask a Machine Learning Interview Applicant

Advertisements

As an applicant for an interview in data science and related sciences, you may notice that the success rates seem low compared to the number of applicants. You may notice that the level of questions becomes more difficult in the advanced stages of the interview, especially when questions related to machine learning are asked. In fact, the questions may seem difficult at first. The first is often the failure to answer as a result of confusion, which usually leads to the failure of the applicant.

Anyone who can avoid falling into this trap can benefit from his previous stumbling blocks and turn them into strengths that will help him overcome this interview with ease because he has become fully aware of the level and method of asking difficult questions.

Of course, not all applicants will wait until they fail to become aware of the level of questions and answer them in another interview. Here we exclude a small group of applicants who are fully prepared for any kind of questions. For them, machine learning is a specialty and they deal with it professionally, making them able to face the questions that constitute For others, it is a bump that is difficult to overcome, so in this article, for example, we will address, for example, the five most difficult questions that are classified as difficult in interviews related to machine learning. Understanding these questions that form the basic concepts in machine learning will undoubtedly make the applicant in a position of strength when he is tested with them.

Question 1: What is the difference between XGBoost and Gradient Boosting?

The obvious answer to this question may seem to you that XGBoost is the most suitable application for dealing with Gradient Descent, and this answer is not wrong, but the questioner is trying to extract the skills of the applicant through an answer that indicates that the respondent is a professional data scientist

  • So the expected answer will be as follows:
  • XGBoost has a requirement to get the job done
  • XGBoost has a built-in technology for handling null values by a mechanism called sparsity awareness
  • Uses gradients that are based on similarity scores
  • It has a great role in speeding up the calculations
  • Parallelism to find (variable – threshold) groups on huge data sets using weighted quantitative sketch technique

Question 2: What are the best uses for regression evaluation scales?

the answer :

Evaluation criteria used in regression:

R2 is very common in detecting the presence of regression, as it explains by the percentage of variance in the function that is explained by the independent variables

MSE loss function

RMSE Root mean square variance

MAPE is the average percentage of absolute error, which is the most appropriate measure for the commercial activity, as its work is based on giving a percentage of error in the average prediction values

How do you use the most appropriate option for each of: MSE and RMSE?

Use the RMSE which is the same scale as the actual scale

Use MSE on the squared scale

Advertisements

Question 3: How can overfitting be controlled using cross-validation?

the answer :

It is important to know that cross-validation enables you to identify redundant composition without the possibility of controlling it

In order to be able to control it, we must do the following:

  • Selection and engineering of features
  • If the algorithm is linear, outliers must be processed
  • Parameter setting
  • Early stop
  • Organization
  • Try to get as much data as possible

Question 4: What are precision and recall?

Let’s say that out of 18 expected fraud incidents, 12 were classified as true, and in this context, 80% of all fraud incidents were found. Precision and recall

Answer: Let’s create the following matrix:

Precision = TP/(TP + FP) = 12/18 = 0.66

Recall = TP/(TP + FN) = 12/15 = 0.8

If your information is superficial on this subject, you will feel confused

On the contrary, if you are well versed, you will find that the answer is already in the question

Recall: What percentage of the actual 1s were correctly predicted = 80% = 0.8

Precision: How accurate were the predictions? Out of 18 predictions, 12 were correct, so 12/18 = 0.66.

It is noted here that TN is not a question and is not even required for both Recall and Precision

Question 5: What are the differences between Bagging and Boosting?

Bagging:

  • Creating a large number of decision trees that enable the final prediction to be obtained
  • Possibility to create decision trees on the dependent actual value
  • Possible poor results on random datasets

Boosting:

  • The dependence of the following tree on the prediction residuals on the last decision tree is the sequence of the beginners
  • Create trees on the tailings
  • Work well on random data set as it focuses on misclassified samples

Based on your knowledge of the previous points, you can choose between the two jobs

Advertisements

أصعب 5 أسئلة يمكن أن تطرح على المتقدم إلى مقابلة التعلم الآلي

Advertisements

قد تلاحظ كمتقدم لمقابلة في علوم البيانات وما يتفرع عنها من علوم أن معدلات النجاح تبدو منخفضة قياساً إلى عدد المتقدمين، قد تلاحظ أن مستوى الأسئلة يزداد صعوبة في مراحل متقدمة من المقابلة وخصوصاً عندما يتم طرح الأسئلة المتعلقة بالتعلم الآلي، في الحقيقة الأسئلة قد تبدو صعبة للوهلة الأولى وغالباً ما يكون التعثر في الإجابة نتيجة الارتباك الذي عادةً ما يؤدي إلى فشل المتقدم

يستطيع تجنب الوقوع في هذه المصيدة من يستفيد من عثرته السابقة ويحولها إلى نقاط قوة تعينه على تجاوز هذه المقابلة بسهولة ويسر لأنه بات على اطلاع تام على مستوى وأسلوب طرح الأسئلة الصعبة

بالطبع ليس كل المتقدمين سينتظرون إلى أن يفشلوا ليصبحوا على دراية بمستوى الأسئلة ويجيبوا عليها في مقابلة أخرى، نحن هنا نستثني فئة قليلة من المتقدمين المستعدين تماماً إلى أي نوع من الأسئلة، فالتعلم الآلي بالنسبة لهم هو اختصاص ويتعاملون معه باحترافية تجعلهم قادرين على مواجهة الأسئلة التي تشكل بالنسبة لغيرهم عثرة يصعب تجاوزها، لذا فسنتناول في مقالتنا هذه على سبيل المثال لا الحصر أكثر خمسة أسئلة تصنف على أنها صعبة في المقابلات المتعلقة بالتعلم الآلي، فهم هذه الأسئلة التي تشكل المفاهيم الأساسية في التعلم الآلي سيجعل بلا شك المتقدم في موضع قوة عندما يتم اختباره بها

:السؤال الأول

Gradient Boosting و XGBoost  ما الفرق بين

قد تبدو لك الإجابة البديهية على هذا السؤال

هو التطبيق الأنسب XGBoost أن

Gradient Descent للتعامل مع

وهذه الإجابة ليست خاطئة ولكن السائل يحاول استخراج مهارات المتقدم من خلال إجابة تدل على أن المجيب عالِم بيانات محترف لذا فالإجابة المنتظرة ستكون على النحو الآتي

لديه شرط لإنجاز المهمة XGBoost

XGBoost يحتوي

على تقنية مدمجة للتعامل مع القيم الفارغة

sparsity awareness  بواسطة آلية تسمى

يستخدم التدرجات التي تعتمد على درجات التشابه

لها دور كبير في تسريع العمليات الحسابية

التوازي للعثور على مجموعات ( متغيرة – عتبة ) على مجموعات البيانات الضخمة باستخدام تقنية الرسم الكمي الموزون

السؤال الثاني: ماهي الاستخدامات الأمثل لمقاييس تقييم الانحدار؟

: الإجابة

:معايير التقييم المستخدمة في الانحدار

هو شائع كثيراً في الكشف عن وجود الانحدار R2

فهو يشرح بنسبة مئوية التباين في التابع الذي يتم تفسيره بواسطة المتغيرات المستقلة

وظيفة الخسارة MSE

جذر المتوسط التربيعي للتباين RMSE

متوسط النسبة المئوية للخطأ المطلقMAPE

وهو المقياس الأنسب للنشاط التجاري فعمله قائم على إعطاء نسبة مئوية للخطأ في متوسط قيم التنبؤ

كيف تستخدم الخيار الأنسب

؟ MSE و RMSE : لكل من

RMSE استخدام

وهو نفس المقياس الموجود في المقياس الفعلي

MSE استخدام

على المقياس التربيعي

Advertisements

: السؤال الثالث

overfitting كيف يمكن ضبط عملية

باستخدام التحقق المتبادل؟

:الإجابة

من الضروري أن تعلم أن التحقق المتبادل يمكنك من تحديد التركيب الزائد دون إمكانية التحكم فيه

:ولنتمكن من التحكم فيه علينا إجراء الآتي

 اختيار وهندسة الميزات *

 إذا كانت خوارزمية خطية يجب معالجة القيم المتطرفة *

 ضبط المعلمة *

 التوقف المبكر *

 التنظيم *

محاولة الحصول على مزيد من البيانات قدر المستطاع *

: السؤال الرابع

؟ precision  و recall ما هي

لنقل أنه من أصل 18 حادثة احتيال متوقعة تم تصنيف 12 منها على أنها صحيحة وفي هذا السياق تم العثور على 80 % من إجمال حوادث الاحتيال

precision   و recall اذكر

:الجواب

:لنقوم بإنشاء المصفوفة التالية

Precision = TP/(TP + FP) = 12/18 = 0.66

Recall = TP/(TP + FN) = 12/15 = 0.8

إن كانت معلوماتك سطحية حول هذا الموضوع ستشعر بالارتباك

وعلى العكس تماماً إن كنت متمكن جيداً فستجد أن الإجابة موجودة أصلاً بالسؤال

: Recall

1s ما هي النسبة المئوية من

الفعلية التي تم توقعها بشكل صحيح = 80٪ = 0.8

: Precision

ما مدى دقة التنبؤات، من أصل 18 تنبؤ ، كان 12 منها صحيحاً ومن ثم 12/18 = 0.66

TN ومن الملاحظ هنا أن

ليس سؤالاً وليس مطلوباً

Recall و Precision حتى لكل من

السؤال الخامس: ما هي أوجه الاختلاف

Bagging  و  Boosting بين

: Boosting

اعتماد الشجرة التالية على بقايا التنبؤ على آخر شجرة قرار فهو تسلسل المبتدئين *

إنشاء الأشجار على المخلفات *

العمل بشكل جيد على مجموعة البيانات العشوائية فهو يركز على العينات المصنفة بشكل خاطئ *

 : Bagging

إنشاء عدد كبير من أشجار القرار تمكِّن من الحصول على التنبؤ النهائي *

إمكانية إنشاء أشجار قرار على القيمة الفعلية التابعة *

من الممكن إعطاء نتائج رديئة على مجموعات البيانات العشوائية *

فبناءً على معرفتك بالنقاط السابقة تستطيع الاختيار بين الوظيفتين

Advertisements

Leave a comment