10 FREE Datasets to start building your Portfolio


1. Netflix Movies and TV Shows

To define this data set: Netflix is a media and video broadcasting platform that includes a large number of movies and TV shows, and according to statistics, its subscribers exceeded 200 million subscribers in 2021 from all over the world.

In this case, the tabular dataset consists of lists of all the movies and TV shows available on Netflix, plus information about actors, directors, audience ratings, and other information.

Here are some important ideas:

* Content available in different countries

* Choose similar content by matching attributes related to the text

* Finding valuable and interesting content by analyzing the network of actors and directors

* A comparison of the most popular broadcasts in recent years (movies – TV shows) on the Netflix platform.

u can download the data from here


2. Expecting a real/fake job advertisement:

(real or imaginary): Predicting the imaginary job description:

This dataset includes 18,000 job attributes, of which 800 are fictitious descriptions. The data consists of text and descriptive information about jobs. The dataset can be used to build screening models that detect the fictitious attribute of fictitious jobs.

The dataset can be used to answer the following questions:

* You have to build a screening model based on the characteristics of the text data to determine whether the job description is real or fraudulent.

* Focusing on words and phrases that express description and deception, adjusting and identifying them.

Determine the characteristics of similar jobs.

* You have to perform exploratory data analysis on the data set to find useful values from said data set.

u can download the data from here


3. FIFA 22 Aggregate Player Dataset:

In our example, the datasets are player data represented by their abilities and skills from FIFA 15 to FIFA 22 (“players_22.csv”). This data provides procedures for finding several comparisons for specific players through the eighth version of the FIFA game

The following are available analytical models:

* A comprehensive comparison between Messi and Ronaldo (compared to the statistics of their working lives – changes in skill over time)

* The appropriate liquidity to build a team that competes on the level of the European continent, and at this point the budget does not allow the purchase of distinguished players from the eleven-man squad.

* Analyzing a model for the most efficient n% of players (for example, we deal with the largest percentage of 5% of players) to determine the presence of basic features in the game versions such as speed, agility, and ball control. As a live example, we note that the best 5% of players in FIFA 20 version are faster And agility from the FIFA 15 version, and through this kind of comparisons, we can conclude that with more than 5% of the best players who have obtained high statistics with ball control, this means that the game’s interest in the skill and technical aspect is greater than the interest in the physical aspect.

Specifically, we see that:

* The URL of the excluded players.

* The URL of the uploaded face of the player with the club or national team logo

* Information about the player, such as nationality, the team he plays for, date of birth, salary, and others.

* Statistics of the player’s skills, which are related to attack, defense, goalkeeper skill, and other skills.

* Every player present in FIFA 15 through 22 versions of the game

* More than 100 features

* The position in which the player plays and his mission in the club and the national team

u can download the data from here


4. Forecasting book sales:

The main success of a bookstore that sells various books lies in the high demand for effective purchases of the right books at the right time. In this context, one of the leading business events in the field of books and libraries organizes a competition to support booksellers that allows them to compete in the market.

So the competition here is to predict the purchase quantities of a clearly defined property portfolio for each site by means of simulated data.

Occupation :

Being competitive requires forecasting purchase quantities for eight addresses for 2418 different locations. To build the model, simulated purchasing data will be available from an additional 2349 locations, with all data referring to a limited time period. possible.

data :

There are two auxiliary files available to solve the problem:


* dmc2009_forecast.txt

u can download the data from here


5. Supermarket sales:

The densely populated areas are more prevalent for supermarkets, and this creates commercial competition among them, which reflects positively on the market movement and contributes to the growth of the economy in general.

In our research today, we will discuss the data set that represents sales of three branches of a supermarket company for a period of ninety days. This group was chosen due to the ease of its predictive data analysis models.

Classification data:

Invoice ID: This is an identification number for the sales invoice

Branch: Super Center branch (out of three branches indicated by symbols A, B and C).

City: the most lively locations

Customer Type: Members classify the type of customers based on membership card users and non-users.

Gender: Specifies the gender of the customer

Production line: It depends on distributing basic components such as food, beverages, tourism, sports, electronic accessories, decorative accessories, fashion, and others

Product price: It is estimated in US dollars

Quantity: It is the number of products that the customer has purchased

Tax: It is a 5% tax fee added to the purchase value

Total Price: The total price including tax

Date: The date of purchase (which is the period between May and July of 2019)

Time: which is the time of purchase (from 9 am to 8 p.m.)

Payment: The payment method used by the customer upon purchase, and it is one of three methods (direct payment – credit card – electronic business archive).

COGS: The value of products sold

Total Margin Ratio: Total Margin Ratio

Total return: the total income

Classification: It is based on the classification of customer levels based on shopping traffic, according to a ratio estimated from 1 to 10

u can download the data from here



6. Control fraudulent procedures related to credit cards:

The process of controlling fraud in credit card transactions is very important for credit companies, which is to obtain fees from customers for products that they did not purchase

The data set includes transactions that were carried out in two days by credit cards in September of 2013, so that several forged transactions were caught out of thousands of transactions, and thus we find a large percentage of imbalance in this data set, and fraud recorded a rate of 0.172% of the total transactions.

The basic elements, which are the features V1, V2, … V28, were obtained using the PCA transformation, which results in the numeric input variables. However, the features that were not converted are represented by the amount and time, so that the amount represents the amount (transaction cost), and the time represents the seconds spent between one transaction and the other. As for the category attribute, it is variable according to the state of the transaction. In the case of fraud, the category takes a value of 1 and takes a value of zero if the transaction is valid.

u can download the data from here


7. The 50 most famous fast food chains in America:

It is the food that is sold in a restaurant or shop, and it consists of frozen or pre-cooked foods and is presented in special packages for immediate external orders. It is produced in large quantities, taking into account the speed of presentation and delivery. According to 2018 statistics, the value of fast food production reached hundreds of billions of dollars all over the world. .

The hamburger outlets, as is the case with McDonald’s, are the most common and sought-after in the world, and other fast food outlets that depend on the on-demand assembly of basic ingredients prepared in advance in large quantities.

It can be available in the form of kiosks, mobile cars, or quick service restaurants.

Content :

In our case, this data set is a study of information about the 50 best restaurant chains in America for the year 2021, and we can identify the main points of this data set:

Fast Food Chains – Sales in America in Millions of Dollars – Average Sales Per Unit in Thousands of Dollars – Licensed Stores – Total Number of Units for 2021

The vertical format of the dataset:

• Fast-Food Chains – the name of the fast food chain

• U.S. Systemwide Sales (Millions – U.S Dollars) Systemwide sales are estimated in the millions of dollars

• Average Sales per Unit (Thousands – U.S Dollars)

• Franchised Stores – the number of licensed stores

• Company Stores – the number of company stores

• 2021 Total Units – The number of total units in 2021

• Total Change in Units from 2020 – the number of total changes from the previous year 2020

u can download the data from here


8. Forecasting Walmart store sales

You will have in your hands the sales data of a number of Wal-Mart stores spread in many regions, so that each store includes several departments, and the task entrusted to you will be to forecast sales related to the department of each store.

In addition, Wal-Mart carries out many promotional campaigns on an ongoing basis, especially the offers that coincide with the major official holidays, and these weeks, including holidays, receive a rating five times higher than the holidays. There is no complete historical data.

csv stores:

This file includes anonymous data for forty-five stores indicating the type and size of the store

train. csv

It is a historical training data file that includes the period between 5/2/2010 to 1/11/2012.

  It contains the following fields:

• Store – the store number

• Dept – the department number

• Date – the week

• Weekly_Sales: Sales of a specific department in a particular store

• IsHoliday: Is it a holiday week or not

test. csv

This file differs from train.csv only in that sales must be forecasted for each three departments of the store, date and department in this file, otherwise it is completely identical to the train.csv file

features. csv

This file includes more information, such as the store, department, and the activity of the specified dates, and it contains the following fields:

• Store – the store number

• Date – the week

• Temperature – the average temperature in the area

• Fuel_Price – the price of fuel in the region

• MarkDown1-5 – Anonymous data for marketing write-offs operated by Wal-Mart

• CPI – a value indicating consumer prices

• Unemployment – Unemployment rate

• IsHoliday – Is it a week off or not?

For the break, the four holidays coincide in the following weeks in the data set, noting that not all holidays were included in the data.

Super Bowl: Feb. 12, 10, Feb. 11, 11, Feb. 10, 12, Feb. 8, 13

Labor Day: Sept. 10 – 10, Sept 9 – 11, Sept 7 – 12, Sept 6 – 13

Thanksgiving: Nov-26-10, Nov-25-11, Nov-23-12, Nov-29-Christmas: Dec-31-10, Dec-30-11, Dec-28-12, Dec-27-13

u can download the data from here


9. Linkedin Data Analyst Task Lists

For every beginner in data analysis, here are the simple steps for collecting, cleaning, and analyzing data:

In terms of data collection, we wrote a script in the Python language to go through Linkedin, and we collected all the necessary data, and the choice fell on 3 sites: Africa, Canada, and America

Advantages :

* Designation: Job title

Company: The name of the company

* Description: Description of the job and the company

* On site – remotely

* The employee’s workplace

Salary: The salary of the position

* The company’s website

* Standards: Terms of employment such as experience and nature of work

Announcement Date: The date the job was announced

* URL: of the job

 u can download the data from here


10. Amazon and Best Buys:

We’ll take reviews of fifty an electronic product from online stores such as Amazon and Best Buy.

Datafiniti includes a data set of revision history, location, classification, and metadata of references. We note that it is a huge data set, so we will learn about the best way to use this data and benefit from it as it should:

The point of benefiting from this data lies in knowing the consumer’s opinion about the process of purchasing the product. For clarification, we define the following points:

* What are the main uses of electronic products?

* Determine the link between ratings and positive reviews.

* How good is the variety of online brands?

What is the function of Datafiniti?

Allows direct access to website data by collecting it from a large number of websites to build common databases for commercial activity, products, and property rights.

u can download the data from here




1. والبرامج التلفزيونية Netflix أفلام :

 وللتعريف عن مجموعة البيانات هذه

هي منصة لبث الوسائط والفيديو Netflix

تضم عدداً كبيراً من الأفلام والبرامج التلفزيونية ووفق إحصائية فإن المشتركين لديهم تجاوز عددهم 200 مليون مشترك في عام 2021 من جميع أنحاء العالم . تتكون مجموعة البيانات المجدولة في حالتنا هذه قوائم بجميع الأفلام والبرامج التلفزيونية

Netflix المتوفرة على

أضف عليها معلومات عن الممثلين والمخرجين وتقييم الجمهور وغيرها من المعلومات الأخرى 

: وفيما يلي بعض الأفكار المهمة

المحتوى المتوفر في بلدان مختلفة *

اختيار محتوى شبيه بواسطة مطابقة السمات المتعلقة بالنص *

إيجاد محتوى قيِّم وممتع من خلال تحليل شبكة الممثلين والمخرجين *

إجراء مقارنة على البث الأكثر شيوعاً في السنوات الأخيرة ( أفلام – البرامج التلفزيونية ) *

Netflix على منصة

: يمكنك الدخول إلى الرابط وتحميل البيانات


2. توقع الإعلان عن وظيفة حقيقة / وهمية :

( حقيقي أو وهمي ) : التنبؤ بالوصف الوظيفي الوهمي

تضم مجموعة البيانات هذه 18 ألف سمة وظيفية منها 800 وصف وهمي , تتألف البيانات من نصوص ومعلومات وصفية عن الوظائف , ومن الممكن استخدام مجموعة البيانات لبناء نماذج فرز تكشف السمة المزيفة للوظائف الوهمية 

يمكن استخدام مجموعة البيانات للإجابة عن الأسئلة التالية

عليك بناء نموذج فرز يعتمد على خصائص البيانات النصية لتحديد ماهية الوصف الوظيفي حقيقي كان أم احتيالي*

التركيز على الكلمات والعبارات التي تعبر عن وصف وخادع وضبطها والتعرف عليها *

تحديد خصائص الوظائف المتماثلة *

عليك القيام بإجراء تحليل البيانات الاستكشافية على مجموعة البيانات لمعرفة القيم المفيدة من مجموعة البيانات المذكورة *

: يمكنك الدخول إلى الرابط وتحميل البيانات


3. الكلية للاعبين FIFA 22 مجموعة بيانات :

تشكل مجموعات البيانات في مثالنا هذا بيانات اللاعبين ممثلة بقدراتهم ومهاراتهم من إصدار

 FIFA 22 إلى FIFA 15


بحيث تتيح هذه البيانات إجراءات إيجاد عدة مقارنات للاعبين معينين وذلك من خلال الإصدار الثامن

FIFA من لعبة

مقارنة شاملة بين ميسي ورونالدو ( مقارنة بإحصائيات حياتهم العملية – المتغيرات في المهارة مع مرور الزمن ) *

* السيولة المناسبة لبناء فريق ينافس على مستوى القارة الأوروبية وعند هذه النقطة لا تتيح الميزانية شراء لاعبين متميزين من تشكيلة الفريق المؤلف من أحد عشر لاعباً .

n٪ تحليل نموذج لأكفأ *

من اللاعبين ( كأن نتناول أكبر نسبة حاصلة على 5% من اللاعبين ) لتحديد وجود الميزات الأساسية في إصدارات اللعبة كالسرعة وخفة الحركة والتحكم بالكرة وبمثال حي على ذلك نلاحظ أن أفضل 5% من اللاعبين الموجودين

FIFA 20 في إصدار 

أكثر سرعة وخفة في الحركة

FIFA 15من إصدار

ومن خلال هذا النوع من المقارنات يمكننا استنتاج أنه بوجود أكثر من 5% من أفضل اللاعبين الذين نالوا إحصائيات مرتفعة بالتحكم بالكرة هذا يعني أن اهتمام اللعبة بالجانب المهاري والتقني أكبر من الاهتمام بالجانب البدني وعلى وجه التحديد نرى أن

للاعبين المستبعدين URL عنوان *

لملامح الوجه URL عنوان *

المحملة للاعب مع الشعار الخاص بالنادي أو المنتخب

المعلومات الخاصة باللاعب مثل الجنسية , الفريق الذي يلعب له , تاريخ التولد , الراتب وغيرها *

الإحصائيات الخاصة بمهارات اللاعب والتي تتعلق بالهجوم والدفاع ومهارة حارس المرمى وغيرها من المهارات الأخرى *

كل لاعب موجود في إصدارات *

من الإصدار 15 حتى 22 FIFA لعبة

ميزات كثيرة تفوق الـ 100 *

المركز الذي يلعب به اللاعب ومهمته في النادي والمنتخب *

: يمكنك الدخول إلى الرابط وتحميل البيانات


4. التنبؤ بمبيعات الكتب :

يكمن النجاح الرئيسي لمكتبة تبيع الكتب المتنوعة في الإقبال الكبير على عمليات الشراء الفعالة للكتب المناسبة في الوقت المناسب وفي هذا السياق تقوم إحدى الفعاليات التجارية الرائدة في مجال الكتب والمكتبات بتنظيم مسابقة لدعم بائعي الكتب تتيح لهم المنافسة في السوق

لذا المنافسة هنا تتمثل بالتنبؤ بكميات الشراء لمحفظة ملكية معينة بوضوح لكل موقع بواسطة بيانات محاكاة

: الوظيفة

خوض غمار المنافسة يتطلب التنبؤ بكميات الشراء لثمانية عناوين لـ 2418 موقعاً متنوعاً , ولبناء النموذج سيتم إتاحة بيانات الشراء المحاكاة من 2349 موقعاً إضافياً مع إشارة جميع البيانات إلى فترة زمنية محدودة , والغاية هي  تقدير كميات الشراء لهذه العناوين الثمانية المتنوعة للمواقع المقدر عددها بـ  2418 بأعلى دقة ممكنة

: البيانات

توفر ملفان مساعدان لحل المشكلة هما

* dmc2009_train.txt

* dmc2009_forecast.txt

يمكنك الدخول إلى الرابط وتحميل البيانات :


5. مبيعات محلات السوبر ماركت :

تُعدُّ المناطق المكتظة بالسكان أكثر انتشاراً لمحلات السوبر ماركت وهذا يخلق فيما بينها تنافساً تجارياً ينعكس إيجاباً على حركة السوق ويساهم في نمو الاقتصاد إجمالاً

وسنتناول في بحثنا اليوم مجموعة البيانات التي تمثل مبيعات لثلاثة فروع تابعة لشركة سوبر ماركت لمدة تسعين يوماً وقد اختيرت هذه المجموعة نظراً لسهولة نماذج تحليل البيانات التنبؤية الخاصة بها

:البيانات الخاصة بالتصنيف

معرِّف الفاتورة : وهو عبارة عن رقم تعريفي لفاتورة المبيعات

الفرع : فرع السوبر سنتر ( من أصل ثلاث فروع تم الإشارة إليها

( C و B و A بالرموز

المدينة : المواقع الأكثر حيوية

نوع العميل : يصنف الأعضاء نوع العملاء على أساس المستخدمين لبطاقة العضوية وغير المستخدمين لها

الجنس : يحدد جنس العميل

خط الإنتاج : يعتمد على توزيع المكونات الأساسية كالأطعمة والمشروبات والسياحة والرياضة والإكسسوارات الإلكترونية وإكسسوارات الزينة والأزياء .. وغيرها

سعر المنتج : ويقدر بالدولار الأمريكي

الكمية : وهي عدد المنتجات التي قام العميل بشرائها

الضريبة : وهي رسوم ضريبية تقدر بقيمة 5 % تضاف لقيمة الشراء

السعر الإجمالي : المجموع الكلي للسعر بما فيه الضريبة

التاريخ : تاريخ الشراء ( وهي الفترة المحصورة بين مايو ويوليو من عام 2019 )

الوقت : وهو وقت الشراء ( من 9 صباحاً إلى 8 مساءً )

الدفع : طريقة الدفع التي يستخدمها العميل عند الشراء وهي واحدة من ثلاثة طرق ( دفع مباشر – وبطاقة ائتمان – أرشيف أعمال إلكتروني )

قيمة المنتجات المباعة : COGS

نسبة الهامش الكلّي : نسبة الهامش الكلي

المردود الكلي : الدخل الإجمالي

التصنيف : يعتمد على تصنيف مستويات العملاء بناء على حركة التسوق وفق نسبة تقدر من 1 إلى 10 

 :يمكنك الدخول إلى الرابط وتحميل البيانات



6. ضبط الإجراءات الاحتيالية الخاصة ببطاقات الائتمان :

تعتبر عملية ضبط عمليات التزوير في معاملات بطاقات الائتمان من الأمور بالغة الأهمية لشركات الائتمان والمتمثلة بالحصول على رسوم من العملاء مقابل منتجات لم يقوموا بشرائها

تضم مجموعة البيانات معاملات نُفِّذَت في يومين بواسطة بطاقات الائتمان في أيلول من عام 2013 بحيث ضُبِطَت عدة معاملات مزورة من أصل آلاف المعاملات , وبهذا نجد نسبة كبيرة من عدم التوازن في مجموعة البيانات هذه , وسجلت عمليات التزوير نسبة 0.172٪  من أصل إجمالي المعاملات

تم الحصول على العناصر الأساسية

V1 ، V2 ، …  V28 وهي الميزات

PCA باستخدام تحويل

الذي ينتج عنه متغيرات الإدخال الرقمية , إلا أن السمات التي لم يتم تحويلها تتمثل بالمبلغ والوقت بحيث يمثل المبلغ ( كلفة المعاملة ) , والوقت يمثل الثواني المستهلكة بين المعاملة والأخرى , أما سمة الفئة فهي متغيرة وفقاً للحالة التي عليها المعاملة ففي حالة الاحتيال تأخذ الفئة قيمة 1 وتأخذ قيمة صفر في حال كانت المعاملة سليمة

يمكنك الدخول إلى الرابط وتحميل البيانات :


7. أشهر 50 سلسلة مطاعم للوجبات السريعة في أمريكا :

هو الطعام الذي يباع في مطعم أو متجر وهو مؤلف من أطعمة مجمدة أو مطهوة مسبقاً وتُقدم في عبوات خاصة للطلبات الفورية الخارجية ويتم إنتاجها بكميات كبيرة مع مراعاة السرعة في التقديم والتوصيل ووفق إحصائيات عام 2018 وصلت قيمة إنتاج الوجبات السريعة مئات المليارات من الدولارات في جميع أنحاء العالم  

وتعتبر منافذ بيع الهامبرغر كما هو الحال عند ماكدونالدز الأكثر شيوعاً وطلباً في العالم وغيرها من الوجبات السريعة الأخرى التي تعتمد على تجميع وفق الطلب للمكونات الأساسية المعدّة مسبقاً بكميات كبيرة

ويمكن أن تتوفر على شكل أكشاك أو سيارات متنقلة أو مطاعم الخدمة السريعة


في حالتنا هذه تعتبر مجموعة البيانات هي دراسة لمعلومات عن أفضل 50 سلسلة مطاعم في أمريكا لعام 2021 , ويمكننا تحديد النقاط الرئيسية لمجموعة البيانات هذه

سلاسل الوجبات السريعة – المبيعات في أمريكا مقدرة بملايين الدولارات – المعدل الوسطي للمبيعات في كل وحدة مقدرة بآلاف الدولارات – المتاجر المرخصة – العدد الكلي للوحدات لعام 2021

: التنسيق العمودي لمجموعة البيانات

  • Fast-Food Chains – اسم سلسلة الوجبات السريعة
  • U.S. Systemwide Sales (Millions – U.S Dollars) – المبيعات على مستوى النظام الأمريكي مقدرة بملايين الدولارات
  • Average Sales per Unit (Thousands – U.S Dollars) – المعدل الوسطي للمبيعات لكل وحدة مقدرة بآلاف الدولارات
  • Franchised Stores – عدد المتاجر المرخصة
  • Company Stores – عدد مخازن الشركة
  • 2021 Total Units – عدد الوحدات الإجمالية في عام 2021
  • Total Change in Units from 2020 – عدد التغيرات الكلية عن العام السابق 2020

يمكنك الدخول إلى الرابط وتحميل البيانات :


8. Walmart التنبؤ بمبيعات متجر

سيكون بين يديك بيانات المبيعات الخاصة بعدد من المتاجر التابعة لـوول مارت والمنتشرة في العديد من المناطق بحيث يتضمن كل متجر عدة أقسام وستكون المهمة الموكلة إليك هي التنبؤ بالمبيعات المتعلقة بالقسم الخاص بكل متجر .

كما وأن وول مارت يقوم بالعديد من الحملات الترويجية بشكل مستمر ولاسيما العروض التي تتزامن مع الأعياد الرسمية الكبرى وتنال هذه الأسابيع بما فيها الإجازات تقييم أعلى بخمس مرات من أيام العطلات ويكمن إثبات الكفاءة في خوض هذه التجربة من خلال تحديد نتائج عمليات الشطب في أسابيع العطلات في ظل عدم وجود بيانات تاريخية كاملة .

مخازن csv 

يضم هذا الملف بيانات غير معلومة المصدر لخمس وأربعون متجراً تدل على نوع وحجم المتجر


وهو ملف بيانات التدريب التاريخية تشمل الفترة بين 5/2/2010 ولغاية 1/11/2012

 : وهو يحوي الحقول التالية

  • Store – the store number
  • Dept – the department number
  • Date – the week
  • Weekly_Sales :  مبيعات قسم معين في متجر معين
  • IsHoliday : هل هو أسبوع عطلة أما لا


train.csv هذا الملف يختلف عن

فقط في وجوب التنبؤ بالمبيعات لكل ثلاثة أقسام من المتجر والتاريخ والقسم في هذا الملف , وعدا ذلك هو مطابق

train.csv تماماً لـملف


يتضمن هذا الملف المزيد من المعلومات كالمخزن والقسم ونشاط التواريخ المحددة وهو يحوي الحقول التالية

  • Store – the store number
  • Date – the week
  • Temperature – معدل درجة الحرارة في المنطقة
  • Fuel_Price – ثمن المحروقات في المنطقة
  • MarkDown1-5 – بيانات غير معلومة المصدر خاصة بإجراءات الشطب التسويقية التي يشغلها وول مارت
  • CPI – قيمة تدل على أسعار السمتهلك
  • Unemployment – معدل البطالة
  • IsHoliday – هل هو أسبوع عطلة أم لا ؟

للاستراحة تصادف العطلات الأربعة في الأسابيع التالية في مجموعة البيانات مع ملاحظة أنه لم تُدرج جميع العطل في البيانات 

Super Bowl: 12 فبراير 10 ، 11 فبراير 11 ، 10 فبراير 12 ، 8 فبراير ، 13

Labor Day: 10 سبتمبر – 10 ، 9 سبتمبر – 11 ، 7 سبتمبر – 12 ، 6 سبتمبر – 13

Thanksgiving: 26-نوفمبر -10 ، 25-نوفمبر -11 ، 23-نوفمبر -12 ، 29-نوفمبر -Christmas: 31 ديسمبر 10 ، 30 ديسمبر 11 ، 28 ديسمبر 12 ، 27 ديسمبر 13

: يمكنك الدخول إلى الرابط وتحميل البيانات


9. Linkedin قوائم مهام محلل البيانات

لكل مبتدئ في تحليل البيانات إليك الخطوات البسيطة والتي تتمثل في جمع البيانات وتنظيفها وتحليلها أما من ناحية جمع البيانات فقد قمنا بكتابة نص برمجي بلغة بايثون

 Linkedin للانتقال عبر

وقمنا بجمع كل البيانات اللازمة ووقع الاختيار على 3 مواقع : إفريقيا وكندا وأمريكا


التسمية : المسمى الوظيفي *

الشركة : اسم الشركة *

الوصف : وصف الوظيفة والشركة *

في الموقع – عن بعد *

موقع عمل الموظف *

الراتب : راتب الوظيفة *

موقع الشركة *

المقاييس : شروط التوظيف كالخبرة وطبيعة العمل *

تاريخ الإعلان : تاريخ الإعلان عن الوظيفة *

الخاص بالوظيفة : URL الرابط *

 يمكنك الدخول إلى الرابط وتحميل البيانات


10. أمازون وأفضل المشتريات الإلكترونية :

سنتناول تقييمات لـخمسين منتجاً إلكترونياً من متاجر إلكترونية عبر الإنترنت مثل أمازون وبيست باي

تشمل مجموعة بيانات Datafiniti 

تاريخ المراجعة والموقع والتصنيف والبيانات الوصفية للمراجع , نلاحظ أنها مجموعة بيانات ضخمة لذا سنتعرف على الطريقة المثلى لاستخدام هذه البيانات والاستفادة منها كما يجب

يكمن وجه الاستفادة من هذه البيانات في معرفة رأي المستهلك في عملية شراء المنتج وللتوضيح نحدد النقاط التالية

ما هي الاستخدامات الرئيسية للمنتجات الإلكترونية ؟ *

تحديد الصلة بين التقييمات والمراجعات الإيجابية *

ما مدى جودة الماركات التجارية المتنوعة عبر الإنترنت ؟ *

؟ Datafiniti ما وظيفة

يتيح الوصول المباشر إلى بيانات الموقع الإلكتروني وذلك بتجميعها من عدد كبير من المواقع لبناء قواعد بيانات مشتركة للنشاط التجاري والمنتجات وحقوق الملكية 

:يمكنك الدخول إلى الرابط وتحميل البيانات



Leave a comment