top of page

Projet d'analyse de données sous Python

  • Photo du rédacteur: Wilfried Marshall
    Wilfried Marshall
  • 3 mai 2020
  • 8 min de lecture

Dernière mise à jour : 5 juil. 2020

Variables quantitatives : analyse Statistique en composantes principales.

ree

Bonjour et bienvenu sur mon blog, aujourd'hui j'ai l'honneur de vous présenter l'étude que j'ai eu à réalisé avec des collègues de classe en Analyse de données.

Concrètement nous étudierons les principaux étapes de réalisation d'une Analyse en Composantes Principales (ACP).

Qu'est-ce que l'ACP ?

L’analyse en composantes principales (ACP) est une méthode appartenant à la famille de l'analyse factorielle qui à pour objet de proposer une méthode de synthèse de données, l'enjeux étant d'arriver à maitriser les deux aspect qu'elle implique à savoir perte de l'information et gain de compréhension.

Réalisation de l'étude

Introduction et Problématique 


Notre étude a particulièrement été axé sur la CEDEAO (Communauté Economique Des États de l'Afrique de l'Ouest), organisation intergouvernementale créée le 28 Mai 1975. elle regroupe 15 Etats membres, avec une superficie de 5 112 903 Km², la zone enregistre un PIB de 1332 milliard de dollars. Disposant de nombreux atouts stratégique et économique, avec un climat sociopolitique relativement stable dans la zone depuis 2010, la plus part des pays de cette Zone ont bénéficié de l’arriver d’investisseur ce qui a donc permit le développement d'un tissu industriel embryonnaire dans certain pays de cette zone, aussi le développement de certaine infrastructure essentielle à la vie économique ont accentué le développement de certain secteur a savoir le secteur du service et du commerce. Tout ce potentiel associée au mutation de la structure de l’economie de cette zone lui a permis de réaliser depuis 2010 à aujourd’hui des performance économique remarquable avec des croissance à 2 chiffre dans un contexte assez particulier où même les economie développé enregistre des taux de croissance dans la moyenne de 5% .

"Il était donc assez légitime pour nous de nous intéresser au déterminant de la croissance des pays de cette Zone."


ree


Remarque

Entre 2010 et 2014 le PIB des pays de cette Zone avait dans l’ensemble une croissance ascendante marquer par l’existence d’un effet de taille assez important entre le structure de croissance des diffèrent pays de cette zone.





Présentation du jeu de données 
ree











Notre jeu de données est composé de 15 observations et 7 variables relatif aux indicateurs macroéconomique de la croissance en pourcentage du PIB.

VARIABLES QUALITATIVES

Agri: « la part de l'agriculture dans le GDP (en %) »

Indus: « la part du secteur Industriel dans le GDP (en %) »

Services: « la part de service dans le GDP (en %) »

Merchan: « la part du commerce dans le GDP (en %) »

Resour: « la part des ressources naturel dans le GDP (en %) »

VARIABLES QUALITATIVES

Country Name: « Les pays de la CEDEAO »


Statistique descriptif des données
ree








Remarque

La réalisation de cette statistique descriptif est quelle nous a permit d'avoir les principaux indicateurs de tendance centrale et de dispersion, en particulier dans notre cas nous pouvons constater une forte hétérogénéité entre nos variable (écart-type très variable).


Interprétation

On peut remarquer que la moyenne de la croissance du PIB de la zone CEDEAO est approximativement égale à 6% pour l’année considérer (2013), on peut aussi remarquer que le secteur agriculture et les activité lié au commerce de marchandise occupe une part importante dans la croissance économique de cette zone (respectivement 50,42% et 52,83%). aussi contre toute attente nous pouvons remarquer que bien que cette dispose d’important ressource naturel, la part de ce dernier dans la croissance est assez faible en effet ne disposant pas d’industrie capable de transformer leurs ressources naturelles les rendements de ces dernière à la vente ne sont que marginale.


  • Standardisation du jeu de données

ree








Remarque

l'hétérogénéité entre nos différente variable nous à conduit à normalisé nos variables.

La standardisation de nos donnée nous permet de neutraliser. Les effets variances lié à la forte dispersion de nos variable. Nos donnée étant standardiser nous pouvons donc procédé à la réalisation de notre ACP.


  • Etude des corrélations entres les variables

ree





Interprètation

Cette matrice permet d’analyser les relations bilatérales existante entre les différentes variables retenues. De manière général on peux considérer qu’une corrélation supérieur ou égale 0.5 est significative et une corrélation entre [0.3,0.5[ est faiblement significative pour des échantillons de petite taille comme c’est ce cas ici.

ree
Graphique des corrélations











Interprétation

la matrice permet par exemple d’observer une relation positive forte entre les ressources naturelles et l’accroissement du PIB, de même qu’on peut également observer une relation positive faible entre le secteur industrielle et agricole dans l’accroissement du PIB et pour terminer il est important de souligner la relation négative forte entre le commerce de marchandise, des ressource naturel et la part de service dans l’accroissement du PIB.


Réalisation de l'ACP
  • Identification des variances expliquées

Ces variances expliquées sont obtenu en déterminant les valeurs propres de la matrice d'inertie, de façon générale le nombre de variance expliquée est égale au nombre de variable dans notre tableau de donnée. l'intérêt pour nous d'identifier ces variances expliquées est qu'il nous permettent d'identifier les principaux facteur de notre ACP.


ree


ree
















  • Identification des principaux facteurs

ree

Critère de sélection

concrètement ici on retiendra le nombre de composante pour lequel le cumule est supérieur où égale à 75%.


Interprétation

on peut lire dans la troisième colonne du tableau ci-dessus que la première composante principale de l’ACP, correspondant à la première valeur propre, concentre à elle seule près de la moitié de l’ensemble de l’information (46,4%). La deuxième et la troisième composante principale regroupe chacune respectivement 22,80 % et 11,05%, ainsi on constate que plus de ¾ de la variance (80,30%) est expliquée par ces trois premiers axes. On peut donc se contenter de retenir ces trois axes pour l’analyse, l’information contenue sur les 3 autres pouvant être considérée comme résiduelle.


ree

Remarque 1

ce tableau nous permet de réaliser les tests des bâtons brisés qui nous permet d'identifier les composantes principales à retenir. Concrètement toutes les valeurs propres supérieurs au seuil qui leurs est associée seront retenu comme composantes principales.

ree

Remarque 2

En nous appuyant sur ces deux critères de sélection nous pouvons donc retenir deux axes principaux qui résume un peu moins de ¾ de l’information ( soit environ 70% de l’information)





Qualité de représentation des individus
ree








ree

















Remarque

Les coordonnées factorielles, calculer on la particularité de nous permettre de nous positionner dans le premier plan factoriel pour situer et comprendre les proximités entre nos individus, ainsi nous pouvons donc remarquer des pays comme le Nigeria, le Ghana, la Guinea et la Côte d’Ivoire sont assez proche les uns des autres et bien représenté par l’axe 2 du plan factoriel ce qui révèle l’existence d’une similitude entre la structure de ces économies, la différence qui se fait ressentir au niveau de l’évolution du PIB de ces pays est donc potentiellement un effet de taille.


  • Qualité de répresentation des individus

ree

ree








Interprétation

Globalement nous pouvons observer à travers notre graphique que nos individus en général sont assez bien représenté dans notre plan factoriel à l’exception du Niger et de la Guinéa-Bissau. Concrètement les individus comme le Cabo verde, le Sénégal, la sierra leone, la Gambia et le Togo affiche une assez bonne représentation sur le 1er Axe factoriel avec un cos² supérieur à 0,5. de même on a la Guinea, le Liberia, le Nigeria et le Ghana qui affiche une assez bonne représentation sur le 2ième Axe factoriel avec un cos² supérieur à 0,5.




  • Qualité de répresenation des individus

ree

Remarque

Ce tableau nous permettent de déterminer les individus qui pèsent le plus dans la définition de chaque facteur.






ree

Interprétation

De cette représentation graphique nous pouvons donc aisément voir que la Sierra Leon, le Cabo verde et le Togo sont les principaux contributeurs à la formation de l’axe 1 avec un niveau de pourcentage de contribution supérieur ou égale à 10% .


ree









Interprétation

De cette représentation graphique nous pouvons donc aisément voir que le Ghana, le Liberia et le Nigeria sont les principaux contributeur à la formation de l’axe 2 avec un niveau de pourcentage de contribution supérieur ou égale à 10% .












Analyse des variables
ree

ree


Remarque

une variable est d’autant mieux représentée sur un axe qu’elle est proche du bord du cercle des corrélations et de l’axe, parallèlement une variable est d’autant plus mal représentée qu’elle est proche de l’origine.







  • Qualité de représentation des variables

ree

ree



ree


Interprétation

Globalement nous pouvons observer à travers le cercle de corrélation que nos variable en général sont assez bien représenté dans notre plan factoriel à l’exception de la variable Merchan. Concrètement nous avons des variables comme GDP, Services, Resour qui affiche une assez bonne représentation sur le 1er Axe factoriel avec un cos² supérieur à 0,7. de même on a Agri et Indus qui affiche également une assez bonne représentation sur le 2ième Axe factoriel avec un cos² supérieur à 0,7.



ree

Interprétation

De cette représentation graphique nous pouvons donc aisément remarquer que les variables Resour, GDP, Services et Merchan sont assez bien représenté sur notre 1er Axe factoriel avec un cos² supérieur ou égale à 0,5.

ree



Interprétation

De cette représentation graphique nous pouvons donc aisément remarquer que les variables Indus et Agri sont assez bien représenté sur 2ième Axe factoriel avec un cos² supérieur ou égale à 0,5.








  • Qualité de contribution des variables

ree

ree



Interprétation

De cette représentation graphique nous pouvons donc aisément remarquer que la variable Resour contribuent majoritairement, derrière elle on retrouve respectivement les variables GDP, Services et Merchan à la formation de l’axe 1 avec un niveau de pourcentage de contribution supérieur ou égale à 15%

ree




Interprétation

De cette représentation graphique nous pouvons donc aisément remarquer que Indus et agri contribuent tous les deux majoritairement à la formation de l’axe 2 avec un niveau de pourcentage de contribution supérieur ou égale à 15%











Corrélation variable-facteur et individu

ree
ree

Interprétation facteur (1)

En projetant orthogonalement les vecteurs (variable) sur cet axe 1, on constate des corrélations positives entre la part du secteur industriel (développement d’activité industrielle), la part de l’agriculture (développement du secteur agricole), part de l’activité commercial, part des ressources naturelles(l’exploitation de ressource naturelle) et la croissance du PIB, et une corrélation négative avec la part des activités lié au secteur du service(développement du secteur du service), ainsi il plus aisé pour nous de remarque que les pays qui ont les coordonnées positives moyenne ou plus élevé sur ce premier facteur (Axe 1), enregistre des taux de croissance supérieure a la moyenne de la Zone (5,82%) et une activité d’exploitation de ressource naturelle importante (c’est le cas par exemple de la Sierra Leon), un tissu industriel en développement qui impact probablement le rendement agricole et le développement de commerce de marchandise ( c’est le cas par exemple de la Côte d’Ivoire, du Ghana et du Togo), alors que ceux qui ont les coordonnées négatives sur se même facteur enregistre une part plus du secteur des service dans le PIB ce qui se traduit par un taux de croissance plus ou moins inferieure à la moyenne de la zone(c’est le cas par exemple du Capo verde, du Mali, du Sénégal, de la Guinée et du Niger) mais qui contribue néanmoins aux performances statistiques de la zone.



ree
ree

Interprétation facteur (2)

Symétriquement pour le Axe 2 on constate des corrélations positive avec le développement d’activité industrielle, agricole ainsi que le développement du secteur du service et la croissance du PIB et une corrélation négative entre l’exploitation et la commercialisation de ressource naturelle brute et développement du commerce de marchandise et la croissance du PIB. On remarque alors que les pays qui ont les coordonnées positives moyennement ou plus élevé sur ce deuxième facteur (Axe 2), enregistre des taux de croissance supérieure a la moyenne de la Zone avec la naissance d’une classe moyenne qui entraine un hausse de la consommation et donc naturellement une hausse du PIB en raison du développement du tissu industrielle, de l’activité agricole et de l’activité de service dans ces pays (c’est le cas par exemple du Nigeria, de la Côte d’Ivoire et du Ghana). Alors que ceux qui ont les coordonnées négatives sur se même facteur enregistre une part importante du développement du commerce de marchandise et de l’exploitation et la commercialisation de ressource naturelle brute dans le secteur du service ce qui se traduit par un taux de croissance plus ou moins inferieure à la moyenne de la zone(c’est le cas par exemple du Capo verde, du Mali, de la Guinea-Bissau et du Niger) qui ne disposant pas d’industrie capable de transformer leur production issu des ressource naturelle tire des bénéfices marginaux de leur vente aussi le secteur du commerce de marchandise étant fortement dominé par le secteur informelle contribue à accentué la corrélation négative entre ces variables et la croissance.



Conclusion

En guise de conclusion on retiendra que cette ACP nous a permis d’étudier l’impact d’agrégat macroéconomique sur la croissance des pays de la CEDEAO. Concrètement elle nous a permis de résumer les 6 indicateurs macroéconomiques en 2 facteurs principaux synthétique « 1er Axe (Activité lié à l’exploitation de ressource naturelle) et 2iéme Axe (activité Agro-industrielle) » avec une perte négligeable de l’information. Nous avons pu voir que les pays qui bénéficiaient d’un tissu Agro-industrielle avait des taux de croissant au dessus de la moyenne de la zone la plus part du temps on peut donc affirmer que ce son ces facteur qui impulse l’élan de croissance dans la plus part des pays de cette Zone. les pays de cette zone gagnerai donc à accentué le développement de leur tissu industriel pour exploité au mieux les atouts naturels et stratégiques dont ils disposent.


Commentaires


1200px-Logo_of_Panthéon-Assas_University

Economic Analysis and policy

© 2020 by Scientist Personal.

  • Facebook Clean Grey
  • Twitter Clean Grey
  • LinkedIn Clean Grey
bottom of page