L'incidence du téléchargement de musique et du partage de fichiers poste à poste : Données et méthodologie
La présente section vise à présenter les données utilisées dans le cadre de l'étude et à examiner les procédures d'analyse statistique. L'ensemble des données est tiré d'un sondage effectué à grande échelle auprès de Canadiens. Il a été ajusté à l'aide de pondérations pour qu'il soit représentatif de la population canadienne. Le sondage a été conçu et réalisé dans le cadre d'une collaboration entre Andersen, Industrie Canada, et le Centre de recherche Décima en 2006. Les données sont analysées à l'aide de méthodes de régression à une équation.
La présente section est structurée de la façon suivante : la première sous-section présente le sondage, y compris les techniques d'échantillonnage et d'entrevue. La sous-section suivante porte sur les variables dépendantes et indépendantes établies pour vérifier nos hypothèses. La présente section s'appuie sur la section 2, dans laquelle les variables ont été choisies en fonction de l'approche théorique adoptée ici. La dernière sous-section fait un examen des estimations de régression utilisées, notamment des avantages et des inconvénients des méthodes par rapport à d'autres techniques.
Portée des données et de l'analyse présentées dans le présent rapport
Le présent rapport de recherche apporte des éléments supplémentaires à l'étude sur l'ampleur et les effets du téléchargement de musique et du partage de fichiers poste à poste, au moyen de données microéconomiques obtenues par sondage et d'une analyse approfondie permettant de tenir compte d'un plus grand nombre de variables et de facteurs liés à l'achat de musique.
La plupart des études précédentes sur le partage de fichiers poste à poste ont plutôt consisté à faire l'analyse de données globales (p. ex., macroéconomiques). Les analyses fondées sur ces données ne mesurent que de façon indirecte les corrélations statistiques sur lesquelles reposent les micro-hypothèses et les conclusions.
L'analyse présentée ici repose sur des réponses directes (ou micro-données) données par les 2 100 répondants canadiens. On a entre autres demandé à ces répondants d'indiquer le nombre de CD et de morceaux sous format électronique qu'ils achetaient et les prix moyens qu'ils payaient. Il existe des avantages à utiliser les achats dont se souviennent les répondants et les prix moyens qu'ils ont payés. Le principal problème ici est que les marchés peuvent prendre différentes formes (marché en ligne, magasin traditionnel, marché d'occasion) de sorte qu'aucun prix officiel enregistré dans l'industrie de la musique ne peut capter la demande réelle et le prix exact avec lesquels les consommateurs doivent composer.
En outre, notre champ d'analyse est plus vaste que les études précédentes, qui portaient généralement sur les téléchargements poste à poste uniquement, étant donné qu'il prend en compte un ensemble global de moyens par lesquels on peut se procurer de la musique, à savoir l'achat de CD, l'extraction de données de CD et leur copie sur un ordinateur, le téléchargement de pistes musicales à partir de sites payants en ligne comme iTunes ou Archambault, le téléchargement de musique gratuite à partir de réseaux de partage de fichiers poste à poste comme Kazaa, LimeWire, eDonkey, BearShare ou Gnutella, le téléchargement gratuit de musique à partir de sites Web promotionnels, le téléchargement de musique à partir de sites Internet privés de particuliers et la copie de pièces en format MP3 d'amis.
Les données démographiques tirées du sondage sont également très détaillées, notamment les données concernant le sexe, l'âge, le revenu, la région de résidence, le degré d'intérêt pour la musique, les compétences liées à Internet, la profession et le niveau d'instruction. Pour une vue d'ensemble de ces données, voir l'analyse de la technique d'échantillonnage présentée ci-dessous ainsi que le tableau 3.3.
Technique d'échantillonnage
La technique d'échantillonnage a consisté à faire un échantillonnage aléatoire au sein de strates définies selon l'âge (les participants avaient 15 ans ou plus), le sexe, la région géographique et le fait de de télécharger ou non des fichiers. On a utilisé cette technique, car une simple stratégie d'échantillonnage aléatoire n'aurait pas généré d'échantillons suffisamment larges pour les segments pertinents dans le cadre de la présente étude ou d'autres études (p. ex., les jeunes, les francophones et les téléchargeurs de fichiers poste à poste (c.-à-d. les personnes qui prennent part au partage de données poste à poste). La stratification a ainsi permis une analyse suffisamment rigoureuse des différents segments. Le nombre total de réponses au sondage était de 2 100. Pour une analyse détaillée des techniques d'échantillonnage et d'entrevue, consulter l'étude du Centre de recherche Décima (2006).
La stratification fondée sur les quatre principales dimensions démographiques est présentée dans le tableau 3.1. Le nombre d'observations non pondérées ainsi que celui des observations pondérées sont indiqués dans le tableau 3.1. Les coefficients de pondération de l'échantillonnage ont été établis de manière à ce que le nombre d'observations soit représentatif de la population canadienne actuelle, à la lumière des données du recensement de 2001 de Statistique Canada. Comme on ne connaissait pas la proportion réelle de téléchargeurs au sein de la population avant d'effectuer le sondage, la pondération des téléchargeurs et des non-téléchargeurs reflète la répartition naturelle ou aléatoire des répondants lors du sondage, avant que les contraintes de quotas aient été remplies. L'échantillon initial comportait 1 005 répondants ayant affirmé qu'ils téléchargeaient de poste à poste et 1 095 qui disaient ne pas télécharger de poste à poste. En ce qui concerne les données pondérées, les téléchargeurs représentent environ 30 p. 100 de la population et ceux qui ne téléchargent pas, 70 p. 100. Le coefficient de pondération associé à chaque réponse au sondage correspond à l'inverse de la probabilité d'être inclus dans l'échantillon divisé par la proportion dans l'échantillon. Par exemple, si la proportion réelle de femmes de moins de 25 ans qui téléchargent des fichiers et qui habitent au Québec est de 1,1 p. 100 dans la population et de 4,5 p. 100 dans l'échantillon, alors le coefficient de pondération appliqué sera de 0,244.
Les deux premières colonnes du tableau 3.1 donnent le nombre d'observations obtenues lors du sondage. Les deux dernières colonnes donnent les observations pondérées, qui sont représentatives de la population canadienne. Globalement, l'échantillon renferme 2 100 observations représentant une population d'environ 24 millions de personnes. Toutes les analyses qui suivent s'appuieront sur les données pondérées de façon à ce que les résultats soient représentatifs de la répartition de la population canadienne selon le sexe, l'âge, et la région de résidence.
Le reste de la présente section examine différents modèles concernant la façon dont les personnes acquièrent de la musique, par exemple, par la voie de l'achat d'albums CD ou du téléchargement, sous différentes formes, de pistes à partir de sites Web. On procède de cette façon pour évaluer la mesure dans laquelle divers moyens d'acquisition de la musique sont utilisés par rapport à d'autres.
À la lumière du tableau 3.2, l'acquisition de musique se fait principalement par l'achat d'albums CD. Les données du sondage indiquent qu'environ 77,2 p. 100 de la population canadienne a acheté un album CD en 2005, un pourcentage deux fois plus élevé que celui observé pour les autres moyens de se procurer de la musique. De fait, 29 p. 100 de la population télécharge de la musique par l'intermédiaire de réseaux poste à poste, 29,2 p. 100 extraie des pièces des CD, 20,5 p. 100 copie les fichiers MP3 d'amis et 8,5 p. 100 télécharge gratuitement de la musique à partir de sites Web. Par ailleurs, 13,6 p. 100 des personnes achètent des pistes musicales à partir de sites Web et 23,2 p. 100 en téléchargent gratuitement à partir de sites Web promotionnels. L'annexe 1 examine le recours aux différents modèles d'acquisition de la musique en fonction du sexe, de l'âge et de la région.
Variables
Le tableau 3.3 donne une vue d'ensemble des variables utilisées dans le cadre de notre analyse.
Variables dépendantes : achats de musique
Les variables dépendantes ont été établies de façon à bien faire ressortir l'achat de musique, sur le marché des CD et sur celui de la musique vendue sous format électronique. La première variable est le nombre d'albums CD que les répondants estiment avoir acheté en 2005. En plus des dénombrements réels, nous avons recours à deux normalisations des données réelles dans nos estimations. La variable tenant compte du nombre d'albums CD achetés en 2005 affiche une asymétrie positive : un nombre relativement plus élevé de participants rend compte d'un nombre d'achats peu élevé de CD. Pour remédier à la situation, nous avons recours à deux méthodes courantes de normalisation des données dans le cas d'estimations reposant sur la méthode des moindres carrés ordinaires, en calculant i) la racine carrée des valeurs de la variable dépendante et ii) leur logarithme naturel. Comme le logarithme d'une valeur nulle n'est pas défini, nous augmentons d'une unité le nombre donné d'albums CD achetés avant de calculer le logarithme naturel. Fait à noter, il s'agit d'une pratique courante en économie et en analyse de gestion (Tabachnick et Fidell, 2006). On procède ainsi car le logarithme de un égale zéro et que par conséquent, la normalisation n'entraîne pas d'écarts dans la distribution, c'est-à-dire que le chiffre zéro est la plus petite valeur aussi bien dans le cas des données non normalisées que dans celui des données normalisées.
Le deuxième ensemble de variables dépendantes correspond au nombre de pistes musicales que les répondants estiment avoir achetées sous format électronique en 2005. En premier lieu, nous utilisons des données chiffrées. En second lieu, nous avons recours aux mêmes techniques de normalisation des données utilisées pour le nombre de CD achetés, c'est-à-dire que nous calculons la racine carrée et le logarithme naturel du nombre de morceaux achetés. De plus, dans le cas des pistes vendues sous format électronique, nous utilisons une variable dépendante binaire qui est établie à 0 si les répondants n'en achètent pas et à 1 s'ils en achètent. La raison d'être d'une variable binaire concernant les achats de MP3 tient au fait que 85 p. 100 (ou 1 750) des réponses sont établies à 0 pour cette variable.
Variables indépendantes
Pour vérifier l'hypothèse 1, qui postule qu'il y a une corrélation négative entre le prix de la musique et l'achat de musique (albums CD), nous utilisons une variable qui reflète le prix des albums CD que les participants ont acheté en 2005 d'après les estimations de ces derniers; il s'agit donc du prix perçu des CD. La variable est continue et exprimée en dollars canadiens. Cette variable suit une distribution à peu près normale. L'hypothèse 1 suppose également que le prix des pistes musicales vendues sous format électronique est négativement corrélé avec le volume des achats. Toutefois, comme seulement 166 répondants de l'ensemble de l'échantillon et 16 répondants qui partagent des fichiers poste à poste ont donné une estimation du prix payé pour les pistes en 2005, nous avons omis cette variable dans les régressions, car elle aurait entraîné une forte diminution du nombre d'observations. Par ailleurs, lorsque l'analyse porte sur les sous-échantillons de personnes qui partagent des fichiers poste à poste, nous utilisons une variable intitulée « album trop cher ». Cette variable prend en compte le pourcentage des fichiers poste à poste téléchargés par les participants qui sont d'avis que le prix des CD est trop élevé. La valeur de cette variable peut s'établir entre 0 et 100.
Quant à l'hypothèse 2a, qui postule qu'il y a une corrélation positive entre le prix des CD et le nombre de pièces téléchargées à partir de réseaux poste à poste, nous faisons une régression du prix des CD sur le nombre d'achats rapportés de pistes musicales sous format électronique plutôt que sur les achats de CD (façon indirecte de mesurer l'élasticité croisée des prix sur les deux marchés de la musique).
Le questionnaire comporte deux questions concernant le nombre de téléchargements poste à poste. La première correspond à une variable binaire, et la seconde est une variable quantitative donnant une estimation du nombre de téléchargements effectués en moyenne par mois en 2005. Globalement, 246 répondants ont affirmé effectuer des téléchargements tout en estimant le nombre de téléchargements à zéro ou en ne donnant pas de réponse à la question quantitiative. Dans l'étude du Centre de recherche Décima (2005), il est indiqué qu'on s'attend généralement à ce que de 1 à 3 p. 100 des répondants répondent « je ne sais pas » ou qu'ils n'ont pas adopté le comportement (c.-à-d. zéro téléchargement). Dans le cas présent, 246 répondants sur 1 000 ont répondu « zéro téléchargement » ou « je ne sais pas ». Étant donné cette forte proportion des répondants, le Centre de recherche Décima a estimé qu'une analyse approfondie s'imposait pour mieux comprendre le véritable comportement relatif au téléchargement. Aussi, des analyses ultérieures ont été effectuées pour déterminer si ces personnes devaient être considérées comme des personnes qui téléchargent des fichiers ou comme des personnes qui n'en téléchargent pas. À la suite de son analyse, le Centre de recherche Décima a conclu que les 246 répondants devaient être considérés comme des personnes qui téléchargent des fichiers. Ainsi, pour l'année 2005, le nombre de téléchargements effectués par ces personnes a été établi à la valeur moyenne obtenue pour les téléchargeurs, en tenant compte de l'âge et du sexe. Cette variable est utilisée aux annexes 4 et 5.
D'autres sources de musique gratuites dont il est question dans le présent document mesurent les activités d'extraction de pièces musicales à partir de CD, de téléchargement de pièces à partir de sites Web promotionnels, de téléchargement de pièces à partir de sites Web privés et de copie de fichiers MP3. Dans le cas d'estimations axées sur l'ensemble de la population, nous utilisons des renseignements binaires pour toutes ces variables; par exemple, la variable est établie à 1 si la personne télécharge des fichiers poste à poste et à 0 si elle n'en télécharge pas. Bien que le dénombrement des pièces téléchargées par l'entremise de réseaux poste à poste, des pièces extraites d'un CD et des fichiers musicaux téléchargés à partir de sites Web promotionnels soit possible, une bonne partie de la population ne s'est pas engagée dans ces activités. Il en résulte très peu d'observations différentes de zéro, ce qui pose des problèmes d'estimation lorsqu'on utilise des dénombrements. Par conséquent, les variables binaires sont présentées et commentées dans le présent document. Les résultats qui reposent sur les dénombrements pertinents (recours au logarithme naturel des données chiffrées) figurent aux annexes 4 et 5.
Dans le cas d'estimations qui s'appuient sur le sous-ensemble des personnes qui partagent des fichiers poste à poste, nous utilisons le logarithme naturel du nombre de pièces gratuites; par exemple, le nombre de pièces extraites d'un CD plus un pour tenir compte des observations pour lesquelles la variable prend la valeur 0. Nous procédons ainsi, car dans le cas de ce sous-ensemble particulier de données (personnes qui partagent des fichiers poste à poste), la proportion de réponses pour lesquelles la variable prend la valeur 0 est très faible. Les équations utilisées pour les estimations figurent à dernière sous-section de la section 3. Par ailleurs, lors des estimations reposant sur le sous-échantillon des téléchargeurs de poste à poste, nous avons exclu les 246 personnes qui avaient affirmé télécharger de poste à poste mais qui n'ont pas donné de réponse à laquelle on pouvait attribuer une valeur autre que 0 à la question portant sur le nombre de fichiers partagés.
L'hypothèse 2b postule que les personnes qui écoutent des extraits de musique (par exemple celles qui ont la possibilité d'écouter la musique avant de l'acheter) achètent davantage de CD et de pistes musicales sous format électronique que celles qui n'écoutent pas d'extraits. Cette hypothèse est testée directement à l'aide du sous-échantillon de personnes qui partagent des fichiers poste à poste. La variable pertinente s'intitule « écouter avant d'acheter ». Cette variable correspond au pourcentage des fichiers poste à poste qui ont été téléchargés par des personnes souhaitant entendre la pièce avant d'en faire l'acquisition.
L'hypothèse 2c postule que les personnes qui téléchargent de la musique et qui achètent des pistes vendues sous format électronique ont tendance à acheter moins d'albums que les autres. Pour analyser les achats de pistes sous format électronique et leurs effets sur les achats d'albums CD, on a utilisé les achats de pistes sous format électronique comme variable indépendante pour faire une estimation des achats de CD. Dans les résultats présentés ici, une variable binaire désigne les achats de pistes sous format électronique lorsqu'il s'agit d'examiner l'ensemble de l'échantillon (les estimations fondées sur le logarithme naturel des dénombrements sont toutefois données à l'annexe 4); le logarithme naturel des dénombrements augmentés d'une unité est utilisé dans le cas du sous-échantillon des personnes qui partagent des fichiers poste à poste pour les raisons citées plus haut.
Par ailleurs, pour toutes les estimations fondées sur le sous-échantillon des personnes qui téléchargent de poste à poste, nous utilisons deux variables intitulées « album partiel » (pour tenir compte du fait, pour un répondant, de s'adonner au partage de fichiers poste à poste car il ne veut pas acheter tout l'album) et « offert nulle part ailleurs » (pour tenir compte du fait, pour un répondant, de s'adonner au partage de fichiers poste à poste car la musique qu'il cherche n'est pas offerte sur le marché). Les variables donnent le pourcentage de téléchargements poste à poste attribuable à ces deux facteurs, et on les mesure sur une échelle de 0 à 100.
L'hypothèse 2d associe l'achat d'autres produits de divertissement à l'achat de musique. Nous utilisons plusieurs variables pour vérifier la corrélation négative entre les achats d'autres produits de divertissement et l'achat de musique. Ces variables englobent : le nombre de DVD achetés, le nombre de jeux vidéo achetés, le nombre de billets de cinéma et de billets de concert achetés. Pour faire les régressions, nous nous fondons sur le logarithme naturel du nombre de DVD, de jeux vidéo et de billets achetés (augmenté d'une unité pour tenir compte des valeurs nulles). Comme il en a été question dans la formulation de l'hypothèse 2d, le nombre de produits de divertissement achetés (plutôt que leur prix) constitue une mesure appropriée pour de nombreuses raisons, y compris le fait que les études précédentes montrent que l'« élément temps » ou le « style de vie » sont plus importants que l'incidence du prix (voir la section 2 pour le développement de cet argument.) Aussi le taux de réponse concernant le prix des produits était généralement faible lors du sondage; par exemple, seulement 583 participants ont donné une estimation du prix des jeux vidéo.
Par ailleurs, nous intégrons une variable pour faire la distinction entre les personnes qui téléchargent de la musique sur leur lecteur MP3 et celles qui ne le font pas. Nous appelons cette variable pertinente « possession d'un lecteur MP3 ». Selon nous, une variable qui tient compte des réponses affirmatives à la question de savoir si le répondant a téléchargé des fichiers poste à poste sur son lecteur MP3 est une meilleure mesure d'approximation pour l'analyse des produits complémentaires sur les marchés de musique, plutôt que la mesure directe du fait de posséder un lecteur MP3. Cette conclusion tient principalement au fait que les lecteurs MP3 font encore partie des nouvelles technologies, et nombreux sont ceux qui en possèdent un car on le leur a offert, mais qui ne s'en sont jamais servi. La variable pertinente est une variable binaire qui prend la valeur 1 si le participant déclare qu'il télécharge des fichiers sur son lecteur MP3, et la valeur 0 dans le cas contraire.
Afin d'étudier l'hypothèse 3, qui postule que le niveau de revenu est corrélé positivement avec le volume des achats de musique, nous aurons tenu compte de cinq variables nominales représentant cinq tranches de revenuNotes en bas 4. La première variable nominale correspond à une estimation du revenu du ménage inférieure à 10 000 $. Ce montant constitue le groupe de référence, par rapport auquel les effets de toutes les autres tranches de revenu sont comparés. Les autres groupes de revenus sont les suivants : de 10 000 à 20 000 $, de 20 000 à 40 000 $, de 40 000 à 60 000 $ et 60 000 $ et plus. La variable de revenu fait référence au revenu du ménage du répondant, et non au revenu du répondant lui-même. Dans les cas de non-réponse, qui étaient fréquents, une valeur a été attribuée au revenu du ménage. Par conséquent, nos conclusions se rapportant à cette variable devraient être examinées avec une certaine prudence.
Deux types de variables sont utilisés au moment de se pencher sur l'hypothèse 4, selon laquelle l'intérêt pour la musique a de l'importance. Les variables tiennent compte de l'intérêt pour la musique et des perceptions quant à la qualité de la musique. Premièrement, nous utilisons cinq variables nominales regroupant les personnes selon le niveau d'intérêt exprimé pour la musique : intérêt très grand, intérêt relativement grand, intérêt moyennement grand, intérêt relativement faible et intérêt très faible. Les personnes affichant un très faible intérêt pour la musique constituent le groupe de référence par rapport auquel les effets des autres catégories sont comparés. Deuxièmement, nous tenons compte des réponses données à la question où on demandait aux répondants s'ils avaient perçu une hausse ou une baisse de la qualité de la musique au cours de l'année précédente, ou s'ils trouvaient que la qualité n'avait pas changé. Trois variables nominales découlent de cette question. Le groupe de référence est celui pour lequel la variable nominale est établie à 1, soit le groupe des répondants n'ayant perçu aucun changement dans la qualité de la musique.
Finalement, l'hypothèse 5 stipule que les personnes qui ont des compétences solides quant à l'utilisation d'Internet sont plus susceptibles que les autres d'acheter de la musique sous format électronique. De façon à étudier la corrélation, nous avons recours à cinq variables nominales qui correspondent aux catégories suivantes d'autoévaluation des compétences sur Internet : très bonnes, bonnes, relativement bonnes, pas très bonnes, pas bonnes du tout. La dernière catégorie (personnes qui déclarent ne pas avoir de bonnes compétences du tout) constitue le groupe de référence.
Nous tenons aussi compte d'un certain nombre de facteurs démographiques dans les modèles de régression. Tout d'abord, nous définissons sept catégories d'âge, à savoir de 15 à 19 ans, de 20 à 24 ans, de 25 à 34 ans, de 35 à 44 ans, de 45 à 54 ans, de 55 à 64 ans et 65 ans et plus. Les personnes âgées de 65 ans et plus constituent notre groupe de référence. Nous tenons également compte du sexe, une variable prenant la valeur 1 pour les femmes et 0 pour les hommes, et de la région (valeur 1 attribuée au Québec, et valeur 0 attribuée au reste du Canada).
Il est important de noter que les résultats du sondage comportent des données démographiques sur la « profession » et les « études ». Toutefois, nos résultats indiquent que ces données sont fortement corrélées avec les autres variables indépendantes, et c'est pourquoi nous les avons omises dans l'estimation de la fracture numérique afin d'éviter des problèmes de multicolinéarité.
Modèles
En vue d'examiner l'impact de nos variables indépendantes sur la musique achetée, nous utilisons des méthodes de régression à une seule équation. Les données pondérées sont utilisées tout au long des analyses. Les équations suivantes sont estimées :
Équation [1] : reposant sur l'ensemble de l'échantillon
yi = α + β1Prix des CDi + β2P2Pi + β3Extraction des données du CDi + β4SiteWeb promotionneli + β5SiteWeb privéi + β6Copie de MP3i + β7Achat de MP3i + β8Nombre de DVDi + β9Nombre de jeux vidéoi + β10Nombre de billets de cinémai + β11Nombre de billets de concerti + β12Revenui + β13Changemendans la qualité de la musiquei + β14Intérêt pour la musiquei + β15Compétences Internet i + β16Âgei + β17Sexei + β18Régioni + εi
où yi est un indicateur de la musique achetée, laquelle correspond à une mesure fondée sur le nombre d'albums CD achetés en 2005 d'après les réponses données par les répondants, comme on l'a vu précédemment.
Équation [2] : reposant sur l'ensemble de l'échantillon
yi = α + β1Prix de CDi + β2P2Pi + β3Extraction des données du CDi + β4SiteWeb promotionneli + β5SiteWeb privéi + β6Copie de MP3i + β7Nombre de DVDi + β8Nombre de jeux vidéoi + β9Nombre de billets de cinémai + β10Nombre de billets de concerti + β11Revenui + β12Changement dans la qualité de la musiquei + β13Intérêt pour la musiquei + β14Compétences Interneti + β15Âgei + β16Sexei + β17Régioni + εi
où yi est un indicateur du nombre de pistes musicales vendues sous format électronique au cours d'un mois ordinaire de 2005, d'après les réponses données par les répondants. La variable β7, qui est dans l'équation [1] une variable indépendante mesurant les effets des achats de MP3 sur les achats d'albums CD, a été exclue de l'équation [2], où elle est plutôt la variable dépendante.
Nous évaluons un deuxième ensemble d'estimations qui reposent sur le sous-échantillon des personnes qui partagent des fichiers de poste à poste. Nous procédons ainsi, car certaines variables que nous analysons s'appliquent uniquement à ce groupe précis; par exemple, le pourcentage de fichiers de poste à poste que les personnes téléchargent parce qu'elles veulent écouter un morceau avant de l'acheter. (Pour une vue d'ensemble, veuillez consulter l'analyse des variables prises en compte dans les diverses hypothèses, dans la sous-section intitulée Variables). Les 246 participants qui ont affirmé être des téléchargeurs, mais qui par la suite n'ont pas donné le nombre de téléchargements ou ont répondu qu'ils n'avaient téléchargé aucune piste musicale à partir de réseaux poste à poste ont été omis des analyses. En effet, leurs réponses sont peu fiables. L'équation suivante est estimée pour les albums CD et les fichiers MP3.
Équation [3] : axée sur le sous-échantillon des téléchargeurs de fichiers poste à poste (P2P)
yi = α + β1Prix des CDi + β2Album trop cher i + β3Nombre de P2Pi + β4Nombre de CD aux données extraitesi + β5Nombre de sitesWeb promotionnelsi + β6Nombre de sitesWeb privés i + β7Nombre de copie de MP3i + β8Nombre de MP3 achetési + β9Nombre de DVDi + β10Nombre de jeux vidéoi + β11Nombre de billets de cinémai + β12Nombre de billets de concerti + β13Offert nulle part ailleursi + β14Album partieli + β15Possession d'un lecteur MP3i + β16Écouter avant d'acheteri + β17Revenui + β18Changement dans la qualité de la musiquei + β19Intérêt pour la musiquei + β20Compétences Interneti + β21Âgei + β22Sexei + β23Régioni + εi
où yi mesure les ventes d'album CD comme nous l'avons présenté plus haut.
Équation 4 : axée sur le sous-échantillon de téléchargeurs de fichiers poste à poste (P2P)
yi = α + β1Prix de CDi + β2Album trop cheri + β3Nombre de P2Pi + β4Nombre de CD aux données extraitesi + β5Nombre de sitesWeb promotionnelsi + β6Nombre de sitesWeb privési + β7Nombre de copie de MP3i + β8Nombre de DVDi + β9Nombre de jeux vidéoi + β10Nombre de billets de cinémai + β11Nombre de billets de concerti + β12Offert nulle part ailleursi + β13Album partieli + β14Possession d'un lecteur MP3i + β15Écouter avant d'acheteri + β16Revenui + β17Changement dans la qualité de la musiquei + β18Intérêt pour la musiquei + β19Compétencesi + β20Âgei + β21Sexei + β22Régioni + εi
où yi est un indicateur des pistes musicales achetées sous format électronique.
Les régressions sont sensibles aux erreurs de spécification des modèles, un problème qui est presque omniprésent lorsqu'on procède à des tests statistiques, et qui est difficile à surmonter (p. ex., Kennedy, 2003). La solution retenue dans le présent document consiste à évaluer et à comparer un certain nombre de modèles différents ou concurrents. Les modèles d'estimation sont décrits ci-dessous.
Les variables dépendantes, à savoir le nombre d'albums CD achetés et le nombre de pistes musicales achetées sous format électronique en 2005, représentent des dénombrements, c'est-à-dire que les variables dépendantes prennent uniquement des valeurs entières non négatives. La loi de Poisson est le modèle le plus couramment utilisé pour analyser des dénombrements. La probabilité qu'un événement se produise est e-λλy / y!, où λ est à la fois la moyenne et la variance de la distribution. La loi de Poisson est probablement la technique d'estimation la plus courante pour faire des prévisions de dénombrements; toutefois, l'hypothèse sur laquelle elle repose n'est pas souvent confirmée par les données. De fait, les régressions de Poisson supposent que la variance des événements est égale à la moyenne des événements (Greene, 2003 et Kennedy, 2003). L'hypothèse d'une moyenne et d'une variance égales est peu susceptible de tenir, et dans notre cas, la variance du nombre de CD achetés est plus grande que le nombre moyen de CD achetés, c'est-à-dire que les données sont dispersées, ce qui a un effet défavorable sur nos estimations de régression. Si la variable dépendante est très dispersée, le modèle le plus fréquemment utilisé est la loi binomiale négative, où la moyenne est représentée par λ et la variance par λ + α-1 λ2 et α est le paramètre de la distribution gamma (Kennedy, 2003). Pour les besoins de nos analyses, nous comparons les résultats tirés de la loi de Poisson et ceux reposant sur la loi binomiale négative.
Par ailleurs, nous comparons les estimations de la loi de Poisson et de la loi binomiale négative à l'aide des estimateurs de la méthode des moindres carrés ordinaires. Nous procédons ainsi car les estimations de la méthode des moindres carrés ordinaires soutiennent plutôt bien la comparaison avec les résultats de modèles plus complexes. En effet, le modèle linéaire classique soulève peu de problèmes causés, par exemple, par des erreurs dans les variables. Dans notre cas, ces erreurs peuvent survenir dans toutes les variables où l'on demande aux participants de donner le nombre d'albums ou de fichiers acquis au cours d'une année donnée (ou d'un mois donné). Nous avons examiné les fréquences de ces variables et avons constaté que les répondants étaient susceptibles de donner un nombre d'achats de musique approximatif arrondi, par exemple 10, 20 ou 30.
La méthode des moindres carrés ordinaires requiert que la variable dépendante ait une distribution à peu près normale. La variable « nombre d'albums CD achetés en 2005 » affiche une asymétrie positive : un nombre de participants relativement plus élevé rapportent un faible nombre d'albums CD achetés. En vue de remédier à cette situation, nous avons recours à deux types de normalisation de données dans la méthode des moindres carrés ordinaires : i) en prenant la racine carrée des valeurs de la variable dépendante, et ii) en prenant le logarithme naturel. Comme nous l'avons mentionné précédemment, le logarithme de la valeur zéro n'est pas défini, aussi nous augmentons d'une unité le nombre d'albums CD avant de calculer le logarithme naturel. Le fait d'ajouter une unité plutôt que toute autre valeur est une pratique courante en économie et en analyse de gestion (Tabachnick et Fidell, 2006). Nous procédons ainsi car le logarithme de un est égal à zéro et que par conséquent, la normalisation n'entraîne pas d'écarts dans la distribution, c'est-à-dire que les données non normalisées et les données normalisées ont zéro comme plus petite valeur. Nous avons fait trois régressions distinctes au moyen de la méthode des moindres carrés ordinaires pour les albums CD et pour les pistes musicales achetées sous format électronique.
La variable « nombre de MP3 achetés au cours d'un mois ordinaire de 2005 » affiche une asymétrie encore plus forte par rapport au nombre d'albums CD achetés. Un grand nombre de participants au sondage (1 750Notes en bas 5 parmi les 2 100) ont affirmé qu'ils n'avaient acheté aucune piste musicale sous format électronique; par conséquent, la variable contient 1 750 observations établies à la valeur 0. Par conséquent, ni la loi de Poisson ni la loi binomiale négative n'ont convergés.
Pour les besoins des estimations réalisées au moyen de la méthode des moindres carrés ordinaires, nous utilisons les données réelles, la racine carrée et le logarithme naturel du « nombre de MP3 ». Dans l'analyse des achats de pistes musicales sous format électronique, nous utilisons également une variable binaire (dont la valeur est établie à 1 pour les personnes qui déclarent un achat en 2005 et à 0 sinon). Nous évaluons les modèles logit et probit en fonction de cette variable. Les estimations logit reposent sur une fonction logistique et les modèles probit reposent sur une distribution normale cumulative; les deux suivent une courbe similaire en forme de S et donnent des résultats très similaires. D'un point de vue historique, le logit est peut-être le plus couramment appliqué (progiciels statistiques intermédiaires), car il est plus facile à calculer.
Dans le cas de quatre variables, nous testons les hypothèses linéaires de paramètres égaux après avoir appliqué la loi binomiale négative dans le cas du nombre d'albums CD et le modèle probit dans le cas des achats de musique sous format électronique. La différence entre les coefficients qui nous intéressent plus particulièrement correspond aux variables « album trop cher », « écouter avant d'acheter », « offert nulle part ailleurs » et « album partiel », car ces variables se rapportent à des effets d'échantillonnage et à une segmentation de marché plutôt qu'aux effets de substitution de marché.
Nous examinons ensuite les problèmes que peuvent soulever les régressions effectuées dans le document : difficulté de déduire la causalité à partir de données transversales, problèmes d'endogénéité et d'omission de variables, d'hétéroscédasticité et d'erreurs dans les variables.
Premièrement, les régressions qui tiennent compte des données transversales ne permettent pas d'établir la causalité; elles peuvent seulement faire ressortir un lien entre les variables. Par conséquent, dans le cadre du présent document, on ne peut déduire la causalité qu'à partir du raisonnement théorique élaboré dans les sections précédentes. À cette fin, les estimations reposant sur des données recueillies au moyen d'un panel, utilisées entre autres dans Liebowitz (2004 et 2005) sont utiles. Toutefois, l'inconvénient majeur tient au fait qu'aucun ensemble de données recueillies au moyen d'un panel ne fournit d'information aussi abondante ou ne présente le même niveau de désagrégation (c.-à-d. les réponses individuelles).
Deuxièmement, les estimations à une seule équation reposent sur l'hypothèse que toutes les variables indépendantes sont exogènes et que toutes les variables importantes sont incluses dans l'estimation. Si, toutefois, une des variables indépendantes est influencée par une variable dépendante et/ou par une autre variable indépendante, ou si des variables indépendantes importantes sont omises, alors les variables indépendantes incluses seront généralement corrélées avec un terme d'erreur, ce qui entraînera des estimations contradictoires (Kennedy, 2003). Les problèmes d'endogénéité auront vraisemblablement des répercussions sur les résultats. Le recours aux téléchargements de poste à poste, par exemple, peut être déterminé en fonction achats de CD ou, en réalité, en fonction d'autres variables indépendantes. Les techniques conçues pour remédier aux problèmes d'endogénéité sont des systèmes d'équations simultanées (p. ex. Zooldridge, 2000), qui reposent sur l'utilisation de variables instrumentales pour prévoir les variables explicatives endogènes. La valeur observée des variables endogènes est remplacée par la valeur prévue dans la dernière équation, où les valeurs prévues ne sont pas corrélées avec le terme d'erreur.
Malheureusement, les variables instrumentales utiles sont par nature difficiles à trouver, et c'est la raison pour laquelle nous avons décidé de ne pas utiliser de techniques les prenant en compte. Des équations simultanées génèrent des estimations cohérentes uniquement si les instruments ne sont pas corrélés avec le terme d'erreur, c'est-à-dire s'ils sont vraiment exogènes au système, et lorsque les instruments sont fortement corrélés avec la variable endogène. Dans les faits, presque toutes les variables comportent un certain degré d'endogénéité. En outre, des études de Monte-Carlo indiquent que les estimateurs de régressions à une seule équation sont moins sensibles à la présence d'autres problèmes d'estimation, comme des erreurs dans les variables ou des erreurs de spécification dans les équations (Greene, 2003).
Troisièmement, les méthodes de régression supposent que les variances des perturbations, autrement dit, les erreurs de prévision sont presque toujours constantes. Une entorse à cette hypothèse s'appelle l'hétéroscédasticité (p. ex. Kennedy, 2003). L'hétéroscédasticité peut par exemple se produire si la variation dans les achats de musique est plus grande pour des personnes ayant un revenu élevé que pour les personnes ayant un revenu faible. Elle peut également être observée lorsqu'une variable est asymétrique ou lorsqu'une variable est corrélée avec une variable omise. Nous avons testé et vérifié la présence d'hétéroscédasticité à l'aide d'un test de White. Pour tenir compte de ce phénomène, nous avons fait reposer nos régressions sur des erreurs types robustes.