Il existe de nombreux types de sites qui fournissent une multitude de données gratuites, freemium et payantes pouvant aider les développeurs d'audience et les journalistes dans leurs efforts de reportage et de narration. L'équipe de State of Digital Publishing tient à les mentionner, car elles proviennent de recherches manuelles et de la reconnaissance de notre public existant.
1. Kaggle Kaggle est un site qui permet aux utilisateurs de découvrir l'apprentissage automatique tout en écrivant et en partageant du code hébergé dans le cloud. S'appuyant principalement sur l'enthousiasme de sa vaste communauté, le site organise des concours de jeux de données avec des prix en argent, ce qui explique la quantité impressionnante de données compilées. Que vous recherchiez des données historiques de la Bourse de New York, un aperçu des tendances de la production de confiseries aux États-Unis ou du code de pointe, ce site regorge d'informations. 2. Wikipédia Il est impossible de naviguer longtemps sur Internet sans tomber sur un article Wikipédia. Avec des articles allant de biographies historiques documentées et référencées à des chronologies du futur proche et lointain, on peut affirmer sans risque que Wikipédia s'est imposée comme une encyclopédie en ligne gratuite et accessible à tous. Entre l'article qui offre une vue d'ensemble du sujet et les nombreux livres et références en ligne proposés, Wikipédia est à bien des égards un outil précieux pour les écrivains. 3. Rampe commune Comme son nom l'indique, Common Crawl explore le web à la recherche de données qu'il stocke et organise dans un référentiel ouvert accessible à tous. À titre d'exemple, les marqueurs de brevets virtuels et les listes exhaustives de sites web proposant des flux RSS illustrent la puissance de cette application. Si vous souhaitez effectuer des comparaisons de données ou de sites, cet outil accessible vous permet de créer facilement des informations originales. 4. EDRM EDRM (Electronic Discovery Reference Model) est un site destiné aux professionnels du droit qui souhaitent exploiter le potentiel de la preuve électronique et définir les règles et attentes relatives à la gestion de l'information. Les membres d'EDRM collaborent à l'élaboration de normes, de logiciels et d'outils pédagogiques collaboratifs visant à promouvoir les objectifs de la communauté. Pour en savoir plus sur l'impact des technologies sur les aspects procéduraux et administratifs de la pratique juridique, consultez ce site. 5. Cornac Mahout se concentre sur un logiciel du même nom qui vise à optimiser la mise en place d'un environnement permettant de créer rapidement des applications d'apprentissage automatique performantes, évolutives et faciles à déployer. Ce logiciel est particulièrement utile aux chercheurs souhaitant compiler et manipuler leurs propres jeux de données ou s'initier à l'apprentissage automatique. Ce site permettra aux utilisateurs de progresser rapidement vers une maîtrise de ce logiciel. 6Le projet Lémurien Le projet Lemur est une base de données qui soutient la recherche sur les technologies de traitement du langage humain. Avec près d'un milliard de pages web et dix langues recensées entre janvier et février 2009, la quantité impressionnante de ressources disponibles et le soutien apporté en font une ressource précieuse pour les chercheurs. Grâce à ces données et aux ressources complémentaires offertes sur le site, toute personne intéressée par les technologies et le langage humain y trouvera de quoi alimenter ses recherches. 7Projet Gutenberg Le Projet Gutenberg est un répertoire qui propose des romans, des articles et d'autres œuvres du domaine public. Sa collection de plus de 54 000 livres numériques comprend des œuvres célèbres d'auteurs tels que Shakespeare, Mark Twain et Jane Austen, ainsi que des ouvrages moins connus d'auteurs plus confidentiels comme Henri Bergson et Samuel Butler. Que vous souhaitiez lire un classique pour enrichir votre culture générale ou effectuer des recherches sur la vie quotidienne au XIXe siècle, le Projet Gutenberg est une ressource précieuse. 8Ensemble de données d'un million de chansons Ce site web héberge un ensemble de données complet contenant les caractéristiques audio et les métadonnées d'environ un million de chansons populaires. Outre cet ensemble principal d'un million de chansons, il propose également plusieurs ensembles de données fournis par la communauté, classés par catégories connexes telles que les reprises, les genres musicaux et les paroles. Les historiens de la musique, les amateurs et les chercheurs intéressés par ces informations pourront les trier relativement facilement. Il s'agit probablement de l'ensemble de données le plus complet sur ce sujet disponible sur Internet. 9. Amazone Tout le monde connaît Amazon comme géant du commerce en ligne, mais saviez-vous qu'Amazon propose également des ensembles de données publics et gratuits, accessibles à tous sans téléchargement ni stockage sur vos appareils ? Ces données couvrent un large éventail de sujets, de la météo à l'environnement spatial en passant par les informations météorologiques et l'imagerie dédiée au développement d'algorithmes de vision par ordinateur. Les options ne manquent donc pas pour ceux qui recherchent une méthode plus pratique pour analyser d'importants volumes de données. 10. Gouvernement ouvert Canada Dans un souci de transparence accrue, d’encourager la participation citoyenne et de favoriser le dialogue, le gouvernement du Canada met à disposition de vastes données dans le cadre de son initiative Gouvernement ouvert. Sur ce site, vous trouverez des ensembles de données sur des enjeux gouvernementaux, comme le taux d’occupation des refuges pour sans-abri au Canada, ainsi que des données régionales sur le taux de participation des anglophones et des francophones au secteur public. Grâce à l’accès à ces données, il n’est plus nécessaire de se fier aux statistiques d’autrui pour obtenir de l’information. 11. Catalogues de données Le site Data Catalogs, désormais Data Portals, offre aux utilisateurs un accès simplifié aux portails de données ouvertes du monde entier. Ces portails, évalués et mis à jour par différents niveaux de gouvernement, de nombreuses ONG et même la Banque mondiale, proposent des données d'une qualité exceptionnelle. Les utilisateurs peuvent consulter les portails ou y contribuer. La variété des sujets et des informations abordés fait de ce site un point de départ particulièrement pertinent pour la recherche. 12. Data.gov.uk Data.gov.uk est un site permettant de trouver et d'accéder aux données publiées par divers organismes publics, ministères, collectivités locales et agences gouvernementales. Les chercheurs peuvent y trouver des informations sur la conjoncture économique des petites entreprises, le commerce, les importations, l'industrie et les exportations, ou encore effectuer des recherches sur les paiements supérieurs à 25 000 £ effectués par les ministères. Le site indiquant explicitement que les données peuvent être utilisées à des fins de recherche, les informations qu'il contient peuvent même susciter de nouvelles idées chez les chercheurs. 13. Data.gov Ce site permet au gouvernement américain de mettre à disposition du public des données ouvertes sous forme d'ensembles de données. Outre les données brutes, il propose également divers outils pour la visualisation des données et le développement d'applications web et mobiles. Le volume de données est immense : plus de 197 000 ensembles de données couvrent un large éventail d'informations, des plaintes relatives aux cartes de crédit aux données du programme fédéral de prêts étudiants. Ce site offre de nombreuses possibilités d'innovation et d'analyse approfondie. 14. DataSF DataSF propose des centaines d'ensembles de données concernant la ville et le comté de San Francisco. Vous souhaitez savoir ce que les lobbyistes locaux et régionaux défendent ? Vous avez besoin de statistiques sur la criminalité ? Consultez l'onglet « Présentation » pour découvrir des exemples de réalisations à partir de ces données ou utilisez le formulaire pour contribuer. Conçu avec des données ouvertes et proposant une plateforme de formation, un blog et de nombreux autres outils, ce site repose en grande partie sur la collaboration et l'implication de la communauté. Il constitue ainsi une ressource précieuse pour les chercheurs. 15. DataFerrett DataFerrett se distingue de nombreux sites par le fait qu'il ne s'agit pas tant d'un dépôt ou d'un répertoire que d'un outil permettant aux utilisateurs de personnaliser des données provenant de sources locales, étatiques et fédérales grâce à l'analyse et à l'extraction de données. Cet outil permet de créer des feuilles de calcul personnalisées et complètes, puis de convertir ces mêmes informations en carte ou en graphique sans avoir à télécharger ni à installer de logiciel supplémentaire. Organiser d'importants volumes de données et les rendre facilement lisibles n'a jamais été aussi simple. 16. Inforum Par l'intermédiaire de l'Université du Maryland, Inforum met à la disposition du public des données économiques américaines. De nombreuses agences gouvernementales américaines ont contribué à ce site, qui contient désormais des milliers de « séries chronologiques économiques », contenant des données sur la production industrielle, les indices des prix, les statistiques du travail et les indicateurs d'activité. Ces données sont accessibles gratuitement depuis un ordinateur personnel, portable ou de bureau. Les chercheurs souhaitant analyser en détail les données économiques brutes disposent ainsi d'une ressource précieuse : Inforum. 17. Europeana D'après les chiffres du site, les collections d'Europeana totalisent plus de 50 millions de documents. Grâce aux ensembles de données organisés disponibles ici, les chercheurs peuvent trouver l'information recherchée plus rapidement. Ces ensembles de données comprennent des catégories telles que des modèles 3D, des cartes italiennes de la Première Guerre mondiale et même une collection de plus de 20 000 photos historiques provenant de musées lituaniens, entre autres. Que ce soit pour des recherches historiques générales ou comme point de départ pour explorer les vastes archives d'Europeana, il s'agit d'une ressource précieuse. 18Le Guardian Outre sa couverture continue de l'actualité, le Guardian propose une section entière consacrée aux analyses de données. Les articles abordent des sujets aussi variés que des questions sérieuses, comme l'efficacité des politiques de logement face au sans-abrisme, ou des sujets plus légers, comme les pays comptant le plus de lauréats du prix Nobel. Journalistes et chercheurs y trouvent une mine d'informations pour leurs projets. Une simple recherche permet de trouver des données sur quasiment tous les sujets. 19Omnibus sur l'expression génique Hébergé par le National Center for Biotechnology Information (NCBI), le Gene Expression Omnibus (GEO) est un site contenant des données de génomique fonctionnelle publiques conformes aux normes MIAME (Minimum Information About a Microarray Experiment). Ce site accepte également les données de séquençage ou de puces à ADN et fournit les outils nécessaires à leur recherche et à leur téléchargement. Les personnes intéressées par l'étude des génomes ou souhaitant s'informer sur le sujet y trouveront toutes les données dont elles ont besoin, et bien plus encore. 20L'Université de Chicago Reconnu depuis longtemps pour sa contribution à l'innovation et au progrès dans les sciences sociales, le Centre de science des données spatiales (CSDS) de l'Université de Chicago explore de nouvelles frontières en se spécialisant dans l'analyse et les technologies spatiales. Les travaux du CSDS trouvent des applications dans pratiquement tous les domaines confrontés à la dimension spatiale. Ainsi, des disciplines comme l'économie environnementale, la santé publique et la criminologie ont toutes bénéficié de ces applications. L'engagement du CSDS en faveur des logiciels libres et la diffusion de ses informations rendent les données qu'il fournit encore plus accessibles. 21.Conect Grâce aux données collectées par l'Institut des sciences et technologies du Web de l'Université de Coblence-Landau, KONECT (Collection de réseaux de Coblence) propose des recherches en sciences des réseaux et disciplines connexes. Le projet utilise une série d'outils logiciels d'analyse de réseaux développés en interne pour traiter les données et produire des graphiques et des algorithmes. KONECT met ensuite les résultats de ses analyses directement sur son site web. Avec plus de 200 jeux de données disponibles, cette ressource mérite d'être explorée. 22. MIdata MIdata est un site servant de dépôt de données destinées à l'apprentissage automatique. Ces jeux de données peuvent couvrir un large éventail de sujets, allant de compilations d'expressions faciales humaines à des thématiques plus scientifiques comme la prédiction des liaisons moléculaires. Grâce à une organisation en catégories offrant un accès aux données brutes, à des tutoriels dans la section « Matériel et méthodes », ainsi qu'à des exercices et des défis pédagogiques, ce site permet aux chercheurs de parcourir le dépôt à la recherche des jeux de données qui les intéressent. 23NASDAQ Le NASDAQ est une bourse de renommée mondiale qui constitue depuis longtemps une ressource précieuse pour les journalistes et les chercheurs en quête de données financières et économiques. Vous y trouverez des informations sur les introductions en bourse, l'historique des cours et l'actualité financière, faisant de ce site une référence incontournable pour les données financières. Le NASDAQ Composite propose également des options payantes pour ceux qui souhaitent approfondir leur analyse. Il s'agit d'une ressource très respectée et reconnue. 24NASA Depuis le premier pas sur la Lune, tout le monde connaît aujourd'hui cette agence gouvernementale et ses missions spatiales. Ce qui intéresse particulièrement les journalistes, c'est que la NASA constitue également une précieuse source de données grâce à son archive coordonnée de données scientifiques spatiales (Space Science Data Coordinated Archive). Les chercheurs peuvent y trouver des données de missions spatiales classées dans des catégories telles que l'astrophysique, les ressources d'imagerie et l'héliophysique. De plus, de nombreux livres blancs sont disponibles sur le site pour accompagner les nouvelles données soumises. 25Socrata Socrata est un site qui met à disposition les données gouvernementales dans un format facilitant leur analyse, leur navigation et la recherche d'informations. Conçu spécifiquement pour répondre aux besoins d'un public non technique, comme les experts en politiques publiques, les chercheurs, les entrepreneurs et les citoyens engagés, Socrata utilise le cloud pour compiler des données provenant de sources diverses. Cette plateforme s'avère particulièrement utile pour les journalistes qui cherchent à évaluer l'efficacité des différentes politiques. 26Quandl Quandle est un site proposant des données économiques et financières principalement structurées pour répondre aux besoins des professionnels de l'investissement. S'appuyant sur plus de 500 sources d'information provenant d'organisations crédibles telles que CLS Group, l'ONU, les banques centrales et Zacks, entre autres, pour agréger ses données, cette plateforme est idéale pour les chercheurs et les journalistes souhaitant obtenir une vue d'ensemble rapide. Grâce à son module complémentaire Excel, l'accès direct aux données est également facilité. 27. Université Carnegie Mellon L'université Carnegie Mellon jouit d'une excellente réputation, amplement méritée. Ce que beaucoup ignorent, c'est que son laboratoire de statistiques (StatLab) constitue une ressource précieuse pour les journalistes en quête de données. Cette base de données comprend des informations sur des sujets tels que les salaires des joueurs nord-américains de la MLB en 1986, ainsi que des données destinées à évaluer la précision des logiciels statistiques. Ces données sont accessibles au public moyennant mention de la source. 28. UCI Le dépôt d'apprentissage automatique de l'UC Irvine, ou UCI, est un site qui héberge une multitude de données intéressantes pour les journalistes. Avec 394 jeux de données disponibles à ce jour, le site offre l'avantage d'une interface de recherche intuitive. Parmi les jeux de données les plus populaires, on trouve des informations sur la reconnaissance d'activité humaine à l'aide de smartphones, le vin et le marketing bancaire, entre autres. L'utilisation de ces données ne requiert qu'une citation. 29. UCR Si vous êtes journaliste et que vous vous intéressez au développement de l'apprentissage automatique, la page UCR sur la classification et le clustering des séries temporelles vous offrira une lecture passionnante. Le site propose un document d'information utile qui vous fournira toutes les informations de base nécessaires. Outre un aperçu du contenu des données, le site vous permet également de les télécharger directement. N'oubliez pas d'utiliser le format de citation indiqué sur le site si vous utilisez ces jeux de données. 30. Recensement des États-Unis Besoin de statistiques sur le patrimoine démographique ? Envie de connaître la répartition exacte par sexe dans un secteur d'activité particulier ? Le recensement américain est un site qui met à disposition du public toutes ces données et bien plus encore. Triez les données par année ou par région, et vous trouverez rapidement des statistiques dont la plupart des gens ignoraient l'existence. Ces chiffres étaient disponibles aux formats Excel et Microsoft Word, ce qui facilite grandement leur consultation par les journalistes. 31. Wolfram Alpha Wolfram Alpha est un moteur de calcul qui permet aux utilisateurs de saisir les données qu'ils souhaitent analyser et d'obtenir un résultat. Ce moteur effectue des analyses statistiques, des calculs chimiques, des traitements de dates et d'heures, et même des analyses linguistiques et lexicales, entre autres. Pour les utilisateurs cherchant à explorer de nouvelles méthodes de traitement des données, cet outil est particulièrement utile car il génère instantanément de nouveaux calculs. Les journalistes, notamment, peuvent tirer un grand profit de son utilisation comme ressource complémentaire. 32. Japper Il s'avère que Yelp ne se limite pas aux restaurants et aux avis des utilisateurs. Ce site d'avis, alimenté par les utilisateurs, conserve également une base de données donnant accès aux chercheurs aux avis, aux données des utilisateurs et aux entreprises à des fins personnelles, éducatives et académiques. Selon l'entreprise, cette base de données comprend 4,7 millions d'avis et 156 000 entreprises réparties dans 12 agglomérations. Avec de tels chiffres, les informations et les tendances que les chercheurs pourraient potentiellement découvrir dans ces données pourraient leur réserver d'agréables surprises. 33. Monde des données Vous souhaitez obtenir la liste des pages Facebook supprimées ? Et si vous pouviez trier les données économiques américaines par comté ? Data World est un site qui permet de partager, d'héberger, de collaborer et de suivre des données. Il comprend même une section dédiée aux journalistes, expliquant en quoi Data World est utile à la profession et présentant ses fonctionnalités d'hébergement, un outil simplifié de prédiction des demandes d'accès à l'information (FOIA) ainsi que des pages conçues pour faciliter l'organisation des données. En résumé, c'est une solution performante alliant données et hébergement de données. 34. Le World Factbook Géré par la CIA, le World Factbook fournit des informations sur les structures sociales, l'histoire, les forces armées et la situation économique de 267 pays, ainsi que des cartes, des drapeaux et un calendrier des fuseaux horaires correspondant aux éléments figurant sur la carte du monde. Le site propose une analyse approfondie du sujet, allant bien au-delà des notions de base. En bref, il s'agit d'une source de données indispensable à tout journaliste. 35. HealthData.gov Géré par le Département américain de la Santé et des Services sociaux, HealthData.gov offre au public un accès à des données de santé de grande valeur, dans l'espoir d'attirer l'attention des entrepreneurs, des décideurs politiques et des chercheurs. Dans le domaine du développement de produits et de services, ces données ont déjà permis d'obtenir des résultats concrets. Les journalistes souhaitant se tenir au courant des dernières avancées en matière de données de santé ou vérifier une déclaration d'un responsable du secteur de la santé peuvent également consulter ce site pour trouver des réponses. 36. UNICEF Ce site confère une crédibilité immédiate aux journalistes qui utilisent les informations qu'il propose. Les statistiques publiées par l'UNICEF couvrent des domaines tels que la santé et les droits humains, notamment l'éducation, la santé maternelle, la pauvreté infantile, l'eau et l'assainissement, et le handicap chez l'enfant, parmi de nombreuses autres catégories. Il est précieux pour les chercheurs car il est constamment mis à jour et s'appuie sur l'une des organisations les plus reconnues au monde. Les journalistes ne peuvent se tromper en citant cette source de données. 37. Organisation mondiale de la santé L'Organisation mondiale de la Santé (OMS) est une organisation internationale qui collecte des statistiques et des informations sanitaires à travers le monde. Outre les informations disponibles directement sur sa page d'accueil, le site propose également des données via l'Observatoire mondial de la santé. Ces données portent notamment sur les mesures prises par les pays en faveur de la couverture sanitaire universelle, la recherche et le développement dans le domaine de la santé. Les journalistes y trouveront de nombreuses informations sur les épidémies, les urgences sanitaires et la couverture des soins de santé à l'échelle internationale. 38. Données publiques de Google Grâce à la disponibilité des données publiques de Google, les journalistes peuvent s'appuyer sur Google à bien des égards. Le géant des moteurs de recherche met à disposition plus de 100 jeux de données publics, prêts à être analysés. Les sujets abordés sont très variés : des indicateurs du développement mondial et des indicateurs du développement humain, véritables enjeux de société, aux données plus insolites, comme celles relatives aux routes les plus dangereuses d'Europe. Il suffit aux chercheurs d'effectuer une recherche pour découvrir les ressources offertes par Google Public Data. 39. Gap Minder Gap Minder propose des données sur de nombreux indicateurs locaux et nationaux, ainsi que des liens et des informations sur tous les fournisseurs de données. Grâce à ce site, les chercheurs peuvent consulter des informations telles que l'âge du premier mariage chez les femmes, des statistiques sur la consommation d'alcool et les causes de mortalité infantile. Pour les journalistes qui écrivent sur des sujets internationaux ou qui effectuent des analyses comparatives, il s'agit d'une excellente ressource. C'est une source de données précieuse en toutes circonstances. 40. Google Trends Google Trends est un outil qui permet aux chercheurs de comprendre ce que les internautes recherchent en ce moment même. Ils peuvent comparer ces données aux tendances passées et les utiliser pour anticiper, par exemple, les recherches à venir pendant les fêtes de fin d'année. Google Trends propose des graphiques, identifie les sujets les plus populaires et offre de nombreuses opportunités de découvrir l'actualité avant même qu'elle ne soit officiellement publiée. 41. Google Finance Google Finance offre une solution rapide et facile pour approfondir vos recherches sur une entreprise qui fait sensation auprès des investisseurs. Filtrez facilement les indicateurs techniques et consultez les dernières actualités de l'entreprise dans une interface simple et intuitive, permettant un tri encore plus précis des informations. De plus, c'est gratuit. Pour les journalistes souhaitant analyser les finances d'une société cotée en bourse, Google Finance propose une interface intuitive. Malheureusement, Google a récemment supprimé certaines fonctionnalités essentielles, comme le portefeuille financier. Voici quelques exemples Alternatives à Google Finance. 42. DBpedia Ceux qui ont déjà rêvé d'une méthode plus simple pour effectuer des recherches sur Wikipédia ont de quoi se réjouir : DBpedia est là pour vous. Grâce à l'engagement de sa communauté, ce site permet d'effectuer des recherches plus poussées dans le contenu de Wikipédia. Avec ses 4,58 millions d'entrées (classifications et catégories associées) dans sa version anglaise, DBpedia est en passe d'offrir une couverture exhaustive basée sur les informations de Wikipédia. Les journalistes ne peuvent pas se tromper avec cette source de données. 43. Pew Research Pour beaucoup, Pew Research figure parmi les références en matière d'enquêtes, de rapports et de données de recherche. Le site couvre des sujets aussi variés que les opinions politiques, les tendances sociales et l'évolution de différents secteurs d'activité. Pew Research propose également une fonction de recherche qui facilite plus que jamais l'accès à l'information. Les journalistes en quête de statistiques et de résultats actualisés, provenant d'une source fiable et reconnue, peuvent se tourner sans hésiter vers Pew Research. 44. Institut Broad Pour les journalistes souhaitant s'informer sur les dernières actualités concernant le cancer, les bases de données du Broad Institute constituent une source d'information précieuse. Celles-ci incluent également des informations sur d'autres sujets tels que la bioinformatique et la biologie computationnelle, ainsi que sur le cancer du cerveau et la découverte de motifs moléculaires. En bref, ce site offre aux journalistes un avantage considérable en leur permettant d'accéder à des données approfondies sur le cancer et de réaliser des reportages à partir des données fournies par le Broad Institute. 45. Données de l'ONU UNdata propose des informations sur différents pays du monde entier. Ces données comprennent des indicateurs techniques, sociaux et économiques pour chaque pays concerné. Pour les journalistes qui réalisent des reportages à caractère humain ou qui gagneraient à être étayés par des statistiques et des données supplémentaires, UNdata est une ressource idéale. La fiabilité des données et la réputation de l'ONU en font une source d'information sur laquelle les journalistes peuvent compter dans leurs recherches. 46. Google Scholar Imaginez si, au lieu de parcourir des sites web, il était possible d'effectuer une recherche ne proposant que des articles et des documents académiques évalués par des pairs. Google Scholar permet de trouver des articles de revues, des livres blancs et des publications des plus grands chercheurs du monde. Comme toujours avec cette entreprise, Google Scholar est d'une simplicité d'utilisation déconcertante : il suffit de saisir un mot-clé pour lancer la recherche. Trouver des articles académiques n'a jamais été aussi simple. 47. Reddit Souvent surnommé « la page d'accueil d'Internet », Reddit est l'un des sites web les plus populaires du web. En plus d'être un indicateur fiable de l'activité en ligne, le site possède également un subreddit (ou forum) dédié aux jeux de données. Les utilisateurs peuvent y demander des jeux de données, publier des ressources et discuter de leur traitement, notamment via des formats comme JSON. Les chercheurs ont tout intérêt à consulter cette source de données. 48. Marché des données Qlik DataMarket vous permet de collecter et de traiter des données provenant de sources externes. Cette plateforme offre la possibilité d'emprunter des données à plusieurs ensembles et de les croiser avec celles que vous possédez déjà afin d'affiner votre compréhension du contexte. De plus, bien qu'il s'agisse d'une plateforme payante selon le sujet, une version gratuite de Qlik DataMarket est également disponible. Les journalistes peuvent ainsi explorer les données à leur guise. 49. Hubspot HubSpot a toujours été une référence incontournable dans le monde du marketing B2B. Pour les chercheurs, ce site leur fournit toutes les informations sur l'actualité du secteur et les sujets de conversation en temps réel des professionnels du marketing. Les journalistes peuvent également s'en servir pour se tenir au courant des tendances. De ce fait, HubSpot est une ressource précieuse pour les chercheurs. 50. Bureau des statistiques de la justice Sans surprise, le Bureau de la Justice conserve une multitude de statistiques. Sur son site web, on trouve des chiffres sur les arrestations, les décès de détenus, les exécutions capitales, les statistiques des forces de l'ordre et les recensements des prisons. Le système de justice pénale fascine autant le public que les personnes qui y travaillent. C'est ce qui rend les statistiques du Bureau de la Justice d'autant plus précieuses pour les journalistes qui enquêtent sur ce système. 51. Rapport uniforme sur la criminalité Le Rapport uniforme sur la criminalité (UCR) est un recueil de statistiques sur les crimes contre les biens et les crimes violents, compilées par le FBI. Bien que les forces de l'ordre américaines communiquent ces données depuis 1930, les résultats publiés remontent à 1958. Les journalistes souhaitant explorer ces données peuvent accéder à l'outil de données de l'UCR et l'utiliser pour consulter les informations disponibles sur ce site. 52. Rapport uniforme sur la criminalité Le Système uniforme de déclaration des crimes (UCR) est le fruit d'un programme conçu par l'Association internationale des chefs de police en 1929. Les données recueillies par le FBI sont publiées quatre fois par an. Outre les informations fournies par le programme UCR, le site propose également des rapports sur les statistiques relatives aux crimes haineux, aux agents des forces de l'ordre tués ou agressés (LEOKA), ainsi que les résultats et les chiffres fournis par le Système national de déclaration des incidents (NIBRS). 53. NACJD Le NACJD (National Archive of Criminal Justice Data) est un site qui collecte des informations issues de bases de données telles que les rapports uniformes sur la criminalité (UCR) et l'enquête nationale sur la victimisation criminelle (NCVS), puis les stocke et les diffuse. Conçues pour être gérées, stockées et mises à jour afin d'en garantir l'accessibilité optimale, les données se présentent sous différentes formes, notamment expérimentales, qualitatives et longitudinales. En définitive, le NACJD offre aux journalistes et autres chercheurs un moyen supplémentaire de visualiser et d'accéder aux statistiques de la justice pénale. 54. Première banque de données First Databank est un site web dédié aux données pharmaceutiques. Il vise à promouvoir une prise de décision plus efficace et fondée sur les données dans le secteur pharmaceutique. Grâce à l'utilisation innovante des technologies proposées par First Databank, les médecins et les cliniciens peuvent ainsi envisager les médicaments sous un angle nouveau. D'un point de vue professionnel, ce site est particulièrement utile car ses données permettent aux équipes de s'adapter rapidement aux nouvelles informations. Il constitue également une ressource précieuse pour les journalistes spécialisés dans le domaine pharmaceutique. 55. FDA La FDA, ou Food and Drug Administration, est l'agence chargée de protéger la santé publique en supervisant et en approuvant les médicaments, les produits alimentaires, les compléments alimentaires, les vaccins et les cosmétiques, entre autres produits de consommation. Elle met à disposition du public des ensembles de données consultables, ainsi que des données techniques pour les personnes à l'aise avec les tableurs et l'analyse de ces données. Il s'agit d'une ressource précieuse pour les journalistes. 56. Base de données sur les médicaments Vous êtes-vous déjà demandé combien le pays dépense précisément suite à une épidémie de drogue ? Entendez-vous des rumeurs selon lesquelles les habitudes de consommation de drogue ont évolué ? Drugbase propose une base de données regorgeant de statistiques sur les tendances et la consommation de drogues aux États-Unis. On y trouve des infographies ainsi que des publications sur des sujets tels que la comorbidité entre toxicomanie et maladie mentale ou encore des informations sur la conduite sous l'influence de stupéfiants (et non d'alcool). Cette ressource fournit suffisamment d'informations pour identifier les tendances et effectuer des comparaisons avec les données historiques. 57. ONUDC L'ONUDC (Office des Nations Unies contre la drogue et le crime) dispose d'un site web dédié à la réalisation de son objectif : aider les États membres à adopter des normes plus rigoureuses en matière de recherche, de collecte de données et de criminalistique. Sur ce site, les chercheurs peuvent trouver de nombreuses statistiques et publications traitant de sujets tels que la collecte de données, l'analyse des tendances et les programmes de recherche. Il s'agit d'une ressource riche en informations sur divers sujets liés à la criminalistique, ainsi que sur les aspects scientifiques de cette discipline. 58. Faits sur la guerre contre la drogue Drug War Facts est un site qui propose une analyse approfondie de la guerre contre la drogue et de ses conséquences. On y trouve des statistiques et des chiffres détaillés, notamment des comparaisons entre le coût des traitements et celui des mesures répressives, des estimations des dépenses liées à la lutte contre la drogue, et une multitude d'informations sur pratiquement tous les sujets relatifs à cette guerre. Pour beaucoup, il s'agit du site web le plus complet sur le sujet. 59. Centre national des statistiques de l'éducation Le Centre national des statistiques de l'éducation (NCES) est la référence pour toutes les statistiques relatives à l'éducation. Ce site propose des statistiques sur l'état des prêts étudiants, des projections sur les tendances de l'éducation, ainsi que des ensembles de données et des outils de comparaison permettant des analyses plus approfondies. Les journalistes peuvent utiliser cette ressource pour identifier des tendances, vérifier des déclarations publiques, consulter les publications du NCES et trouver de nouvelles pistes de recherche. 60. Banque mondiale La Banque mondiale met à disposition de nombreuses statistiques et données compilées par le Groupe des données sur le développement, tant dans le secteur financier que dans le domaine macroéconomique. Il est possible de trier ces données à l'aide de mots-clés. Les utilisateurs peuvent choisir parmi divers indicateurs et effectuer une sélection par pays afin d'examiner les différentes mesures du progrès en matière de développement. De ce fait, il s'agit d'une ressource précieuse pour toute personne s'intéressant à la situation financière et/ou économique des pays membres. 61. Bureau des statistiques du travail Le Bureau des statistiques du travail (BLS) est une source incontournable pour les journalistes en quête de chiffres et de statistiques sur les conditions de travail actuelles, la situation du marché du travail et l'impact des prix sur l'économie américaine. Fort d'une expérience statistique remontant à 1884, le BLS offre aux chercheurs une mine de données économiques. Son site web, à l'interface conviviale, met régulièrement à jour les données consultables. Une source d'information à explorer absolument. 62. Les chiffres Les films à succès bénéficient d'une forte couverture médiatique, mais il est difficile d'évaluer la performance réelle d'une entreprise sans données chiffrées. C'est là qu'intervient « The Numbers ». Ce site web propose des études et des données sur l'industrie du cinéma et du divertissement. Grâce au moteur de recherche SQL d'OpusData, les chercheurs peuvent explorer les estimations de revenus, les prévisions concernant les sorties à venir et d'autres données d'investissement. « The Numbers » est la première source à consulter pour les chercheurs en quête de statistiques fiables sur le cinéma. C'est ce qui en fait une ressource précieuse. 63. Film Forever Film Forever est un site web de référence pour les chercheurs souhaitant obtenir des informations et des données sur le marché du cinéma au Royaume-Uni. On y trouve les chiffres hebdomadaires du box-office des 15 films les plus populaires au Royaume-Uni, des études d'audience, des rapports, des études de cas et l'annuaire statistique phare de l'organisation. Le site propose également un calendrier informant les utilisateurs des dates de publication des prochaines statistiques. La spécialisation de Film Forever en fait une source de données particulièrement précieuse. 64. IFPI IFPI est un site qui se targue d'être au fait des dernières tendances de l'industrie du disque mondiale. Les utilisateurs y trouveront des rapports publiés riches en analyses sur la musique enregistrée, des données de ventes nationales et internationales, ainsi que des rapports sur les aspects commerciaux de l'industrie musicale, montrant comment les entreprises investissent dans la musique. Ces rapports permettent aux utilisateurs de suivre l'actualité du secteur. Ce site tiendra les chercheurs informés en temps réel des dernières nouvelles de l'industrie musicale. 65. Statista Statista est un moteur de recherche comme Google, à la différence qu'au lieu de pages web, il renvoie des données et des statistiques. En un clic, les utilisateurs accèdent instantanément à plus d'un million de statistiques et d'informations. Ils y trouveront des infographies, des statistiques sur la Chine, l'industrie agroalimentaire, les marchés de consommation et, moyennant un abonnement, des dossiers et des rapports sectoriels. Que vous recherchiez des informations sur l'économie, les réseaux sociaux ou le Big Mac, c'est le site idéal. 66. EPA L'EPA, ou Agence américaine de protection de l'environnement, est l'agence gouvernementale chargée de protéger la population et l'environnement en appliquant les lois votées par le Congrès. Sur son site web, les utilisateurs peuvent consulter de nombreux ensembles de données sur des sujets aussi variés que l'agriculture et des thématiques plus spécifiques comme les rejets annuels de produits chimiques toxiques et les méthodes de gestion des déchets. Ce site est une ressource précieuse pour les journalistes souhaitant accéder à des données environnementales brutes. 67. Centres de contrôle et de prévention des maladies Le site web des Centres pour le contrôle et la prévention des maladies (CDC) se présente comme un guichet unique pour les données de santé publique environnementale. Les chercheurs y trouveront des références et des listes de systèmes de données bénéficiant de financements nationaux, qui recensent et stockent des informations relatives aux enjeux de santé publique environnementale. Axé sur les programmes nationaux et accessible par téléchargement direct, ce site constitue une ressource fiable pour obtenir les informations les plus récentes et les plus précises disponibles en ligne. 68. Centres nationaux pour la santé environnementale Issu de la fusion de trois agences auparavant indépendantes, le Centre national pour la santé environnementale (NCEE) est la référence en matière d'informations environnementales de haute qualité. Proposant des données exhaustives, allant des données océaniques aux archives glaciaires remontant à des millions d'années, ce site web offre des informations sur tous les sujets environnementaux. Son engagement envers l'exactitude et l'excellence dans la gestion de l'une des plus importantes archives de ce type en fait également l'un des rares sites en ligne à posséder, mettre à jour et maintenir ce type de données. 69. Service météorologique national Le Service météorologique national de l'Agence américaine d'observation océanique et atmosphérique (NOAA) fournit aux chercheurs toutes les informations météorologiques nécessaires. Ce site propose des recherches de données incluant des informations classées par catégories : alertes et prévisions, climat, prévisions géographiques, etc. De plus, il comprend une carte intuitive et facile à utiliser, avec des onglets permettant d'accéder à différents résultats. Que vous souhaitiez consulter les événements météorologiques locaux ou trouver les prévisions pour une ville située dans un autre État, ce site vous permettra de trouver rapidement les informations dont vous avez besoin. 70. Le monde souterrain Wunderground est une plateforme qui vise à garantir l'accès à l'information météorologique pour tous, partout dans le monde, en accordant une attention particulière aux régions moins bien couvertes. Wunderground affirme avoir pris des mesures pour assurer une excellente expérience utilisateur sur différentes plateformes numériques. Le site est donc accessible aussi bien sur mobile que sur ordinateur, ce qui en fait une ressource idéale pour les journalistes en déplacement. 71. Base météorologique Weatherbase vous fournit des informations sur les conditions météorologiques actuelles, les moyennes, le climat et les conditions de voyage pour plus de 40 000 villes dans le monde grâce à une simple barre de recherche. Utilisez le site associé auquel Weatherbase renvoie pour trouver des informations de voyage supplémentaires, comme des convertisseurs de devises, des coordonnées GPS, des informations sur les comtés et bien d'autres choses encore. Weatherbase peut également vous aider à choisir votre destination de vacances en fonction des prévisions météo. Bonne recherche ! 72. Atlas de l'énergie Publié par l'Agence internationale de l'énergie, l'Atlas de l'énergie permet aux chercheurs d'appréhender le monde à travers des statistiques énergétiques. Conçu dès sa création comme source de données complémentaire, le site propose un bilan énergétique animé de type Sankey ainsi que plusieurs bases de données accompagnant les publications consultables sur la page de statistiques de l'Agence internationale de l'énergie. Les chercheurs trouveront ce site et ses sites associés extrêmement utiles pour étudier la consommation énergétique des pays et des villes. 73. Bureau d'analyse économique Le Bureau d'analyse économique (BEA) publie un large éventail d'informations utiles permettant aux chercheurs de suivre de près l'évolution de l'économie américaine. Son site web propose des données sur les comptes économiques des États-Unis, notamment sur les dépenses de consommation, le PIB et les actifs fixes. Les chercheurs peuvent effectuer des recherches par région, secteur d'activité ou niveau d'analyse, à l'échelle internationale, nationale ou régionale. Pour en savoir plus sur le Bureau, consultez la page de données interactives. 74. Bureau national de recherche économique Le site web du Bureau national de la recherche économique (NBER) est une source de données qui aborde l'économie d'un point de vue analytique. Il héberge des données sur un large éventail de sujets économiques, notamment l'Indice de gouvernance africaine, le Cycle économique officiel, les indices expérimentaux de coïncidence, d'indicateurs avancés et de récession, ainsi que la Base de données d'histoire macroéconomique. Le NBER publie et compile des ensembles de données officiels sous son propre nom, ainsi que des index compilés par d'autres éditeurs. 75. Commission des valeurs mobilières des États-Unis La Securities and Exchange Commission (SEC) des États-Unis est une agence qui joue un rôle de surveillance en promouvant la transparence, l'équité et l'efficacité des marchés. Son site web propose une base de données de déclarations financières couvrant la période de janvier 2009 à octobre 2017, mise à jour chaque trimestre. Les chercheurs peuvent ainsi se tenir informés des dernières actualités concernant les déclarations et obtenir des informations sur les entreprises et leur situation financière. 76. FMI Le Fonds monétaire international (FMI) est une organisation de référence dans le secteur économique et financier international. Son site web propose aux chercheurs une multitude de données sur ces sujets. Les utilisateurs peuvent effectuer des recherches par indicateur et par pays, et consulter des graphiques et des cartes. Parmi les données les plus consultées figurent les flux commerciaux, les prix des matières premières, les indicateurs de solidité financière, les enquêtes et les statistiques de la finance internationale, entre autres informations précieuses. 77. L'Atlas – Harvard Conçu initialement par Harvard, Atlas est un outil en ligne permettant de visualiser et d'interagir avec la situation commerciale d'une entreprise. Atlas utilise ensuite ces informations pour proposer différents produits que le pays pourrait fabriquer afin de dynamiser son économie. Cet outil est utilisé par les décideurs politiques, les chefs d'entreprise, les investisseurs et les citoyens soucieux de mieux comprendre le contexte économique d'un pays donné. Les questions de commerce et d'économie nationale n'ont jamais été aussi accessibles. 78. Faire des affaires Le site Doing Business est le fruit d'une démarche visant à évaluer objectivement les réglementations commerciales. Il analyse près de 200 économies et de nombreuses villes, en mesurant notamment des indicateurs économiques et en classant la facilité d'y faire des affaires. Ce site permet aux utilisateurs d'étudier les effets de différents types de réglementations commerciales entre les pays et propose des rapports ainsi que de nombreuses données qualitatives. Il permet également d'effectuer des comparaisons dans le temps. 79. Comtrade Initialement un projet du ministère britannique des Entreprises, de l'Énergie et de la Stratégie industrielle, en collaboration avec le ministère du Commerce international, Comtrade est une ressource précieuse. Utilisant les données de la base de données Comtrade des Nations Unies, le site propose un graphique interactif permettant de rechercher, comparer et analyser les volumes précis des échanges commerciaux entre pays. Il suffit de sélectionner le pays déclarant, de choisir un pays partenaire et d'effectuer autant de sélections que possible. 80. Données financières mondiales Global Financial Data est une source qui ne se contente pas de compiler des données financières standard ; elle rassemble des informations financières remontant au XIIIe siècle jusqu'à nos jours. Ces informations proviennent de sources variées, notamment des livres, des documents d'archives, des revues académiques et des périodiques d'actualité. De plus, le site propose des ensembles de données utilisant la méthode statistique de chaînage. Le résultat, pour l'utilisateur, est une ressource unique sur Internet grâce à l'exclusivité de ses données. 81. Visualiser l'économie Visualizing Economics s'apparente moins à une ressource de découverte de données qu'à un service de conception d'infographies et de tableaux de bord interactifs. De plus, Visualizing Economics réalise des analyses et des conceptions visant précisément à rendre les données économiques plus accessibles. Grâce à ce site, les journalistes ont l'opportunité de collaborer avec un professionnel fort d'une longue expérience dans la vulgarisation des données économiques. 82. Portail des données ouvertes de l'UE Le portail des données ouvertes de l'UE est un projet créé suite à une décision de la Commission européenne. Sur ce site, les institutions de l'UE mettent à disposition du public des données consultables et utilisables librement, sans restriction de droits d'auteur et gratuitement. Parmi ces données figurent les données de référence CORDIS, le registre de transparence, et même la liste complète des personnes, entités et groupes visés par des sanctions financières de l'UE. Ces données sont disponibles dans différents formats numériques. 83. Données ouvertes Réseau Le Réseau de données ouvertes est un site qui permet aux utilisateurs de consulter des données par région et par ville. Doté d'une page d'accueil claire et intuitive, il offre aux chercheurs la possibilité d'effectuer des recherches par catégorie de données, par ville, et même par exemple de questions. Sur chaque page, après avoir parcouru les catégories de données ou les exemples de questions, des liens pratiques permettent d'accéder à d'autres ensembles de données. L'organisation des données à elle seule fait du Réseau de données ouvertes un site qui mérite d'être exploré. 84. Landmatrix Landmatrix est un site proposant une base de données en ligne sur les transactions foncières, visant à accroître la transparence des acquisitions. Cet outil permet de visualiser et d'analyser les différentes transactions. Les données sont constamment mises à jour et optimisées afin d'améliorer la précision des informations disponibles. À ce jour, Landmatrix recense plus de 1 000 transactions. C'est une ressource précieuse pour les chercheurs. 85. Programme des Nations Unies pour le développement Le Programme des Nations Unies pour le développement (PNUD) met à la disposition du public de nombreuses données utiles sur le développement humain dans le monde. Ces ensembles de données, qui couvrent généralement la période 1990-2015, comprennent des tableaux complets présentant notamment les tendances de l'indice de développement humain (IDH), de l'indice d'inégalité de genre et de l'écart entre les sexes tout au long de la vie. Les chercheurs peuvent effectuer une recherche directement dans les données grâce à la barre de recherche et également filtrer par pays pour consulter les graphiques. 86. OCDE L'OCDE, ou Organisation de coopération et de développement économiques, propose un site web dédié à l'accompagnement des gouvernements dans leurs initiatives de lutte contre la pauvreté et de promotion de la prospérité par la stabilité et la croissance économiques. Ce site met à la disposition des chercheurs des documents évalués par des pairs, des publications, ainsi que des normes et des arguments en faveur de leur mise en place. L'OCDE publie également un recueil de données économiques qui constitue un outil de référence précieux, complété par de nombreuses enquêtes et prévisions sur les perspectives économiques disponibles sur son site. 87. Département de la Santé et des Services sociaux des États-Unis Le Département américain de la Santé et des Services sociaux gère un site web qui fournit des informations sur le Conseil présidentiel pour la forme physique, le sport et la nutrition. Ce site propose des données et des faits compilés avec l'aide de plusieurs experts dans des domaines connexes, tels que des chefs cuisiniers et des athlètes. Il contient également de nombreuses statistiques. Les chercheurs peuvent y trouver des informations sur l'activité physique des enfants, les habitudes de renforcement musculaire des adultes, ainsi que sur les habitudes alimentaires du public et l'obésité, parmi de nombreux autres faits et statistiques. 88. Partenaires pour l'accès à l'information du personnel de santé publique Le projet « Partners in Information Access for the Public Health Workforce » est né de la collaboration entre des organismes de santé publique, des agences gouvernementales américaines et des bibliothèques spécialisées en sciences de la santé. Les pages thématiques de ce site abordent des sujets tels que les subventions et le financement, la promotion et l'éducation à la santé, ainsi que la littérature et les recommandations. La section « Sujets de santé publique » propose également des données sur des thèmes comme le bioterrorisme, la génomique en santé publique et la santé bucco-dentaire publique, entre autres. 89. Fondation United Health Depuis trente ans, la United Health Foundation fournit des informations sur les classements de santé, permettant ainsi d'évaluer la santé publique. Son site propose de nombreux rapports et publications, notamment sur la santé des anciens combattants, des personnes âgées, la santé des femmes et des enfants, des rapports annuels, ainsi que des notes d'information sur des sujets importants pour le secteur. La carte interactive permet d'explorer les différentes régions et d'obtenir davantage d'informations. Une barre de recherche est également disponible pour affiner la navigation si les chercheurs recherchent des informations plus spécifiques. 90. Medicare Aux États-Unis, Medicare est le principal moyen d'assurance maladie et d'accès aux soins pour de nombreuses personnes. Outre les services qu'il propose en temps réel, Medicare fournit également des données sur les normes et la qualité des soins dans les différents établissements et hôpitaux grâce à son tableau comparatif. Il s'agit de la base de données officielle utilisée par le site web Hospital Compare, et elle contient de nombreuses informations téléchargeables au format Excel pour une consultation facilitée. 91. Surveillance, épidémiologie et résultats finaux (SEER) Le programme SEER (Surveillance, Epidemiology and End Results) propose un site web particulièrement utile pour obtenir des statistiques sur le cancer. Ce site héberge des synthèses statistiques permettant d'effectuer des recherches sur les données relatives au cancer, qui peuvent être triées par localisation, origine ethnique, race, âge, sexe et même par type de données. On y trouve également des publications, des jeux de données et des logiciels que les chercheurs peuvent utiliser pour des analyses plus approfondies. 92. Amnesty International Amnesty International est une organisation qui défend depuis longtemps les droits humains et la justice dans le monde entier. Elle publie également, dans son rapport annuel, de nombreuses données sur la situation des droits humains à travers le monde, ainsi que des informations sur des atrocités et des crimes contre l'humanité commis à différentes périodes. Les chercheurs peuvent utiliser ces données pour effectuer des comparaisons entre différentes années et observer l'évolution, positive ou négative, des droits humains dans différents pays. 93. Groupe d'analyse des données sur les droits de l'homme Depuis sa création il y a 25 ans, le Human Rights Data Analysis Group applique des principes scientifiques à l'étude des violations des droits humains dans différents pays du monde. Le site héberge des publications parues dans des médias réputés comme le Washington Post, ainsi que des publications officielles des éditions Macmillan, classées par année. Outre ces publications historiques, le site recense également des projets menés à travers le monde. Pour une analyse plus technique des violations des droits humains, cette ressource est très utile. 94. Données sur les relations internationales et les droits de l'homme Ce site héberge des bases de données compilées par de nombreuses organisations, universités et agences gouvernementales réputées. Citons par exemple le Manifesto Project, le Minorities (at Risk) Project, le Comparative Welfare States District et l'Armed Conflict Database. Certains projets, comme le Polity IV Project, remontent au XIXe siècle. D'autres, tels que le Stockholm International Peace Research Institute (SIPRI), analysent les transferts d'armes, les dépenses militaires internationales et les tendances en matière de sécurité. Pour bien appréhender ces données, le mieux est de consulter le site et de l'explorer. 95. Programme de données sur les conflits d'Uppsala Le Département de recherche sur la paix et les conflits d'Uppsala (UCDP) héberge une vaste base de données : l'Encyclopédie des conflits de l'UCDP. Ce site web permet aux utilisateurs d'explorer les données déjà classées et analysées par le département. Les chercheurs peuvent consulter les articles et les télécharger pour les manipuler et les analyser plus en profondeur. Cette ressource fiable offre une information de qualité, diffusée de manière accessible. 96. Département du Travail des États-Unis Le département du Travail des États-Unis héberge de nombreuses données économiques, notamment des statistiques sur le chômage et l'emploi. Ces données comprennent des bases de données recensant les licenciements massifs, les projections d'emploi, les offres d'emploi et le roulement du personnel, les statistiques nationales sur l'emploi, ainsi que des statistiques comparatives internationales sur le marché du travail. Le site propose des informations actualisées et précises, le département du Travail assurant un suivi rigoureux. Il s'agit d'une ressource fiable, bénéficiant du soutien du gouvernement, à des fins de recherche. 97. Administration des petites entreprises L'Agence américaine pour le développement des petites entreprises (SBA) est depuis longtemps une ressource précieuse pour les entrepreneurs et les futurs entrepreneurs. Son site web regorge de statistiques sur l'emploi, ainsi que d'informations permettant aux chercheurs d'effectuer des études de marché et des analyses concurrentielles. Ils y trouveront des chiffres, des statistiques et des outils pour approfondir leurs recherches. Pour obtenir des statistiques sur les petites entreprises du point de vue de l'employeur et de l'entreprise, il s'agit d'une excellente ressource à laquelle les journalistes peuvent se référer à tout moment. 98. Crowdpac Crowdpac est une plateforme permettant aux candidats politiques de collecter des fonds et de s'organiser. Partant du constat que de nombreux candidats au Congrès se présentent sans adversaire à chaque élection, ce site permet aux citoyens engagés de mobiliser leurs soutiens. Proposant des articles traitant de sujets politiques importants comme le découpage électoral partisan, ainsi que d'autres thèmes tels que les droits civiques et la sécurité nationale, ce site offre une excellente opportunité de comprendre et de s'informer sur la scène politique locale. 99. Gallup Ce site héberge les célèbres sondages Gallup. Gallup est spécialisé dans l'analyse de données, permettant aux décideurs d'identifier et de résoudre les problèmes grâce à une approche fondée sur les données. De plus, les outils proposés par Gallup s'avèrent souvent efficaces pour orienter les solutions. Cette source est reconnue comme la référence en matière de données et d'analyse avancée. Parcourez le site pour découvrir des rapports sur des sujets variés, allant de l'état du monde du travail à l'échelle mondiale aux analyses de la productivité aux États-Unis. 100. Bibliothèque de Berkeley La bibliothèque de Berkeley propose sur son site une compilation complète de statistiques et de données pour la recherche en sciences politiques. Sur cette page, les chercheurs trouveront de nombreux liens leur donnant accès à divers ensembles de données et leur permettant également de créer les leurs. Parmi ces ensembles figurent les Statistiques historiques des États-Unis (HSUS), l'édition du millénaire, Data Planet, ProQuest Statistical Insight et le Consortium interuniversitaire pour la recherche politique et sociale. Il y a de quoi alimenter plusieurs heures de données. 101. Services d'État RAND Pour ceux qui l'ignorent, la RAND Corporation est un organisme spécialisé dans la recherche sur les enjeux des politiques publiques. Avec des clients et un portefeuille de projets couvrant tous les niveaux de gouvernement, elle constitue une source de recherche de qualité pour la prise de décision. La branche américaine de la RAND Corporation met à disposition sur son site web une base de données statistiques. Les chercheurs y trouvent des informations sur l'éducation primaire et secondaire, la santé, les entreprises et l'économie, entre autres sujets d'intérêt général. 102. Centre Roper pour la recherche sur l'opinion publique Géré par l'Université Cornell, le Roper Center for Public Opinion Research est spécialisé dans la collecte, la diffusion et la conservation de données sur l'opinion publique. À titre d'exemple, les chercheurs peuvent accéder aux données de l'élection américaine ainsi qu'à une base de données contenant plus de 23 000 ensembles de données. Que les journalistes recherchent des réactions du public à la politique ou à une récente crise sanitaire, ce site leur fournira très probablement des informations. 103. Gouvernement des transports Géré par le Bureau des transports, ce site propose des données couvrant un large éventail de sujets liés aux transports. On y trouve notamment des rapports sur l'énergie, la sécurité des passagers, la performance des systèmes, l'économie des transports, les infrastructures et le transport de marchandises. Les utilisateurs peuvent trier et consulter les données par lieu et zone géographique. Ce site permet aux chercheurs d'accéder à toutes les informations possibles sur les sujets liés aux transports. 104. Industrie du voyage Travel Trade est un site qui héberge des données sur les départs de citoyens américains entre 1996 et 2016 (date de rédaction du présent document). Ce site a pour objectif d'aider le grand public à comprendre l'évolution du tourisme mondial et international au fil des ans. Disponible en téléchargement et en consultation en ligne, il s'agit d'une ressource facilement accessible. Les chercheurs peuvent exploiter ces données pour identifier des tendances et effectuer des comparaisons. 105. Skift Skift est un site spécialisé dans la fourniture d'informations et de données au secteur du voyage. Parmi ses nombreuses sources de données, l'entreprise propose des études, des conférences et des newsletters informatives accessibles aux abonnés et aux chercheurs. Skift analyse des sujets d'intérêt pour les professionnels du voyage, tels que les destinations touristiques émergentes, l'identification de nouveaux marchés et de nombreuses informations complémentaires sur les technologies du voyage que les chercheurs peuvent explorer. 106. Geoba.se Geoba.se est le site idéal pour ceux qui recherchent des informations factuelles et objectives sur une ville ou un lieu. Grâce au moteur de recherche de la page d'accueil, trouver des coordonnées, des informations touristiques, la météo et même des images de webcams locales se fait en quelques clics. Le site propose également une page de classements mondiaux, consultables par région et par pays. En bref, c'est une ressource qui fournit des données et des statistiques précises. 107. Voyages aux États-Unis Le site US Travel, géré par le Département d'État américain, a pour mission de protéger la vie des citoyens américains voyageant à l'étranger. Il propose ainsi des statistiques, des informations et des rapports sur des sujets tels que les passeports et visas américains, les adoptions internationales, les décès survenus à l'étranger et les enlèvements parentaux d'enfants. Ces informations peuvent être utiles pour planifier un voyage, mais aussi pour identifier les tendances à long terme, les statistiques couvrant la période 1996-2016. 108. Service de données du Royaume-Uni Financée par le Conseil de recherche économique et sociale (ESRC), la collection du Service de données du Royaume-Uni (UK Data Service) publie un large éventail de données. Ce site propose des informations allant des données d'entreprises aux enquêtes internationales, en passant par les enquêtes commanditées par le gouvernement britannique et même les données du recensement britannique. Conçu pour répondre aux besoins des étudiants et des chercheurs, il met également à disposition des guides, des ressources et des tutoriels pour les aider à comprendre et à utiliser rapidement les outils disponibles. 109. Données.gov.au Géré et publié par le gouvernement australien, Data.gov.au offre un accès simplifié aux données ouvertes et permet leur recherche. Ce site indique clairement que les données gouvernementales peuvent être utilisées pour développer des outils et des applications au bénéfice des Australiens. Outre l'accès aux jeux de données ouverts, des données non publiées sont également disponibles moyennant un abonnement. Pour les chercheurs souhaitant approfondir leur analyse, le site propose également une boîte à outils de données. 110. Gazouillement Tout le monde connaît Twitter pour ses conversations rapides, ses messages courts et son rôle incontournable dans la culture populaire en tant que plateforme d'actualités. Ce que beaucoup ignorent, en revanche, c'est que Twitter propose également des outils de développement qui facilitent le filtrage et la recherche d'informations. Ces outils permettent même aux chercheurs d'analyser les tendances et de filtrer par zone géographique. Qu'il s'agisse de se renseigner sur les hashtags populaires ou d'explorer les outils de développement, Twitter est une ressource que les journalistes utilisent depuis longtemps. 111. Instagram Instagram ne se résume pas à aimer des photos de chats mignons et de bébés adorables. Du moins, ce n'est pas son but. L'application propose des outils de développement étonnamment sophistiqués qui facilitent l'analyse et l'étude de l'audience. De plus, les hashtags et les indices révélés par les photos publiées, ainsi que par les personnes identifiées, constituent une mine d'informations. Instagram est un outil précieux pour découvrir les tendances dans différents secteurs. 112. Quatre carrés Pour les recherches où la géolocalisation est essentielle, Foursquare constitue une source de données précieuse grâce à son immense base de données et à la richesse des informations qu'elle a compilées. L'application propose notamment un guide des villes qui fournit des recommandations aux utilisateurs grâce à la contribution de sa communauté. Foursquare met également à disposition des outils de développement permettant d'accéder à des informations supplémentaires via la base de données des lieux. Les journalistes peuvent ainsi en apprendre davantage sur des lieux spécifiques et sur les personnes qui utilisent l'application. 113. New York Times Considéré par beaucoup comme un membre respecté du quatrième pouvoir, le New York Times est un journal incontournable pour la plupart des journalistes. Pourtant, son API, source de données précieuse, est souvent négligée. Les chercheurs peuvent y trouver des articles remontant à 1851, classés par mois, effectuer des recherches et même consulter des critiques de livres. Cette API permet également d'effectuer des recherches par nombre de vues, de partages et d'adresses e-mail, et même de trouver et d'accéder aux commentaires. 114. AP L'Associated Press occupe une place de choix dans la culture populaire en tant que source d'informations fiables et actualisées. Grâce à ses outils de développement, elle constitue également une précieuse source de données pour les journalistes. À l'heure actuelle, les chercheurs peuvent utiliser ces outils pour effectuer leurs propres montages tout en téléchargeant des images et des vidéos. Le niveau de détail des contenus semble varier selon l'abonnement choisi, mais l'API de l'Associated Press permet néanmoins aux utilisateurs d'approfondir leurs recherches. 115. Cinq trente-huit Les journalistes connaissent peut-être déjà Nate Silver et le site FiveThirtyEight, ainsi que son modèle statistique, grâce à ses prédictions parfois inattendues mais généralement justes. FiveThirtyEight possède un dépôt GitHub qui héberge des jeux de données et le code utilisé depuis la création du site. Ces jeux de données abordent des sujets amusants, comme les données sur les conducteurs dangereux, les Avengers et une enquête sur les bonnes manières en avion. On y trouve également des fichiers traitant de sujets plus sérieux, tels que la sécurité aérienne et les crimes haineux. 116. IMDb IMDb est considéré par beaucoup comme le site web le plus complet sur l'industrie du cinéma et du jeu d'acteur. À la sortie d'un film, si les spectateurs souhaitent connaître la distribution ou connaître l'avis général du public, il y a de fortes chances qu'ils consultent ce site au cours de leurs recherches. IMDb propose également de nombreuses bases de données mises à jour quotidiennement et disponibles pour un usage commercial et non commercial. 117. KAPSARC KAPSARC est un portail de données qui héberge 923 jeux de données sur l'énergie. Ces jeux sont regroupés en plusieurs thèmes généraux : consommation et approvisionnement énergétiques, ainsi que d'autres facteurs pertinents tels que les politiques, la démographie, l'environnement, le commerce, l'eau et l'économie. Pour les chercheurs qui s'intéressent à l'énergie et à ses usages dans différents secteurs d'activité, KAPSARC constitue l'une des sources de données énergétiques les plus complètes disponibles en ligne. 118. Macroéconomie des actifs Asset Marco est un site qui fournit des données financières historiques et des indicateurs macroéconomiques. Ces données couvrent plus de 75 000 actions, devises, matières premières et obligations du monde entier. De plus, le site propose plus de 120 000 indicateurs macroéconomiques permettant aux utilisateurs d'explorer les données financières de différents pays. Outre ces données sur les marchés financiers, le site aborde également des stratégies d'investissement. Cette source est unique en raison de la richesse des informations qu'elle contient. 119. Services Web et sources de données XML du gouvernement américain Les services web et les sources de données XML du gouvernement américain sont hébergés sur le site USGovXML.com. Les utilisateurs peuvent y consulter les différentes sources de données XML et les services web mis à disposition par le gouvernement américain. Cette simple démarche de préservation garantit la transparence et l'accessibilité de ces ressources web au public. Les chercheurs qui consultent régulièrement cet index peuvent ainsi identifier des informations pertinentes en cas de modification soudaine des données XML. 120. Figshare Figshare est un site qui héberge plus de 5 000 contenus scientifiques disponibles pour la recherche et la citation universitaires. Outre ces informations, le site offre aux chercheurs un espace unique pour compiler, télécharger, stocker et gérer leurs recherches. Les mathématiques, les sciences de la santé, l'ingénierie, la chimie, les sciences biologiques et les sciences sociales figurent parmi les catégories phares. Ce site constitue une excellente source pour les journalistes en quête de ressources académiques supplémentaires. 121. Données liées LinkedData est un site dédié à l'idée de trouver de nouvelles façons de connecter des données Internet qui ne l'étaient pas auparavant. On y trouve des tutoriels, des guides et des jeux de données pour se lancer. Ces jeux de données sont tous axés sur l'implication dans la communauté des données liées et, outre la liste d'achats de données liées, la plupart sont catégorisés comme des URI déréférençables, avec ou sans le format RDF associé. Pour en savoir plus sur cette communauté, ce site est incontournable. 122. Le mineur Web Web Miner est l'outil idéal pour les chercheurs souhaitant collecter un maximum de données génériques grâce à ce programme. Ce site propose des bases de données d'exemple, comme celles recensant les restaurants américains, les codes SWIFT des banques du monde entier, les stations-service américaines, les attractions touristiques américaines et les applications Google Play, parmi d'autres listes exhaustives. Ce site permettra notamment aux journalistes de travailler plus facilement et plus rapidement sur d'énormes quantités de données et de les exploiter en un temps record. 123. Centre de données Data Hub se targue d'être une plateforme où les utilisateurs peuvent trouver et publier des données aussi rapidement et efficacement que possible. Le site héberge de nombreux ensembles de données. L'indice des prix immobiliers (Case-Shiller), le cours mensuel de l'or et les tendances actuelles du dioxyde de carbone atmosphérique sont les trois plus populaires. Outre les données, le site propose également des tutoriels permettant aux utilisateurs d'en apprendre davantage sur la navigation parmi les différents types de données disponibles. 124. Enigma Public Sur son site, Enigma Public se présente comme « la plus vaste collection de données publiques » disponible sur le web. Les ensembles de données se répartissent en quatre grandes catégories : FOIA, Données essentielles, Données d'actualité et Données confidentielles. Parmi les données disponibles sur ce site figurent les salaires des employés de la Maison-Blanche et les permis de port d'armes fédéraux en vigueur. Après avoir créé un compte gratuit, les utilisateurs peuvent accéder à toutes les catégories de données consultables. 125. Yahoo La plupart des internautes connaissent Yahoo grâce à des services comme Yahoo! News et Yahoo! Finance, parmi les nombreux sites web de l'entreprise. Ce qui intéresse les chercheurs et les journalistes, c'est que Yahoo héberge également un grand nombre d'ensembles de données, notamment les notes attribuées par les utilisateurs de Yahoo! Music (avec métadonnées sur l'artiste, l'album et le genre) et les notes attribuées par les utilisateurs de Yahoo! Movies (avec informations descriptives sur le contenu) pour n'en citer que deux. Les journalistes en quête de nouvelles statistiques trouveront forcément cette source précieuse. 126. 1000 génomes Le projet 1000 Genomes, du même nom, s'est déroulé de 2008 à 2015. Son objectif était d'identifier toutes les variations génétiques présentes chez au moins 1 % des populations étudiées. Outre les publications issues de ce projet, d'immenses ensembles de données ont été constitués : bases de données distinctes de cellules variantes, fichiers de séquences brutes et disponibilité des échantillons. Ces données peuvent être consultées ou téléchargées. 127. CBOE Le CBOE est une bourse de contrats à terme spécialisée dans les contrats à terme sur la volatilité. Le site propose notamment de nombreuses ressources concernant les contrats à terme figurant dans son indice de volatilité, une marque déposée. Il héberge des données de marché de toutes sortes, incluant des données historiques, des statistiques quotidiennes et les cours de règlement quotidiens des contrats à terme VX. Pour les journalistes en quête de données de marché de qualité, le CBOE est une plateforme qui fournit ces informations dans un format clair et accessible. 128. Réserve fédérale de Saint-Louis La Réserve fédérale de Saint-Louis est l'un des centres financiers les plus importants de sa région, si ce n'est le plus important. Sur son site web, les chercheurs peuvent consulter directement des documents de travail, des données économiques, des publications et des services d'information. En d'autres termes, ils disposent d'une mine d'informations sur la politique monétaire actuelle et passée de la Fed de Saint-Louis, ainsi que sur la possibilité d'évaluer son efficacité. Pour les journalistes économiques et financiers, il s'agit d'une ressource d'information de premier ordre. 129. OANDA OANDA est une plateforme de trading en ligne populaire, spécialisée dans les CFD et le Forex. Outre ses nombreuses fonctionnalités destinées à attirer les traders en ligne, OANDA propose également un historique complet des taux de change ainsi qu'un convertisseur de devises intégré. Le site offre par ailleurs des informations sur les stratégies d'investissement, l'actualité et l'analyse des marchés. L'accès à la plupart de ces données ne nécessite même pas de compte. 130. ABS Le Bureau australien des statistiques (ABS), à l'instar de son homologue américain, propose des données objectives, des informations économiques et des études sur un large éventail de sujets pertinents pour le pays. Directement sur son site web, l'ABS permet aux chercheurs de consulter des données statistiques sur les indicateurs économiques, la santé, le logement, la finance, le commerce international, la santé mentale, ainsi que les indices des prix et l'inflation. Les journalistes peuvent effectuer des recherches pour trouver d'anciennes enquêtes et des informations qu'ils peuvent trier par région. 131. Base de données de Londres Conçue et gérée initialement par la Greater London Authority, la base de données londonienne vise à rendre les données de Londres plus accessibles au public. L'objectif est de permettre à chacun d'accéder à ces informations et de les utiliser gratuitement et librement. Sur ce site web, les utilisateurs peuvent effectuer des recherches par thématique, notamment dans les domaines des arts et de la culture, de la criminalité et de la sécurité publique, de l'éducation et de la santé. Les journalistes intéressés par ce type de données peuvent désormais les obtenir directement auprès des autorités locales. 132. Statistiques Nouvelle-Zélande Le gouvernement néo-zélandais met à disposition des chercheurs une multitude de statistiques et de données sur ce site. Ces informations sont facilement accessibles grâce à la barre de recherche située en haut de la page, avec des filtres par lieu et région, ainsi que par sujet. Parmi les sujets abordés figurent les indicateurs économiques, la santé, les revenus et l'emploi, les secteurs d'activité, l'environnement et les entreprises. Grâce aux nombreuses sources d'information et aux communiqués présentant divers résultats et statistiques, les journalistes pourront découvrir sur ce site une mine d'informations spécifiques à la Nouvelle-Zélande. 133. Bureau de météorologie du gouvernement australien Géré par le gouvernement australien, le site web du Bureau australien de météorologie propose des informations météorologiques pour les différentes villes et régions d'Australie. Selon le site, cet organisme a été créé pour aider les Australiens à faire face aux aléas climatiques grâce à des alertes et des conseils. Les chercheurs y trouveront des prévisions saisonnières, des informations sur les réserves d'eau, les précipitations, la variabilité climatique et les débits des cours d'eau. Ce site offre une couverture fiable et précise de la météo australienne. 134. GroupLens Ce site web est mis à disposition par GroupLens, un organisme du département d'informatique et d'ingénierie de l'Université du Minnesota. Il propose des publications ainsi que des jeux de données à des fins de recherche. On y trouve au total environ six jeux de données, dont Book-Crossing, MovieLens et HetRec 2011. En bref, il s'agit d'une ressource précieuse pour les journalistes souhaitant mieux comprendre comment exploiter les données mises à leur disposition. 135. KD Nuggets KD Nuggets est un site web qui se concentre principalement sur la science des données, l'analyse commerciale, l'apprentissage automatique et l'exploration de données. On y trouve une page répertoriant l'ensemble des jeux de données utilisés pour approfondir l'exploration de données et le Big Data, notamment des jeux comme Bioassay Data, Asset Marco, DataMarket, Casualty Workbench, Data Ferrett et Datamob. C'est une ressource précieuse pour les journalistes qui préfèrent accéder à toutes les informations sur une seule page. 137. Microsoft Quiconque a déjà utilisé un PC ou un ordinateur portable a probablement entendu parler de Microsoft, au moins de manière superficielle. Fait intéressant, outre les PC, les ordinateurs portables et les logiciels, Microsoft propose également de nombreuses recherches et publications. Celles-ci incluent des avancées majeures telles que la création de machines capables de lire et d'écrire, ainsi que la science des données dans le cloud. On y trouve également des informations complémentaires sur les outils développés par Microsoft, comme Visual Studio Code Tools, et les progrès qu'ils représentent en matière d'intelligence artificielle. 138. Exploration de données R Comme son nom l'indique, R Datamining est une ressource dédiée à R et à l'exploration de données. Le site propose de nombreux exemples et documents offrant une perspective approfondie sur l'exploration de données et son utilisation avec R. On y trouve également des liens vers des formations, notamment le cours intensif proposé par l'Université de Canberra. Le site inclut des liens vers des jeux de données et des présentations gratuits, ainsi que vers des jeux de données couvrant des sujets tels que les avions, les compagnies aériennes et les itinéraires, et des liens vers des sites comme GeoDa. 139. Recherche collaborative en neurosciences computationnelles – Partage de données Le projet CRCN (Collaborative Research in Computational Neuroscience) propose plusieurs jeux de données accessibles via son site web. Ces jeux de données sont classés par régions cérébrales, telles que le cortex visuel, l'hippocampe, le cortex moteur, les données aviaires, les mouvements oculaires et les données relatives aux aplysies, pour ne citer que quelques exemples. Ces dossiers contiennent également des défis, des outils, des simulations et des méthodes. La possibilité de partager ces données en fait une ressource encore plus précieuse pour la recherche. 140. Archives de la Protein Data Bank Selon son site web, la Protein Data Bank (PDB) est une ressource de premier plan sur les acides nucléiques, les structures 3D des protéines et les assemblages complexes depuis 1971. Créée dans le but précis de maintenir ces informations dans le domaine public, elle permet aux chercheurs de consulter en ligne des rapports de validation et des dictionnaires de données. Des statistiques sur l'évolution des données et leur utilisation sont également disponibles pour le tri et l'analyse en ligne, ainsi que pour le téléchargement. Enfin, le site est constamment enrichi de nouvelles informations. 141. Le projet PubChem PubChem, projet officiel, a été conçu pour informer le public sur les propriétés biologiques des petites molécules. Le site est relié à trois bases de données : PubChem Compound, PubChem Substance et PubChem BioAssay. Il permet également de rechercher les similarités entre différentes protéines. Enfin, pour les chercheurs souhaitant approfondir leur analyse de données, le site propose des ressources de codage et des conseils gratuits. 142. Coremine Medical Coremine Medical est une ressource inestimable pour quiconque recherche des informations en biologie, santé et médecine. Grâce à l'intégration des fonctionnalités d'exploration de textes biomédicaux de PubGene, Coremine est devenu l'une des sources d'information biomédicale les plus flexibles. Ce site présente les liens entre concepts et idées dans un format visuellement attrayant et facile à comprendre, mettant ainsi en lumière des informations qui seraient autrement passées inaperçues. Il s'agit sans conteste de l'une des sources de données biomédicales les plus complètes à la disposition des journalistes. 143. Tu Tiempo Tu Tiempo est une source incroyable de données météorologiques et climatiques pour tous les pays du monde. Grâce à cette ressource, il est facile de trouver les moyennes annuelles, mensuelles et journalières pour pratiquement toutes les villes et régions du monde. De plus, les utilisateurs peuvent également effectuer des recherches dans une base de données de plus de 115 millions d'enregistrements contenant des données historiques, accessibles à tous. Selon la région recherchée, il est possible de trouver des données remontant jusqu'à 1929. 144. Ressources de réseau complexes Ce site donne accès à une grande partie des données initialement utilisées lors de ses expériences informatiques. La liste complète des jeux de données répertorie leurs types, notamment les graphes d'actualités, les graphes biologiques, les graphes de citations, les graphes de collaboration, les graphes d'ingénierie et les graphes sémantiques. La page propose également des liens vers une liste de sources riches en informations, comme le jeu de données analysant près de 3 millions de brevets américains. Enfin, elle présente une impressionnante compilation de jeux de données sur les réseaux complexes. 145. Scopus Scopus est un outil qui permet de trouver rapidement et facilement des recherches et des citations académiques. Le site offre une base de données incroyablement vaste de recherches menées dans le monde entier et dans de nombreux domaines, notamment la médecine, la technologie, les sciences sociales, les arts et les lettres. Utilisez Scopus pour identifier des sources académiques qui auraient pu passer inaperçues. En effet, dans bien des milieux, la qualité d'une source académique est presque aussi importante que l'information qu'elle contient. 146. Stanford La réputation de Stanford en tant qu'établissement universitaire prestigieux ne s'est pas construite par hasard. Son excellence transparaît notamment dans ses cours de programmation. Le site propose également de nombreux ensembles de données contenant des informations détaillées, comme des données sur les réseaux sociaux. On y trouve des ensembles de données portant sur les cercles sociaux de Facebook, les demandes d'administrateur de Wikipédia, les cercles sociaux de Twitter et Google+. Les réseaux de communication et le réseau de produits Amazon disposent également de leurs propres ensembles de données. 147. Université de Milan Le département des sciences de l'information de l'Université de Milan gère un site web, le Laboratoire des algorithmes web, qui propose de nombreuses ressources à explorer. Parmi celles-ci figurent des graphiques relatifs aux réseaux sociaux, des graphiques Facebook, des captures d'écran du projet DELIS et diverses autres données. Ces informations sont consultables en ligne et téléchargeables, ce qui en fait l'un des ensembles de données les plus accessibles du web. 148. Dépôt de données du réseau UCI Le dépôt de données de réseaux de l'UCI est un site dédié à l'étude scientifique des réseaux. Sur la page Ressources, les chercheurs trouveront des liens vers des répertoires de jeux de données sélectionnés par des organismes et des groupes de recherche, ainsi que par des individus. Il propose également une collection de jeux de données généralement utilisés pour l'analyse des médias sociaux. Les utilisateurs qui explorent ces données seront ravis de constater que ces jeux de données sont également disponibles au téléchargement. 149. CAIDA CAIDA (Center for Applied Internet Data Analysis) collecte un large éventail de données provenant de diverses sources, souvent avec l'aide de différentes organisations et personnes. Ce site héberge des ensembles de données tels que les relations entre systèmes autonomes (AS), les attaques DDoS, Telescope et d'autres données connexes. Les catégories comprennent le trafic, la topologie, la sécurité, un résumé des vers informatiques et des statistiques de trafic. L'accès à certains ensembles de données peut nécessiter une demande, mais la plupart, voire la totalité, sont publics. 150. Écrevisse Crawdad, la plateforme communautaire d'archivage de données sans fil de Dartmouth, est unique en son genre car elle met à disposition des données sans fil pour les chercheurs et toute personne intéressée par le sujet. Le site propose de nombreux outils ainsi qu'un accès à une multitude d'ensembles de données. Parmi ceux-ci figurent des ensembles de données à usage pédagogique, de caractérisation des erreurs binaires, de diagnostic de réseau, de connectivité opportuniste, d'informatique géolocalisée, et bien d'autres. Les chercheurs apprécieront d'autant plus cette ressource qu'ils l'exploreront. 151. Administration américaine de l'information sur l'énergie Souvent désignée par l'acronyme EIA, l'Agence américaine d'information sur l'énergie (EIA) a pour mission de fournir au public des données annuelles sur les services publics d'électricité. Ces données couvrent notamment les stocks de combustibles fossiles, la consommation de combustible, les informations mensuelles et annuelles sur la production d'électricité et les données environnementales. Elles sont disponibles pour analyse pour la période 2001-2017. Les chercheurs peuvent les télécharger en se connectant au site web de l'EIA. 152. Données océanographiques britanniques Financée par le Conseil national de la recherche environnementale, la base de données océanographiques britannique (BOR) est l'une des sources de données marines les plus accessibles sur Internet. Elle comprend une base de données exhaustive couvrant les courants marins, les profils CTD, les données internationales sur le niveau de la mer et même les données historiques des enregistreurs de pression de fond. De plus, la bibliothèque de données publiées offre un accès supplémentaire au catalogue. Il s'agit sans doute de l'une des sources d'information marine les plus complètes disponibles en ligne. 153. Factuel Factual fournit des données de géolocalisation à des fins publicitaires et pour une utilisation sur les plateformes mobiles. Les chercheurs s'intéresseront particulièrement aux outils de développement, notamment le kit de développement logiciel Engine Mobile (SDK), les applications professionnelles et de recherche complètes de l'Observation Graph et la Local Validation Stack. Avec un nom de site web qui souligne la passion de l'entreprise pour la collecte de données à travers le monde et la recherche de nouvelles façons de les contextualiser, Factual s'engage résolument envers les données et la découverte d'opportunités d'utilisation inédites. 154. Zones administratives mondiales La base de données géographiques des zones administratives mondiales (Global Administrative Areas) indique la localisation des différentes zones administratives du monde. Les données recueillies sont généralement utilisées dans les systèmes d'information géographique (SIG). Ces derniers comprennent les pays et sont subdivisés en provinces, comtés et départements, entre autres. Bonne nouvelle pour les journalistes : ces données sont disponibles gratuitement et peuvent être utilisées à des fins académiques et non commerciales. 155. Geonames GeoNames est un site hébergeant une base de données géographiques contenant des millions d'entrées, des caractéristiques uniques et des noms alternatifs. Proposant une option d'exportation et un accès via divers services web, cette base de données traite environ 150 millions de requêtes par jour. Grâce à ses fonctionnalités wiki, les utilisateurs peuvent facilement modifier les entrées. Ses capacités multilingues en font une ressource précieuse. 156. Données naturelles sur la Terre Natural Earth Data est un jeu de données cartographiques du domaine public, riche en informations et conçu pour les logiciels de cartographie permettant la création de cartes de pointe. Le rendu final est clair et bien organisé, et les données sont immédiatement utilisables. Ce jeu de données inclut des données de renseignement et divers thèmes de données culturelles, raster et vectorielles physiques. Initialement conçu pour répondre aux besoins et aux préférences des cartographes, il est utile à toute personne intéressée par la géographie. 157. Carte OpenStreetMap OpenStreetMap est moins un site web qu'une collaboration entre utilisateurs qui fournit désormais des services de cartographie à des applications, des sites et divers appareils. Ce site s'enrichit de nouvelles données lorsque les utilisateurs saisissent des informations sur des points d'intérêt moins connus, tels que les gares, les routes et les sentiers. L'ensemble des données est disponible gratuitement sur le site et peut être téléchargé en totalité ou en partie. Pour ceux qui choisissent de télécharger partiellement les données, il est également possible de les télécharger par région. 158. Ville de Chicago Chicago, ville des Bulls de Michael Jordan, champions de la NFL, et réputée pour sa pizza unique, possède également son propre portail de données. Les catégories de données couvrent un large éventail de sujets, notamment l'administration et les finances, l'éthique, la santé et les services sociaux, les parcs et les loisirs, la sécurité publique et la préservation du patrimoine. En bref, le portail de données de la ville de Chicago héberge pratiquement tout ce qui pourrait intéresser les chercheurs, les décideurs politiques et les journalistes locaux. 159. CKAN CKAN est la plateforme en ligne qui centralise le projet de données ouvertes de la ville de Glasgow. Ce site propose des ensembles de données sur de nombreux sujets, utiles aux entrepreneurs, aux décideurs politiques, aux chercheurs et aux développeurs d'applications. Parmi les 360 ensembles de données hébergés, certains concernent la gouvernance urbaine, comme le parc immobilier par type d'occupation, tandis que d'autres, tels que les données sur le cyclisme, présentent un intérêt particulier pour les habitants. On y trouve également une mine d'informations pour les journalistes couvrant l'actualité locale. 160. Gouvernement de l'Inde Le gouvernement indien propose un site web qui recense des ressources analytiques et de données dans le cadre de son projet Open Data. Actuellement, environ 137 940 ressources y sont disponibles et ont été consultées des millions de fois. La grande majorité de ces fichiers peuvent également être téléchargés. Que vous recherchiez des chiffres sur le budget de l'État ou des ensembles de données relatifs à la santé et au bien-être familial, vous trouverez certainement sur ce site les ressources dont vous avez besoin. 161. Statistiques SA Ce site regorge de statistiques, de publications et de données actualisées recueillies par le gouvernement sud-africain. Les chercheurs y trouveront des informations sur des sujets variés, allant des enquêtes sur l'alimentation et les boissons aux indicateurs économiques, en passant par les statistiques de l'emploi, les chiffres de population et les principales statistiques de santé. Il est possible d'effectuer des recherches par ville, thème et indicateur, selon les besoins. Ce site propose de nombreuses informations sur le recensement et met également à disposition des publications statistiques, des questionnaires, des codes et classifications, ainsi que des informations sur la politique tarifaire. 162. Élaboration de politiques et recherche Ce site est publié sous l'égide du Bureau de la recherche et du développement des politiques du Département américain du logement et du développement. Il publie régulièrement chaque année de nombreuses études de cas, des publications semestrielles et des périodiques. Il propose également un grand nombre d'ensembles de données susceptibles d'intéresser les journalistes, notamment sur les loyers de marché, les plafonds de revenus et les facteurs d'inflation pour le financement du renouvellement des logements. 163. Données vitales sur la santé en ligne Sur Vital Net Health Data, les chercheurs trouveront de nombreux ensembles de données de santé de grande envergure. Ce site n'héberge pas l'intégralité de ces ensembles, mais propose des liens vers des ressources consultables pour y trouver des informations. Cette liste, soigneusement sélectionnée, renvoie vers des plateformes telles que CDC Wonder, Eurocat, Health Data All Star, ainsi qu'aux travaux d'organismes caritatifs comme la North American Association of Central Cancer Registries. Il s'agit sans conteste de l'une des ressources de données de santé les plus complètes disponibles. 164. Pont analytique Analytic Bridge est une ressource dédiée à l'intelligence d'affaires. Les chercheurs y trouveront des discussions sur l'apprentissage automatique et l'IA, des liens vers des webinaires et des conférences, ainsi qu'une section dédiée à la recherche d'emploi. Le site héberge également Data Science Central, une section consacrée au Big Data. Grâce à sa communauté active et engagée et à son souci de fournir des actualités et des informations, les journalistes intéressés par les implications des données pour les entreprises ont tout à y trouver leur compte. 165. Archive.org Principalement connu pour ses efforts visant à devenir une bibliothèque publique en ligne, archive.org héberge de nombreuses publications ainsi qu'une importante collection de données. Le site propose les résultats du recensement Internet de 2012, les archives du Dark Net Market de 2011 à 2015, et même un ensemble de données de commentaires publics de Reddit. On y trouve également des données extraites de Music Brainz et un ensemble de données contenant des images de pochettes d'albums. Grâce à ses publications et à ses données, archive.org offre une mine d'informations aux journalistes. 166. Torrents académiques Ce site web se présente comme un système conçu pour faciliter le partage et le téléchargement de vastes ensembles de données. Utilisant la technologie torrent pour simplifier la distribution des données, Academic Torrents se targue de permettre aux chercheurs de télécharger rapidement tout ce dont ils ont besoin. Le site propose également des articles, des cours et des collections consultables. Une simple recherche parmi les ressources disponibles révélera la multitude d'ensembles de données et de collections téléchargeables. 167. Dataverse La meilleure façon d'appréhender Dataverse est de le considérer comme une bibliothèque à part entière. Les chercheurs peuvent y rechercher, découvrir et citer des données facilement, tout en utilisant ce site comme un dépôt pour leurs propres informations. Les domaines couverts incluent les sciences sociales, les sciences agricoles, la médecine, la santé et les sciences de la vie, ainsi que les sciences de la Terre et de l'environnement. Parmi les publications de renom présentes sur ce site figurent Gallup et le Bureau du recensement du département du Commerce des États-Unis (division de la géographie). 168. UC DATA Gérée en collaboration avec le Laboratoire de données en sciences sociales de l'UC Berkeley, UC Data est la plus grande et la plus réputée des archives de l'université. Ce site propose des ressources en statistiques et en données de sciences sociales. Les chercheurs peuvent y consulter les articles, rapports et documents de travail produits par les chercheurs d'UC Data. Les données brutes couvrent de nombreux domaines de recherche, notamment la santé, la protection sociale, la démographie, le vote et les technologies de l'information. 169. Camp de blagues Joe Kamp propose un guide complet pour trouver des données et des API relatives au football et au soccer à des fins d'analyse. En suivant les liens fournis sur la page, les chercheurs accèdent à des données open source disponibles sur GitHub, ainsi qu'à des API gratuites et commerciales pour faciliter leur utilisation. Grâce à la disponibilité des données et du code sur une plateforme reconnue comme GitHub, obtenir ce type de données n'a jamais été aussi simple. 170. Sean Lahman Le nom de Sean Laham n'est peut-être pas très connu du grand public, mais son site propose l'une des bases de données statistiques les plus complètes et détaillées sur les performances au bâton et au lancer disponibles sur Internet. Couvrant la période de 1871 à 2016, les données remontent littéralement à plusieurs siècles. Elles sont accessibles et utilisables gratuitement sous licence Creative Commons Attribution-Partage à l'Identique 3.0 et peuvent être téléchargées directement au format SQL et Microsoft Access, entre autres. Ces statistiques sont également disponibles sur GitHub. 171. Feuille rétro Retro Sheet est l'une des sources les plus complètes sur Internet concernant les statistiques et les données du baseball. Le site inclut des informations détaillées telles que les effectifs annuels et l'identification des arbitres, des joueurs et des entraîneurs. Pour les années où il était pertinent, les données du match des étoiles étaient incluses dans les fichiers d'événements, ainsi qu'un ensemble de fichiers pour les séries éliminatoires et un petit fichier répertoriant les écarts. Retro Sheet possède même l'identification des stades pour chaque saison. Impressionnant, non ? 172. Défi de données Hubway Pour ceux qui connaissent moins le programme, Hubway est le nom du service de vélos en libre-service basé dans la région métropolitaine de Boston. Bien que le système n'ait pas enregistré ni diffusé d'informations personnelles, Hubway possède néanmoins les informations de base sur tous les trajets effectués entre juillet 2011 et septembre 2012. Ces informations comprennent notamment le point de départ et d'arrivée, ainsi que la station de prise en charge. 173. Vols ouverts Open Flights est une base de données recensant plus de 10 000 terminaux de ferry, aéroports et gares ferroviaires à travers le monde. Les chercheurs peuvent accéder à la version .csv compatible avec Excel via GitHub et télécharger les données directement sur le site web. La carte interactive de la page d'accueil permet de visualiser les lieux répertoriés, et le site propose même des informations sur les itinéraires. Pour obtenir des informations plus récentes, il est possible de contacter les administrateurs du site. 174. MLVIS MLVIS est un référentiel de données qui combine l'analyse visuelle et l'exploration de données en temps réel. Il permet ainsi d'obtenir une compréhension plus intuitive des données, même avec des ensembles de données volumineux. Données de référence, apprentissage automatique sur données non relationnelles et différents types de données (attribuées, hétérogènes, etc.) figurent parmi les nombreuses fonctionnalités et options disponibles sur ce site. Pour plus de commodité, ces informations peuvent également être téléchargées dans un format unique et cohérent. 175. Création des données ouvertes Open Data Inception est un site qui propose des liens vers plus de 2 600 portails de données. Grâce à la barre de recherche située en haut de la page, les chercheurs peuvent rechercher des portails et des jeux de données par catégorie et par thème. De plus, le site permet également de trouver la version la plus récente du jeu de données recherché. Profitez de la possibilité de consulter les portails de données sous forme de liste ou de visualisation interactive et commencez dès maintenant à trouver les données dont vous avez besoin. 176. OpenDataSoft Disponible en français, en anglais et en allemand, OpenDataSoft est une ressource qui donne accès à 480 millions d'enregistrements, 4 millions de cellules API et 9 284 jeux de données. Grâce à la barre de recherche située au centre de la page d'accueil, les chercheurs peuvent saisir un mot-clé ou une catégorie et trouver le jeu de données le plus pertinent. Pour les journalistes, c'est un moyen rapide de trouver les jeux de données les plus utiles à leurs recherches. Visitez le site pour en savoir plus. 177. Nationmaster NationMaster est une source de données complètes provenant de plus de 300 pays et organisées en plus de 5 000 catégories. Ces données couvrent des sujets aussi variés que le pourcentage de décès enregistrés, les statistiques de la Seconde Guerre mondiale, et même des informations sur la guerre et les essais nucléaires. Les chercheurs y trouveront également des tableaux, des graphiques et des diagrammes circulaires permettant une visualisation plus poussée des données. En bref, la multitude de sujets abordés garantit des découvertes constantes. 178. Followerwonk Twitter est depuis longtemps un réseau social populaire pour suivre l'actualité et découvrir les sujets tendance. Followerwonk permet aux utilisateurs d'optimiser leur utilisation de Twitter. Il leur permet notamment de trouver des utilisateurs avec lesquels interagir, d'analyser leurs abonnés actuels et de planifier leurs activités sur Twitter pour un impact maximal. De nombreux journalistes utilisent aujourd'hui Twitter pour développer leur réseau et diffuser leurs informations. Followerwonk contribue à améliorer la productivité des utilisateurs de Twitter. 179. Infochimps Infochimps est un site proposant des services cloud modulables permettant d'exploiter au mieux le potentiel du Big Data. Il s'avère particulièrement utile pour le déploiement et l'intégration de technologies et d'applications Big Data. Pour les chercheurs effectuant des recherches dans d'immenses volumes de données ou évaluant les tendances du Big Data, cette ressource est inestimable. Le site met également à disposition de nombreux livres blancs et études de cas. 180. Statistiques archivées du gouvernement national Fondé en 2006, Archive-It est un service proposé par Internet Archive. Ce service aide les organisations et les entreprises à créer des collections numériques et a ainsi pu collaborer avec des associations, des établissements d'enseignement supérieur et des gouvernements. Les chercheurs peuvent consulter différentes archives sur le site, comme les sites web de la campagne des candidats au Congrès de 2014, les archives de l'État d'Alabama et les archives web du Réseau d'information publique du gouvernement canadien (PLN). Ce site constitue une véritable mine d'informations pour les journalistes curieux. 181. Espaces communs civiques Civic Commons propose une page recensant les différentes initiatives gouvernementales d'ouverture des données. Cette liste de ressources, consultable par pays, ville et région, mentionne également les ressources mises à disposition par les organisations intergouvernementales. Pour les journalistes, ce site représente un moyen rapide d'identifier les gouvernements participant au projet Open Data. Il donne également accès à des données localisées qui ne seraient pas forcément visibles lors d'une simple recherche Google. 182. Gouvernements mondiaux du Gardien Le Guardian est un nom célèbre dans le monde du journalisme, notamment pour ses révélations exclusives. Ce que l'on sait moins, c'est que le site propose une section consacrée aux données sur les gouvernements du monde entier. On y trouve des articles sur l'impact du nombre de sans-abri, des analyses sur la cybersécurité, et même des réflexions approfondies sur le rôle des données et des statistiques dans le contexte politique et social actuel. La section « Gouvernement mondial » du Guardian est un excellent point de départ pour des débats et pour trouver des angles d'approche originaux. 183. Données ouvertes du gouvernement (hub) Ce site appartient à un groupe affilié à la Fondation Open Knowledge, dont l'objectif est d'encourager et de soutenir le développement continu des données ouvertes publiques. Les utilisateurs y trouveront des liens vers l'un des catalogues de données ouvertes les plus complets. Parmi les autres objectifs mentionnés sur le site, le groupe s'attache également à recenser les informations relatives aux politiques, aux bonnes pratiques et aux lignes directrices. Il offre aux journalistes un accès privilégié à une information plus riche et de meilleure qualité. 184. Gouvernement ouvert – France Ce site web héberge le projet d'ouverture des données proposé par le gouvernement français. Il est possible d'explorer ces données en effectuant des recherches par catégories telles que l'emploi, l'agriculture, l'éducation, les voyages et le tourisme. Ces données permettent d'affiner la compréhension de leur signification et d'établir des comparaisons avec les données historiques. En résumé, les journalistes ont toutes les raisons d'être enthousiastes à l'idée de consulter ces données. 185. Université de Notre Dame Ce site héberge les données de recherche disponibles grâce à l'utilisation de SourceForge.net par l'Université de Notre Dame. Ces données sont accessibles via des bases de données relationnelles. Les mises à jour mensuelles permettent également de mieux comprendre les logiciels libres et leurs applications. Pour accéder à ces informations, une demande écrite doit être formulée par courriel. Seuls les chercheurs universitaires et académiques sont autorisés à consulter ces données. 186. Rapports d'OVNI Le Centre national de signalement des OVNI possède une base de données en ligne recensant les témoignages d'observations d'objets volants non identifiés. Les chercheurs peuvent affiner leurs recherches grâce à quatre critères : la date, la forme de l'OVNI, la date de publication et même l'État. Les OVNI fascinent le public et continuent de captiver son imagination. Si des rencontres récentes avec des objets du troisième type ont eu lieu près de chez vous, vous trouverez ici des témoignages. 187. WikiLeaks Célèbre et tristement célèbre dans les médias en raison des controverses et des révélations de ses fuites sur les rouages du gouvernement et d'autres personnalités influentes, WikiLeaks jouit d'une réputation qui le précède. Bien que les publications de données soient rarement discrètes, personne ne remet jamais en question leur exactitude. Pour les journalistes en quête de sujets sensationnels, WikiLeaks est une source inépuisable. À tout le moins, cela promet une lecture passionnante. 188. Le Washington Post Le Washington Post est déjà reconnu comme une excellente source d'actualités et d'articles d'opinion, mais peu savent qu'il donne accès aux données brutes souvent citées dans ses articles. Sur la page dédiée aux données, les chercheurs peuvent trouver des informations classées par catégories : éducation, recensement, santé et sécurité, transports et développement, bases de données historiques sur la Coupe du monde, et même des chiffres relatifs à la politique et au gouvernement. En clair, l'accès à ces données permet de mieux appréhender les enjeux de l'actualité. 189. Données climatiques Les données climatiques constituent un ensemble de données exhaustif sur la température mondiale. Dans sa version actuelle, les utilisateurs peuvent consulter toutes les informations climatiques importantes grâce aux grilles, ainsi que les moyennes. Les données complémentaires relatives aux terres émergées et aux océans sont également disponibles. Ces informations peuvent être téléchargées, mais peuvent aussi être consultées directement sur le site pour plus de commodité. 190. Structure protéique Protein Structure est une ressource qui explore l'utilisation des réseaux informatiques en biologie. Le site propose un répertoire de données accessibles via les liens fournis. Les chercheurs s'intéresseront particulièrement à la manière dont il intègre des concepts tels que l'analyse de modèles et la biologie exécutable. Les journalistes y trouveront également des informations précieuses pour suivre l'évolution du sujet et analyser les données. 191. Analysez gratuitement les données d'enquête Grâce à ce site, les utilisateurs peuvent suivre une formation gratuite à l'analyse des données d'enquête. Le site « Analyser les données d'enquête gratuitement », avec sa table des matières détaillée, propose des sections intitulées « Cartes et art de l'enquête – Maintien des pondérations », « Équilibrer la confidentialité des répondants et la précision de l'estimation de la variance », « Modèles d'équations structurelles (SEM) » et « Données d'enquête complexes ». Il constitue une excellente remise à niveau pour ceux qui prévoient de traiter davantage de données statistiques à l'avenir. 192. UCLA Sur le site wiki de l'UCLA, les chercheurs trouveront de nombreux jeux de données disponibles à des fins de démonstration. Un large éventail de données simulées et observées est proposé. Grâce à ces ressources, il est possible d'accéder à des données climatiques, démographiques, biomédicales, de neuro-imagerie, de recensement américain, électorales et économiques, parmi de nombreuses autres catégories. En définitive, ces jeux de données constituent une ressource précieuse pour un grand nombre de personnes. 193. Université de Toronto Sur son site web, l'Université de Toronto offre aux chercheurs l'accès aux ensembles de données Delve. Ces collections de données faisaient partie d'un projet plus vaste conçu pour comparer les méthodes d'apprentissage. Ces informations servent au développement et à l'évaluation des différentes approches pédagogiques. En bref, il s'agit d'une ressource précieuse pour les chercheurs souhaitant mieux comprendre comment analyser et traiter les ensembles de données. 194. Service de conservation des ressources naturelles Le Service de conservation des ressources naturelles (NRCS) propose un site web dédié à la promotion de la conservation, offrant des informations sur les différentes mousses, anthocérotes, plantes vasculaires, lichens et hépatiques présentes aux États-Unis. Ce site héberge une base de données complète de plantes et d'images, ainsi que de nombreuses informations. Les chercheurs peuvent télécharger cette base de données et trouver une mine d'informations sur des sujets tels que les cultures alternatives. En résumé, ce site web contient tout ce que les passionnés de botanique peuvent souhaiter savoir. 195. Service de recherche agricole Comme son nom l'indique, ce service gère les besoins de recherche du ministère de l'Agriculture des États-Unis. Lorsqu'un problème agricole est identifié, c'est généralement cet organisme gouvernemental qui contribue à trouver une solution. Le site propose de nombreux ensembles de données accessibles et téléchargeables directement. Les journalistes peuvent également s'y référer pour se tenir informés des dernières actualités concernant les enjeux agricoles. 196. Bibliothèque d'images cellulaires Ce site propose une bibliothèque publique offrant des ressources, des informations et un accès à des images et des animations illustrant les cellules et leurs processus. Conçue pour la recherche et l'éducation, cette bibliothèque propose des informations pertinentes lors de discussions sur la santé publique et les maladies. Les documents proviennent de diverses sources, notamment des publications anciennes et modernes. Pour une explication détaillée qui simplifie les processus biologiques complexes, la Cell Image Library est une ressource précieuse pour les journalistes. 197. Génomique complète Ce site web appartient à une entreprise qui se considère comme un acteur majeur du secteur des biotechnologies, plus particulièrement dans le domaine du séquençage du génome humain. Fait intéressant, Complete Genomics a rendu publiques plusieurs séquences complètes de génomes. Celles-ci offrent de précieuses informations sur l'ADN et le génome humain séquencé. La seule condition est que les chercheurs qui utilisent ces données citent correctement Complete Genomics. 198. Tableau Express ArrayExpress est un dépôt qui stocke les résultats d'expériences de génomique ayant nécessité un séquençage ou un traitement massif. Sur ce site, les utilisateurs trouveront les résultats de plus de 70 000 expériences, correspondant à plus de 2 millions d'essais, répartis sur plusieurs téraoctets de données. Mieux encore, ces informations sont librement réutilisables à des fins de recherche. Il s'agit d'une ressource précieuse pour se tenir au courant des dernières avancées en génomique. 199. Encoder L'Encyclopédie des éléments d'ADN, ou Consortium ENCODE, est le fruit d'une collaboration internationale entre plusieurs équipes de recherche. Son objectif est de recenser l'ensemble des éléments fonctionnels du génome, notamment par une analyse approfondie des niveaux d'ARN, des protéines, des éléments régulateurs cellulaires et de l'activité des gènes. Elle propose des données consultables ainsi qu'une encyclopédie fournissant des informations complémentaires. 200. Ensemble de génomes Ensemble Genomes est un site créé en 2000 et consacré aux génomes des vertébrés. Au fil des ans, cette ressource s'est enrichie d'informations complémentaires sur les métazoaires invertébrés, les plantes, les bactéries et les champignons. Les données relatives à tous ces sujets sont accessibles via les liens disponibles sur le site. Ce dernier propose des tutoriels, des jeux de données couvrant tous les thèmes abordés, ainsi qu'une collection de documents consultables. Autant d'atouts qui font d'Ensemble Genomes une source de données précieuse pour les journalistes. 201. Consortium d'ontologie génétique Gene Ontology est un site web dédié à la modélisation informatique des connaissances actuelles sur le fonctionnement des gènes. Il propose de nombreuses publications et une documentation complémentaire accessible à tous. Des annotations sont disponibles directement sur le site. Bonne nouvelle pour les chercheurs souhaitant analyser les données brutes : des fichiers peuvent être téléchargés directement depuis le site. 202. Bibliothèque de signatures cellulaires intégrées basées sur le réseau Le centre LINCS de la faculté de médecine de Harvard a pour mission d'aider la communauté scientifique et le grand public à mieux comprendre comment les cellules humaines réagissent aux perturbations médicamenteuses. Grâce à la base de données LINCS et à l'outil d'exploration de projets, les chercheurs peuvent consulter des publications, des résumés de projets et des ressources générales. Les journalistes peuvent également utiliser ce site pour se tenir informés des dernières actualités et informations issues de ces recherches. 203. Projet sur la diversité du génome humain Le Projet de diversité du génome humain a réalisé d'importants progrès grâce aux efforts du Centre du génome humain de Stanford. Le site propose des milliers d'échantillons et de marqueurs. Ces données peuvent être téléchargées, visualisées et analysées en détail en suivant simplement les liens disponibles sur la page. Il s'agit d'une ressource précieuse pour les journalistes souhaitant accéder aux informations issues de la recherche. 204. JCB DataViewer JCB DataViewer permet aux personnes intéressées par le Journal of Cell Biology de consulter les données d'images associées aux articles publiés. Le site propose une galerie complète que l'on peut parcourir pour visualiser les documents. De plus, les utilisateurs ont la possibilité d'effectuer une analyse plus approfondie des données pendant leur navigation. En résumé, ce site est idéal pour comprendre les références et les figures présentes dans les articles de la revue. 205. Portail de données Genomic Data Commons Le portail de données du GDC est une plateforme conçue pour aider les chercheurs et les spécialistes de la bio-informatique à mener plus efficacement leurs recherches sur le cancer. Il comprend des archives, une API, ainsi que des documents consultables. Accéder à ce site permet de consulter les mêmes informations que celles utilisées par les chercheurs en cancérologie. Les journalistes y trouveront toutes les données dont ils ont besoin, et bien plus encore. 206. Opensp OpenSP est un projet communautaire conçu pour le partage de génotypes. Les personnes ayant fait établir leur génotype par FamilyTreeDNA, 23andMe ou deCODEme peuvent télécharger ces informations sur le site. L'objectif est de permettre à OpenSP d'étudier les liens possibles entre les génotypes et les SNP (polymorphismes nucléotidiques simples). Un aspect particulièrement intéressant pour les journalistes est la possibilité de télécharger et d'explorer ces données. 207. Guide du chemin Pathguide est un site dédié à l'information sur les voies métaboliques et de signalisation, ainsi que sur les interactions protéiques au niveau moléculaire. Cette page propose une liste d'environ 697 ressources sur ce sujet. Les bases de données référencées sont généralement accessibles gratuitement. La plupart des références présentées portent sur les interactions protéine-protéine. Ce site constitue une ressource précieuse pour les passionnés de biologie. 208. RCSB PBB Ce site a pour vocation d'informer les chercheurs et le grand public sur tout ce qui concerne les acides nucléiques et les protéines. La banque de données protéiques RCSB offre un accès à divers outils conçus pour faciliter la compréhension de cet aspect de la biologie, notamment des outils de visualisation, la visualisation de structures 3D et une base de données entièrement consultable, classée par organisme. De plus, ce site propose des actualités mises à jour sur les dernières avancées dans ce domaine. 209. Consortium de génomique psychiatrique Le Consortium de génomique psychiatrique est le fruit d'une collaboration entre des chercheurs et des scientifiques du monde entier qui travaillent sur la composante génétique des troubles psychiatriques. Ce projet a permis la publication de 17 articles principaux et de 31 articles complémentaires présentant des analyses et des méthodes secondaires, aboutissant à un article de référence. Le Consortium propose des outils, des téléchargements et un accès aux résultats via son portail d'accès aux données, sur demande. 210. Chimie Publique PubChem est une référence dans le domaine de la recherche médicale et biologique depuis longtemps. Offrant la possibilité de rechercher des structures ainsi que des composés, des bioessais et des substances, ce site est un outil incontournable pour les chercheurs. De plus, chacune de ces bases de données contient des millions d'entrées. Ces informations sont consultables grâce à des outils tels que les outils de modélisation 3D des conformères et les outils de bioessais. Les données sont également disponibles au téléchargement. 211. COSMIQUE Comme son nom l'indique, le Catalogue des mutations somatiques dans le cancer (COSMIC) est consacré à la documentation et à l'étude des effets des mutations somatiques sur le cancer. Le site permet d'effectuer des recherches dans COSMIC par type de cancer, gène et mutation. Il propose des outils tels que le navigateur génomique et le navigateur de cancers. De plus, des données sur la curation des gènes, la résistance aux médicaments, les criblages génomiques, les signatures mutationnelles et la curation des fusions de gènes sont disponibles en téléchargement sur le site. 212. Génomique de la sensibilité aux médicaments dans le cancer Le projet « Génomique de la sensibilité aux médicaments anticancéreux » vise à identifier des biomarqueurs permettant aux médecins de déterminer le type de médicament anticancéreux auquel les patients sont les plus susceptibles de répondre. Les journalistes peuvent consulter l'onglet « Actualités » pour se tenir informés des nouvelles données et des modifications apportées au site. On y trouve également une compilation de données sur les lignées cellulaires, une base de données recensant les caractéristiques du cancer, ainsi qu'une liste de composés, toutes consultables sur le site. 213. Institut Stowers de recherche médicale Le site web du Stowers Institute for Medical Research offre aux chercheurs un accès gratuit aux données utilisées par ses scientifiques, chercheurs et génomiques pour leurs publications. L'institut insiste sur le fait que le Stowers Original Data Repository est généralement accessible gratuitement au grand public. Cependant, certains des fichiers les plus volumineux de la base de données peuvent ne pas être accessibles directement via Internet et nécessiter des démarches supplémentaires. 214. Base de données SSBD La base de données SSBD (Systems Science of Biological Dynamics) propose un ensemble d'outils et de ressources pour l'analyse d'images microscopiques et l'évaluation de données biologiques quantitatives. Les images disponibles sur ce site proviennent de sources variées et représentent des objets tels que des cellules, des molécules uniques et des noyaux d'expression génique. Les données étant issues de simulations informatiques et d'expériences, les journalistes ont l'assurance que les informations sont constamment mises à jour et affinées. 215. Partage des génomes personnels Le Personal Genome Project est un site web dédié à la création de données ouvertes et accessibles au public sur la santé, le génome et les caractéristiques génétiques. Poursuivant le projet grâce à la contribution de personnes ayant volontairement rendu publiques leurs informations génomiques, ce site met gratuitement à disposition du public les données qu'il a collectées. Au-delà de l'aspect scientifique, ce projet offre aux journalistes un aperçu intéressant des conséquences de la création d'un registre public d'informations génomiques personnelles. 216. Navigateur génomique UCSC Le navigateur génomique de l'USCS permet de visualiser les assemblages de génomes. Outre la consultation en ligne, le site propose des liens permettant de télécharger les séquences et les annotations de ces mêmes assemblages. Ces liens sont classés par catégories : humain, mammifères, autres vertébrés, deutérostomiens, insectes, nématodes, autres génomes et autres téléchargements. Les outils et répertoires de ce site sont gratuits pour un usage personnel et non commercial. Les journalistes peuvent tirer profit de l'exhaustivité et de l'accessibilité de ces informations. 217. UniProt La ressource universelle sur les protéines, plus connue sous le nom d'UniProt, est la plateforme de référence pour l'information sur le séquençage et l'annotation des protéines. S'appuyant sur les données fournies par trois bases de données (UniProt Reference Clusters, UniProt Knowledgebase et UniProt Archive), ce site propose notamment des recherches par peptide et par cluster. Les journalistes peuvent l'utiliser pour vérifier, découvrir et approfondir leurs connaissances sur les dernières avancées dans le domaine du séquençage et de l'annotation des protéines. 218. Données de l'indice climatique des actuaires L'Indice climatique des actuaires (ICA) fournit au grand public et aux décideurs des informations sur les tendances climatiques et les effets des changements climatiques au Canada et aux États-Unis. Les chercheurs peuvent consulter les données de cet outil pédagogique pour identifier et analyser les changements importants affectant les milieux marins et météorologiques. Il est possible d'affiner la recherche par régions et par composantes. Ce site dispose de données couvrant plusieurs décennies et est mis à jour trimestriellement. 219. Centre météorologique aéronautique Le Centre météorologique aéronautique fournit des informations météorologiques précises, actualisées et fiables pour le système aérien. Sur ce site, les utilisateurs peuvent consulter divers graphiques, prévisions et observations météorologiques présentés de manière à être facilement compréhensibles par les aviateurs. Il est possible de visualiser en temps réel les données issues des sources du site, au format CSV ou XML. Les chercheurs peuvent ainsi analyser et manipuler les données brutes plus en détail. 220. Unité de recherche climatique Le site web de l'Unité de recherche climatique a pour unique but de mener des recherches sur les effets passés du changement climatique, d'en étudier les causes et de trouver des solutions aux problèmes actuels liés au changement climatique. On peut y consulter les résultats de ces recherches, obtenir une vue d'ensemble du sujet grâce aux fiches d'information, lire des publications et même accéder aux données brutes. Les journalistes à la recherche de données météorologiques brutes trouveront là une ressource précieuse. 221. Évaluation et ensemble de données sur le climat européen Sur le site web de l'Évaluation et des données climatiques européennes, le public peut consulter des informations sur les changements climatiques et météorologiques extrêmes. Les chercheurs ont la possibilité d'utiliser l'outil de recherche du projet, appelé KNMI Climate Explorer, pour vérifier les données, examiner les prévisions saisonnières et analyser plus en détail les effets d'El Niño, entre autres applications. Ces données étant mises à jour quotidiennement, les journalistes qui les utilisent seront les premiers informés de tout signe de changement climatique extrême. 222. Services de navigation d'imagerie mondiale Le service Global Imagery Browse Services (GIBS) est un élément essentiel d'EOSDIS. Il fournit des services d'imagerie réactifs et conformes aux normes de la communauté scientifique. En d'autres termes, GIBS permet à tous d'interagir avec des images satellites haute définition prises depuis pratiquement n'importe quel point du globe. Grâce aux données de sciences de la Terre de la NASA, EOSDIS GIBS facilite plus que jamais l'accès à l'information en temps réel pour les journalistes et les chercheurs. 223. Climat et écosystème de Béring Ce site web, géré par l'Agence américaine d'observation océanique et atmosphérique (NOAA), fournit aux journalistes et aux chercheurs toutes les informations nécessaires sur l'impact des changements climatiques et environnementaux sur la mer de Béring. On peut y consulter des articles, des projections et utiliser un outil de données en ligne pour observer l'évolution de divers indicateurs climatiques, biologiques, atmosphériques et océanographiques, ainsi que des données relatives à la faune et la flore de la mer de Béring. 224. NCEI Le NCEI, ou Centres nationaux d'information environnementale, est le fruit de la fusion des trois centres de données de la NOAA (Administration nationale des océans et de l'atmosphère). Cette page propose une série de liens répartis en 22 catégories, permettant d'accéder à différentes ressources, pages d'intérêt et ensembles de données climatiques et météorologiques. Les journalistes en quête d'informations sur le climat, les tempêtes, les précipitations et de nombreux autres phénomènes météorologiques trouveront probablement ici ce qu'ils cherchent. 225. Laboratoire de recherche sur le système terrestre La Division de la surveillance mondiale de l'Agence américaine d'observation océanique et atmosphérique (NOAA) fournit des informations sur les tendances à long terme des facteurs de changement climatique sur Terre grâce à la surveillance de paramètres atmosphériques clés. Parmi ceux-ci figurent notamment le monoxyde de carbone, le méthane, l'oxyde nitreux et le dioxyde de carbone. Ces paramètres servent ensuite à mesurer des phénomènes tels que l'appauvrissement de la couche d'ozone à long terme, les sources et les niveaux de dioxyde de carbone, ainsi que les puits de carbone. Il s'agit d'une ressource sur le changement climatique que les journalistes peuvent utiliser. 226. WorldClim – Données climatiques mondiales Vous cherchez une meilleure façon de visualiser les données climatiques ? WorldClim est un fournisseur de logiciels proposant des données gratuites, utilisables pour la modélisation spatiale et la création de cartes. La version actuelle de ce logiciel gratuit est limitée au climat actuel, tandis que l'ancienne version permet d'accéder aux données climatiques passées et actuelles, et de consulter les prévisions climatiques futures. Les journalistes peuvent télécharger le logiciel en suivant le lien. 227. Laboratoire de découverte des connaissances Le Laboratoire de découverte des connaissances est un site dédié au développement de technologies innovantes, aux principes fondamentaux de l'apprentissage automatique et à l'application de ces connaissances à des domaines pratiques tels que la science des réseaux, la détection de la fraude et l'analyse de données scientifiques. Le site héberge un ensemble de données conséquent dans la DBLP, comprenant 1,2 million d'objets et 2,48 millions de liens. Cet ensemble de données constitue une ressource précieuse pour les chercheurs intéressés par les objectifs du Laboratoire de découverte des connaissances. 228. Défi de mise en œuvre de DIMACS Le site web du 9e Défi d'implémentation vise à aider les chercheurs à résoudre les problèmes de plus court chemin. Ses créateurs l'ont conçu avec deux objectifs principaux : identifier les meilleures solutions reproductibles et faciliter la collaboration entre chercheurs afin de découvrir des solutions plus efficaces. Les chercheurs souhaitant suivre l'avancement du projet peuvent consulter les articles et les jeux de données disponibles sur le site. 229. Référentiel réseau Le Network Repository est un site de stockage de données scientifiques doté d'outils visuels interactifs permettant aux utilisateurs d'accéder et d'analyser des données. Ce site présente la double particularité d'être à la fois le premier dépôt de ce type et le plus important sur le web. Grâce à la représentation graphique des données et à des images intuitives et attrayantes, les comparaisons et la contextualisation des données sont grandement facilitées. Les journalistes peuvent exploiter cette ressource pour identifier des sujets d'articles au sein des données scientifiques. 230. ensembles de données Pajek La page Pajek Datasets propose un jeu de données portant sur les interactions protéiques chez la levure bourgeonnante. Après une brève explication de l'importance des nouvelles méthodes de détection des interactions et des raisons pour lesquelles il est essentiel de pouvoir évaluer le rôle des différentes interactions protéine-protéine, le site permet aux visiteurs de télécharger directement le jeu de données. Pour approfondir le sujet, les chercheurs peuvent cliquer sur le lien en bas de page afin de consulter l'article scientifique publié à ce sujet. 231. Données du réseau Mejn Ce site a pour but de partager des liens vers les ensembles de données en réseau que son propriétaire a utilisés et compilés. Les thèmes abordés sont variés : football américain universitaire, blogs politiques, ouvrages sur la politique américaine, réseaux sociaux, Les Misérables et collaborations en théorie des hautes énergies. Les personnes intéressées par ces sujets trouveront un large choix d'ensembles de données thématiques. De plus, leur utilisation est libre, sous réserve de citer les sources. 232. La base de données graphiques de Stanford Stanford GraphBase est le nom donné par Donald Knuth, de l'université Stanford, à un ensemble de jeux de données et de programmes. Utilisés conjointement, ces programmes et jeux de données permettent de manipuler et de générer des graphes et des réseaux. Sur ce site, les ressources nécessaires sont disponibles en téléchargement via les liens fournis. Parmi ces fichiers, les chercheurs trouveront des données sur les scores de football américain, des données de dictionnaires, des données relatives à la reconstruction de la Joconde, et bien d'autres encore. 233. Collection de matrices SuiteSparse Anciennement connue sous le nom de Collection de matrices creuses de l'Université de Floride, la Collection de matrices creuses SuiteSparse est un ensemble de matrices ayant des applications concrètes. D'après le site, cette collection est fréquemment utilisée en algèbre linéaire numérique pour le développement et l'amélioration d'algorithmes de matrices creuses. Les utilisateurs apprécient particulièrement son utilité pour la réalisation et la validation des résultats d'expériences. Les jeux de données et les matrices de référence sont disponibles en téléchargement direct sur le site. 234. Ensembles de données graphiques Il s'agit d'un ensemble de jeux de données que les créateurs de cette page web ont jugés relationnels ou facilement traduisibles en représentation graphique. La section « Graph Datasets » propose aux chercheurs souhaitant apprendre à exploiter les données brutes des jeux de données tels que ceux du Predictive Toxicology Challenge, d'IMDb, de mutagenèse, de MovieLens, de filtrage collaboratif et de protéines. Les fichiers sont disponibles sur cette page et téléchargeables principalement au format XML. 235. Actualités du Big Data Big Data News est un site dédié au big data et aux fondamentaux de la science des données. Il propose les dernières actualités et aborde notamment l'apprentissage profond et l'intelligence artificielle. Big Data News héberge également un immense ensemble de données contenant environ 3,5 milliards de pages web. Ces pages sont organisées selon différents niveaux : graphe de page, graphe de sous-domaine, graphe de sous-domaine de premier niveau et graphe de domaine de page. 236. Centre de recherche sur les réseaux et systèmes complexes CNetS, ou Centre de recherche sur les réseaux et systèmes complexes, est un site web rattaché à l'Institut des sciences des réseaux de l'Université de l'Indiana et à l'École d'informatique. Il se veut une ressource en sciences des données, en sciences sociales computationnelles et en réseaux et systèmes complexes, proposant des informations sur l'exploration de données et l'analyse du trafic réseau. CNetS héberge également un ensemble de données contenant environ 53,5 milliards de requêtes réseau effectuées par les utilisateurs de l'Université de l'Indiana. 237. Explorateur OONI OONI Explorer, un projet de l'Observatoire ouvert des interférences réseau (Open Observatory of Network Interference), propose des logiciels libres et open source. Grâce à ce logiciel, les utilisateurs peuvent expérimenter le blocage de sites web, d'applications de messagerie et d'autres applications. L'accès gratuit aux données brutes collectées par OONI est particulièrement intéressant pour les personnes intéressées par cette technologie. Il suffit de saisir les informations dans OONI Explorer pour interagir avec les données. 238. Défis de l'apprentissage automatique Challenges in Machine Learning est un site dédié à la recherche et au développement en apprentissage automatique. On y trouve des liens vers des logiciels, des livres, des défis d'apprentissage automatique, ainsi que des annonces d'ateliers à venir. Le site propose même des liens vers des défis permettant de soumettre des projets après la date limite. Pour les journalistes souhaitant vérifier si l'apprentissage automatique peut réaliser des tâches telles que la prédiction financière ou la classification de pages web, ce site mérite une visite. 239. DonnéesX Actuellement intégré à CrowdANALYTIX, DataX constitue la composante machine d'une initiative communautaire qui exploite la force du collectif pour créer des applications personnalisées d'intelligence artificielle, d'apprentissage automatique et de programmation neurolinguistique (PNL). Le rôle de DataX dans ce processus consiste en la maintenance et le déploiement, ce qui permet de rendre ces solutions évolutives. Pour les journalistes confrontés à d'importants volumes de textes, de vidéos et de données à analyser, les robots disponibles via CrowdANALYTIX et DataX peuvent réduire de moitié leurs temps de recherche. 240. Données pilotées Driven Data combine le crowdsourcing et la science des données d'une manière unique. Mettant l'accent sur son rôle d'accompagnement des organisations confrontées à divers défis sociaux, ce site mobilise sa vaste communauté de data scientists pour créer des modèles statistiques permettant de répondre à des questions prédictives. Driven Data semble collaborer principalement avec des organisations à but non lucratif, mais peut s'avérer utile à toute personne disposant de données brutes à affiner. Les journalistes pourraient notamment tirer profit de cette ressource. 241. Ouvrir le Big Data L'API Dandelion est une application d'analyse sémantique de textes pour les données massives. Concrètement, pour ceux qui disposent de données à traiter, ce programme prend des textes désorganisés et les replace dans leur contexte. Les journalistes qui analysent de nombreux documents peuvent tirer un grand profit de cette fonctionnalité. L'API Dandelion propose également des données ouvertes (Open Big Data) dans les catégories Milan, Trente et Europe. Bien que cette API soit payante, un volume quotidien de textes peut être analysé gratuitement. 242. Modèles de la Terre Earth Models se consacre au partage et au stockage de logiciels et de jeux de données relatifs à la Terre. Les outils de modélisation mentionnés sur le site incluent des logiciels de simulation et de traitement, ainsi que des données virtuelles largement inspirées de domaines d'étude spécifiques tels que la tectonique et la sismologie. Les journalistes et les chercheurs souhaitant approfondir leurs connaissances sur le sujet peuvent consulter les publications et articles disponibles sur ce site avant d'utiliser les outils de modélisation et de visualisation. 243. Centre de données et d'applications socio-économiques (SEDAC) Le Centre de données et d'applications socio-économiques (SEDAC) est l'un des centres de données associés au système EOSDIS de la NASA. Sur ce site, les utilisateurs trouveront des ensembles de données fournissant des informations chiffrées sur le changement climatique ou des données démographiques maillées. Ces ensembles de données peuvent également être consultés par thèmes tels que la gouvernance, l'agriculture, l'utilisation des terres, la santé, la conservation, le climat, l'eau, la télédétection et la pauvreté. Des cartes, des galeries, des guides contextualisent les données, et des ressources et outils supplémentaires sont également accessibles aux chercheurs. 244. Portail AODN Le portail AODN, géré par le Réseau australien de données océaniques (AODN), donne accès aux données australiennes sur le climat et les milieux marins. Les chercheurs qui consultent ces informations auront également accès aux données IMOS et à leurs métadonnées, un cadre de recherche soutenu par de nombreuses institutions, dont le gouvernement australien. En utilisant le portail AODN, les chercheurs bénéficieront d'une excellente mise à disposition des données océaniques via une interface intuitive. 245. Planète OS Planet OS propose une plateforme de traitement de données massives axée sur les énergies renouvelables. Ce choix de spécialisation, combiné à l'expertise du site, l'a rendu populaire auprès des entreprises énergétiques en quête de nouvelles méthodes pour visualiser et contextualiser leurs données. De plus, le site intègre DataHub, une vaste collection de plus de 2 000 jeux de données. Ces jeux de données incluent des données ouvertes de la NASA et de Copernicus, et sont régulièrement mis à jour. 246. INSTITUTION SMITHSONIENNE La Smithsonian Institution jouit depuis longtemps d'une excellente réputation dans le monde universitaire et est reconnue internationalement pour son engagement envers la recherche et l'histoire. Il est donc tout à fait naturel qu'elle dispose d'un site web offrant parmi les meilleures informations en ligne sur la volcanologie. Ce site publie des rapports, des liens vers des études et des bases de données permettant des recherches ciblées sur les volcans, les éruptions, les émissions et les déformations, en complément de la liste et du tableau des volcans de l'Holocène. Les journalistes n'auront plus besoin d'aucune autre source d'information sur l'activité volcanique. 247. Catalogue des tremblements de terre Mis à jour et géré par le Programme des risques sismiques du gouvernement américain, le Catalogue des séismes permet aux chercheurs de consulter la date et le lieu du dernier tremblement de terre. Bien que les résultats de recherche soient limités à 20 000, le catalogue offre la possibilité de les filtrer par magnitude, date et heure, et même par région géographique. Cette flexibilité rend cette ressource particulièrement utile aux journalistes couvrant une catastrophe naturelle ou un séisme local et recherchant des informations contextuelles. 248. Association économique américaine L'American Economic Association fournit aux chercheurs des données macroéconomiques pour les États-Unis et d'autres pays du monde. Ce site ne semble pas produire de données économiques à proprement parler, mais plutôt proposer une sélection des données les plus fiables. Cependant, compte tenu du nombre de sites offrant des informations économiques sur Internet, il s'agit d'une ressource crédible pour les journalistes. Il suffit de se rendre sur le site et de parcourir les différentes catégories de données économiques. 249. Historicalstatistics.org Historicalstatistics.org est un site extrêmement utile pour trouver des informations économiques qui offrent un contraste intéressant avec la situation actuelle. Par exemple, son convertisseur de devises historique permet aux chercheurs de savoir ce qu'une personne disposant de 10 dollars américains en 1923 pouvait acheter aujourd'hui. Le site propose également des publications et des articles qui interrogent les indicateurs utilisés en histoire économique, ainsi que des indices de prix et des données sur la masse monétaire, filtrables par pays. 250. DB Nomics Et si toutes les données économiques publiques disponibles sur Internet étaient accessibles et consultables depuis une plateforme unique et intuitive ? Db.nomics est un agrégateur de bases de données économiques qui vise précisément cet objectif. Les données sont disponibles aux formats HTML, JSON et CSV, et sont mises à jour automatiquement, tandis que les versions précédentes sont archivées. Parmi les sources économiques figurent la Réserve fédérale, le Bureau d'analyse économique, le Fonds monétaire international et bien d'autres. Avec Db.nomics, les chercheurs en quête de données économiques fiables trouveront leur bonheur. 251. Centre commun de la dette extérieure (JEDH) Fruit d'une collaboration entre la Banque des règlements internationaux, l'Organisation de coopération et de développement économiques (OCDE), le Fonds monétaire international et la Banque mondiale, le Centre commun d'information sur la dette extérieure met à la disposition du public des données sur la dette et les créanciers et débiteurs internationaux. Les journalistes qui analysent les finances des différents pays et cherchent à mieux comprendre le paysage financier international y trouveront pratiquement toutes les informations dont ils ont besoin. 252. Données sur le commerce international Élaborée avec la précieuse contribution de Jon Haveman, expert en économie de renom, cette page consacrée aux données du commerce international propose des données téléchargeables et analysables. Les ensembles de données comprennent des données tarifaires, les tables Penn World, les données sur les services publics, les données d'importation, la productivité manufacturière, les classifications de marchandises, les codes de différenciation des produits Rauch, les données du NBER, l'enquête de 1997 sur les flux de matières premières, les données sur le commerce et l'immigration, ainsi que le modèle de gravité. Ces données ont été compilées sous UNIX, mais le site précise qu'elles sont également accessibles sur PC. 253. Entreprises ouvertes Sur OpenCorporates, les chercheurs bénéficient d'un accès privilégié à l'une des plus vastes bases de données ouvertes d'entreprises au monde. Ces informations sont ensuite exploitées par différents acteurs à travers le monde, tels que des banques, des enquêteurs, des ONG et des journalistes, à des fins de renseignement. Les journalistes profitent en outre de la possibilité d'accéder aux données en temps réel grâce à l'API d'OpenCorporates, ainsi que via les données brutes et autres ensembles de données essentiels. 254. Notre monde en données Our World in Data collecte des informations provenant de sources variées et de différents domaines, et présente des données quantifiées. Qu'il s'agisse de la participation des femmes au marché du travail, de la perception de la corruption dans le secteur public ou des inégalités de revenus à l'échelle mondiale, si un sujet peut être abordé à travers des données, ce site web en propose probablement une. Les journalistes peuvent utiliser cette ressource pour trouver des statistiques et des chiffres relatifs aux enjeux sociaux. 255. Science Po Sciences Po, plus communément appelée Institut d'études politiques, est une école dont l'influence en sciences sociales est indéniable. La page de Thierry Mayer propose des fichiers de données contenant des analyses de gravité et des régressions sur les conflits militaires issues de l'étude « Make Trade Not War », ainsi que des ensembles de données sur le potentiel des marchés, entre autres. Les journalistes souhaitant approfondir leur compréhension des conclusions publiées dans les revues académiques trouveront de nombreuses informations pertinentes sur ce site. 256. Centre de données internationales Depuis sa création en 1999, le Centre de données internationales (Center for International Data) se consacre à sa mission de collecte, de création, d'amélioration et de diffusion de données économiques internationales, tant en ligne que hors ligne. Sur son site web, les lecteurs peuvent accéder à des informations telles que les données tarifaires américaines, les importations et exportations mondiales et américaines, ainsi qu'aux données de la Penn World Table. Ces informations étant mises à la disposition du public à des fins éducatives et de recherche, les journalistes peuvent y accéder et les utiliser gratuitement. 257. Observatoire de la complexité économique L'Observatoire de la complexité économique (OEC) permet aux chercheurs, étudiants, économistes et à tous de visualiser les données du commerce international. Grâce à ses thèmes attrayants et son interface interactive, ce site offre aux chercheurs une véritable opportunité d'explorer l'information sur le commerce international d'une manière inédite. Pour les journalistes qui apprécient de voir les données économiques prendre vie lors de leurs recherches, l'OEC est une ressource inestimable. 258. Données du tableau de bord des collèges L'enseignement supérieur est un sujet brûlant dans de nombreux milieux, où étudiants et familles souhaitent connaître le classement des établissements et la qualité de l'apprentissage. Grâce aux données de son College Scorecard, le Département de l'Éducation des États-Unis fournit aux enseignants et aux étudiants toutes ces informations, et bien plus encore. Ces données couvrent la période 1996-2016 et incluent des données actuelles, les données du College Scorecard, les revenus après les études, ainsi que les nouvelles informations du Système national de données sur les prêts étudiants (NSLD). Il s'agit d'une source d'information actualisée sur l'enseignement supérieur que les journalistes devraient absolument consulter. 259. Ensemble de données sur la consommation énergétique des bâtiments commerciaux En tant qu'ensemble de données consacré principalement à l'énergie, COMBED se distingue par son caractère unique. Si l'on ajoute à cela le fait que ses données sont mises à jour plusieurs fois par minute et proviennent d'un bâtiment commercial, il devient évident que cet ensemble de données est sans équivalent. Pour les journalistes, ces informations sont extrêmement précieuses lors de la préparation d'un article sur la consommation d'énergie. Accéder aux données de COMBED est aussi simple que de télécharger et d'ouvrir une feuille de calcul Excel. 260. Jeu de données DRED La partie DRED de la base de données DRED signifie « Données néerlandaises sur la consommation énergétique résidentielle ». Comme son nom l'indique, ces données mesurent et analysent la consommation énergétique d'un foyer néerlandais. L'ambiance, l'occupation du logement, la consommation d'électricité et des informations générales sur le foyer ont été enregistrées dans cet ensemble de données du 5 juillet au 5 décembre 2015. Les journalistes effectuant des recherches sur la consommation énergétique trouveront ici des données brutes. Les instructions pour télécharger les données au format CSV sont disponibles directement sur le site web. 261. Ensemble de données ECO ECO, acronyme de Consommation d'électricité et occupation, est un projet mené par le Groupe des systèmes distribués. Ce projet a consisté pour des chercheurs à suivre la consommation électrique et à détecter l'occupation de six foyers suisses pendant huit mois. Ce site donne accès à ces données, ainsi qu'à des instructions et des liens vers des publications connexes. Grâce à son tableau de bord interactif, les journalistes pourront facilement adapter ces recherches et les rendre plus attrayantes. 262. Ensemble de données indien sur l'eau et l'énergie ambiantes IAWE (Indian Dataset for Ambient Water and Energy) a été créé dans le but de suivre la consommation énergétique d'un foyer de New Delhi grâce aux mesures de consommation électrique des appareils, du compteur et du tableau électrique. En raison de coupures de courant, de variations de la distribution d'eau, de pertes de paquets et de fluctuations de tension, IAWE a rencontré des problèmes spécifiques au suivi de la consommation énergétique en Inde. Ces données sont extrêmement précieuses pour les journalistes qui analysent les tendances de consommation énergétique. 263. Électricité au niveau des appareils électroménagers au Royaume-Uni UK-DALE (UK Domestic Appliance-Level Electricity) est un ensemble de données qui surveille et enregistre la consommation électrique de cinq foyers. Toutes les six secondes, UK-DALE mesure la demande, à la fois du réseau électrique principal et des appareils électroménagers. Les journalistes souhaitant étudier la consommation énergétique des ménages britanniques trouveront certainement des informations utiles dans UK-DALE. Les données sont accessibles et un document décrivant le système est disponible. 264. ArcGIS ArcGIS Hub est une plateforme permettant aux organisations et aux particuliers d'atteindre leurs objectifs grâce à des initiatives à l'échelle du site. Avec ses modèles de pages, ses guides pas à pas et ses exemples consultables, ce site constitue une ressource précieuse pour les acteurs du changement social ambitieux. Par ailleurs, l'onglet « Données ouvertes » propose des centaines d'ensembles de données rien que dans la catégorie « Catastrophes ». Que les journalistes effectuent des recherches ou contribuent à la collecte de données, ArcGIS Hub s'avère utile à bien des égards. 265. Cambridge GIS Cambridge GIS est le dépôt de données ouvertes de la ville de Cambridge, dans le Massachusetts. À l'exception des fichiers trop volumineux pour être téléchargés via ce dépôt GitHub, la plupart des jeux de données de la ville sont accessibles sur cette page. Parmi les jeux de données disponibles, on trouve notamment les zones commerciales, les servitudes, les zones de zonage, les résultats de recensement, les cimetières, ainsi que d'autres points de repère et éléments quantifiables. Un journaliste à la recherche d'informations locales trouvera sur ce site tout ce qu'il cherche, et bien plus encore. 266. Géo-Wiki.org Geo-Wiki est un site web dédié au mouvement des sciences participatives. Il encourage les citoyens à participer à la surveillance de l'environnement. Les chercheurs peuvent consulter les dernières actualités dans la barre latérale, ainsi que les titres des publications et télécharger gratuitement des jeux de données et des logiciels. Parmi les outils mis à disposition sur le site figurent des cartes, la possibilité de télécharger des données personnelles, des outils de validation et des hackathons, disponibles aux formats Excel et ZIP. 267. OpenStreetMap Les données extraites d'OpenStreetMap proviennent du projet OpenStreetMap, une initiative collaborative en ligne visant à créer une carte du monde grâce aux contributions de la communauté mondiale d'utilisateurs. Pour utiliser cette source de données, il suffit aux contributeurs de choisir leur continent, puis leur pays. Le téléchargement de ces données (fournies par Geofabrik GmbH) est gratuit et elles sont généralement mises à jour quotidiennement. 268. Données ouvertes HIFLD Gérée et maintenue par le Département de la Sécurité intérieure, la plateforme HIFLD (Homeland Infrastructure Foundation-Level Data) met des données géospatiales dans le domaine public. Ces données sont diffusées afin de fournir un soutien et des informations à des fins de recherche et de préparation au sein de la communauté. Elles peuvent être téléchargées aux formats Shapefile et CSV et sont également consultables en ligne. Pour les éditeurs, les données ouvertes de HIFLD rendent les données géospatiales plus visuelles et attrayantes que jamais. 269. OpenAddresses OpenAddresses est spécialisé dans l'infrastructure et la collecte d'adresses. Reposant en grande partie sur la contribution de sa communauté, ce site utilise GitHub comme plateforme de développement. Il est possible d'y placer des adresses sur une carte après les avoir ajoutées à la base de données, ou d'utiliser directement ces données pour le géocodage. Grâce à l'accès libre à toutes les données et adresses, la simple attribution de la source étant requise, les mises à jour régulières et le potentiel d'amélioration du géocodage font d'OpenAddresses un projet particulièrement intéressant. 270. Données ouvertes LMU L'application Open Data LMU s'appuie largement sur les données d'OpenStreetMap pour développer son géocodeur inverse rapide. Concrètement, cela signifie qu'elle permet de trouver rapidement l'adresse complète correspondante à partir d'un point sur une carte. Cette fonctionnalité pourrait également s'appliquer aux quartiers et aux comtés. Cette page web regroupe de nombreux liens relatifs à l'application, notamment le code source, les jeux de données, ainsi que les tables de correspondance et les résolutions d'OpenStreetMap. 271. Explorateur de données environnementales Grâce à l'Explorateur de données environnementales, journalistes, chercheurs et étudiants peuvent télécharger et explorer les mêmes jeux de données que ceux utilisés par le Programme des Nations Unies pour l'environnement, ses organisations affiliées et ses partenaires. Les recherches peuvent être affinées par région et effectuées à l'aide de 500 filtres. De plus, les jeux de données comprennent des catégories telles que la santé, le PIB, le climat, les émissions et l'eau douce, consultables directement sur le site sous forme de graphiques, de tableaux ou de cartes. 272. Groupe de la Banque africaine de développement Le site du Groupe de la Banque africaine de développement est une ressource incontournable pour les journalistes en quête d'informations et d'indicateurs statistiques relatifs au continent africain. Les utilisateurs peuvent filtrer les données par source, sujet et région. Pour approfondir le sujet, le site propose également des liens vers une impressionnante liste de publications, parmi lesquelles les Perspectives économiques en Afrique et l'Annuaire statistique africain. 273. Genomic Data Commons (GDC) La plateforme Genomic Data Commons du NCI héberge l'un des répertoires de données sur le cancer les plus complets du web, axé sur les études génomiques du cancer. Son portail de données, accessible gratuitement, recense des milliers de cas et couvre 38 types de cancers, associés à 39 projets. Les données étant principalement soumises par des institutions et des chercheurs, leur exactitude en fait une source précieuse pour les journalistes. 274. Bases de données PhysioBank Les bases de données PhysioBank mettent des données physiologiques à la disposition du public. Elles se divisent en deux grandes catégories : les données de forme d'onde et les données cliniques. Parmi les sous-catégories de données de forme d'onde, on trouve des données d'imagerie, d'intervalles inter-battements, des données synthétiques, de marche et d'équilibre, d'ECG et des bases de données multiparamètres. Ces bases de données contiennent notamment des données sur les signes vitaux au chevet du patient, la saturation en oxygène et même des informations sur les maladies cardiovasculaires. Les journalistes et les chercheurs travaillant sur le corps humain peuvent y trouver des informations utiles. 275. Base de données sur la couverture Medicare La base de données sur la couverture Medicare, gérée par les Centers for Medicare & Medicaid Services (CMS) du Département de la Santé et des Services sociaux (HHS), offre aux chercheurs un accès complet à une multitude d'informations sur les services médicaux. On y trouve des renseignements sur les maladies chroniques, les dépenses pharmaceutiques, les modèles de dossiers médicaux électroniques, le système de recouvrement des créances, ainsi que les subventions de recherche et de démonstration. Pour des données provenant directement de la source, il s'agit du site le plus complet et le plus exhaustif de ce type disponible en ligne. 276. Données Open Payments Lorsqu'ils consultent un médecin, la plupart des gens ne se demandent généralement pas si leur médecin traitant tire un avantage financier de collaborations avec des laboratoires pharmaceutiques. Open Payments informe le public de tous les repas, recherches, cadeaux, honoraires de conférencier et frais de déplacement perçus par les médecins ou les hôpitaux auprès de ces entreprises. Les journalistes en quête d'un sujet percutant peuvent consulter ces informations via l'explorateur de données ou cliquer sur l'onglet prévu à cet effet pour les télécharger directement. 277. Logos Flickr Comme son nom l'indique, FlickrLogos est un ensemble de données composé de logos d'entreprises photographiés sous différents angles. Gérée par le Laboratoire d'informatique multimédia et de vision par ordinateur de l'Université d'Augsbourg, cette collection a été initialement constituée pour entraîner les ordinateurs à reconnaître les logos et les textes. Pour suivre l'évolution de ce programme prometteur, n'hésitez pas à télécharger cet ensemble de données et à en découvrir le fonctionnement. 278. ImageNet ImageNet est une base de données d'images organisée selon les principes de WordNet. Des concours annuels, accessibles même après leur clôture, y sont organisés et visent à créer des algorithmes capables d'effectuer des tâches spécifiques. ImageNet héberge également de nombreuses publications, citations et diapositives. Les éditeurs de contenu technique auront tout intérêt à utiliser l'explorateur pour comprendre la structure de WordNet et sa carte interactive. 279. Ensemble de données Stanford Dogs Le jeu de données Stanford Dogs contient une multitude de photos et d'images de différentes races de chiens. Avec 120 races différentes et plus de 20 000 images individuelles, cette base de données ImageNet offre aux chercheurs une vaste collection d'images pour l'apprentissage automatique de la reconnaissance canine. Sur le site, des liens vers diverses publications traitant de l'utilisation de jeux de données pour l'apprentissage de la reconnaissance d'images par les ordinateurs sont accessibles en cliquant dessus et peuvent être consultés en même temps que le téléchargement du jeu de données. 280. Base de données SUN La base de données SUN est un projet conçu pour permettre à la communauté scientifique de progresser dans des domaines tels que la vision par ordinateur et l'infographie, l'exploration de données, l'apprentissage automatique et les neurosciences. Avec plus de 131 000 images et près de 4 000 catégories d'objets indexées, ce site est extrêmement complet. Pour les éditeurs intéressés par cette base de données et ses applications, il s'agit d'une source de données à explorer. 281. L'ensemble de données Oxford-IIIT sur les animaux de compagnie Le jeu de données Oxford-IIIT Pet Dataset est un site web qui complète un article publié lors de la conférence IEEE 2012 sur la vision par ordinateur et la reconnaissance des formes. Il héberge le jeu de données original utilisé pour cet article. Les images y sont organisées en environ 37 catégories d'animaux de compagnie, chacune associée à 200 autres images. Ces données peuvent être téléchargées directement via les liens disponibles sur la page web. 282. L'ensemble de données Visual Genome L'API Visual Genome est le fruit d'un travail acharné mené par plusieurs étudiants et professeurs associés de l'Université de Stanford. Auteur de plusieurs articles scientifiques, ce programme a permis de créer une API capable d'évaluer et de décrire des images. Il a répondu avec succès à plus d'un million de questions en analysant plus de 100 000 images. Cette API représente une avancée majeure en informatique et dans les domaines connexes, et l'ensemble de données est téléchargeable directement sur le site. 283. Visages de YouTube La base de données YouTube Faces vise à développer une solution pour la reconnaissance faciale automatique dans les vidéos. Elle comprend plus de 3 000 vidéos extraites de YouTube, montrant près de 1 600 personnes et d'une durée moyenne d'environ 181 images. L'objectif final est de créer un algorithme capable d'identifier les personnes présentes dans les vidéos. Les données, ainsi que les informations relatives aux erreurs et aux méthodes de description, sont consultables directement sur le site. 284. Référentiel de données KEEL Le dépôt de données KEEL contient les données d'un logiciel libre basé sur Java, conçu pour faciliter l'extraction de connaissances dans divers domaines. KEEL, acronyme de Knowledge Extraction based on Evolutionary Learning (Extraction de connaissances basée sur l'apprentissage évolutionnaire), peut être entraîné à gérer, entre autres, l'ajout de valeurs manquantes, les modèles hybrides et les méthodes statistiques d'évaluation d'expériences. Les données et la liste complète des algorithmes de KEEL sont disponibles en téléchargement direct sur le site. 285. Club de prêt La particularité de Lending Club réside dans son statut de plateforme de prêt entre particuliers, permettant aux emprunteurs d'obtenir des prêts même sans avoir le score de crédit requis par les établissements de crédit traditionnels. Outre l'originalité de son fonctionnement, le site propose des statistiques détaillées : points forts de la plateforme, informations sur les prêts refusés, performances des investisseurs et même un dictionnaire de données contenant des informations historiques. Ces données remontent généralement à 2007 et sont téléchargeables au format CSV. 286. Musée d'histoire naturelle Le Muséum national d'histoire naturelle est considéré par beaucoup comme l'un des musées les plus célèbres au monde, mais la numérisation et la possibilité de consulter son catalogue via le portail de données ouvertes sont probablement une nouveauté pour beaucoup. Composé de 91 jeux de données comprenant des collections de microfossiles et de fossiles, ainsi que des fiches d'inventaire, entre autres, ce catalogue est accessible au public et téléchargeable gratuitement dans de multiples formats. 287. Les vocabulaires Getty Ce site est idéal pour les journalistes et les éditeurs soucieux de respecter des normes stylistiques précises lors de la description et de la catégorisation d'œuvres d'art, de noms d'artistes, d'éléments architecturaux, de matériaux et de noms géographiques. Il permet d'accéder directement aux bases de données de vocabulaires contrôlés indispensables aux chercheurs et aux catalogueurs pour se conformer aux normes internationales. À cet égard, les vocabulaires Getty restent incontournables. Les jeux de données sont consultables par texte ou via SPARQL et peuvent être téléchargés depuis le site. 288. Corpus d'enquête stylométrique CLiPS (CSI) Le corpus d'investigation stylométrique CLiPS n'est probablement pas ce à quoi la plupart des gens pensent lorsqu'ils entendent l'expression « CSI », mais il s'agit néanmoins d'un ensemble de données composé de comptes rendus et de dissertations d'étudiants. Outre le texte lui-même, la présence de métadonnées et d'informations intégrées au document, comme le souligne le site, offre de multiples possibilités. Proposé et distribué sous licence Creative Commons, ce corpus ne requiert, en échange de son utilisation, qu'une mention de la source. 289. Dépendances universelles v2 Universal Dependencies v2 désigne la deuxième version mise à jour du projet Universal Dependencies, qui vise à développer une annotation de corpus arborescents utilisable de manière cohérente avec plusieurs langues. Cette version mise à jour propose des dizaines de corpus arborescents UD pour différentes langues, dont l'afrikaans, le grec ancien, le japonais, le néerlandais, le finnois et le chinois, en plus de l'anglais. La dernière version d'Universal Dependencies est disponible en téléchargement en bas de cette page web. 290. Tuyau en toile Webhose est une source exceptionnelle de jeux de données, directement issus des dépôts du site et accessibles au public. Les chercheurs peuvent trier les articles de presse par langue, l'arabe, le français et le néerlandais n'étant que quelques exemples, pour un total de plus de 100 000 articles. De plus, les articles en anglais sont classés par catégories, telles que le divertissement et le sport, et complétés par des critiques et des messages de forums. Les éditeurs numériques et les chercheurs peuvent tirer profit de l'exploration de ces jeux de données. 291. Données Wiki Wikidata est une source de contenu et d'idées souvent sous-estimée, tant pour les éditeurs que pour les chercheurs. D'après cette page, plusieurs méthodes permettent d'accéder aux données, mais le format JSON est fortement recommandé. Disponibles gratuitement pour un usage non commercial et commercial, toutes les données peuvent être consultées et téléchargées gratuitement sous licence Creative Commons. 292. Liens Wiki Intégré à Google Code, Wiki Links est un projet open source qui vise à donner accès à un ensemble de données unique. Sur cette page, les chercheurs peuvent télécharger les fichiers README, les fichiers de données et la licence Creative Commons. Les éditeurs et les personnes intéressées par la technologie trouveront de nombreuses ressources intéressantes dans cet ensemble de données. Il suffit de naviguer sur le site, de cliquer et de télécharger les fichiers. 293. Wordnet WordNet est un lexique anglais composé des composantes de la langue (adverbes, noms, adjectifs et verbes) regroupées en catégories distinctes permettant d'exprimer des idées précises. Il en résulte un outil précieux qui classe les mots selon leur usage et leur signification plutôt que selon leur prononciation. Les applications de WordNet en programmation linguistique sont présentées, ainsi que les nombreuses publications et statistiques disponibles sur le site. 294. Atlas cérébral d'Allen L'Atlas du cerveau Allen, créé par l'Institut Allen pour les ressources en sciences du cerveau, est un outil permettant d'étudier et d'approfondir nos connaissances sur le cerveau humain et son fonctionnement, tant en bonne santé qu'en cas de maladie. Grâce à cet atlas, les chercheurs peuvent étudier le cerveau humain et son développement, ainsi que le glioblastome et les effets du cancer sur le cerveau. Les journalistes qui traitent de ces sujets peuvent consulter ce site pour accéder à des jeux de données et des informations. 295. NITRC Le NITRC (Neuroimaging Informatics Tools and Resources Clearinghouse) est une plateforme de référence pour les journalistes et les éditeurs souhaitant accéder à des données de neuroimagerie. Créé et promu comme une initiative de partage de données en neuroimagerie, ce site héberge les données de plusieurs projets, tels que le 1000 Connectome Project, l'Addiction Connectome Preprocessed Initiative, ainsi que les projets INDI-Prospective et Retrospective. Le téléchargement des données est libre et gratuit sur le site web. Les neuroimages acquises à différents stades n'ont jamais été aussi accessibles. 296. Jeune adulte HCP Le projet Human Connectome Project Young Adult s'inscrit dans la continuité des efforts déployés pour établir une carte précise du connectome humain tel qu'il est observé chez la plupart des adultes en bonne santé. En deux phases, 1 200 adultes sains ont été examinés par une combinaison de techniques d'IRMf au repos et d'imagerie de diffusion. Les journalistes et les éditeurs à la recherche d'informations sur le cerveau ne trouveront pas d'autre site proposant autant de données sur le connectome humain chez les jeunes adultes en bonne santé. 297. Archives de données du NIMH Les archives de données du NIMH (NDA) ne constituent pas tant une source de données indépendante qu'une plateforme de diffusion et de stockage de données. Ce site web propose des données collectées dans le cadre de nombreux articles et projets de recherche, ainsi que des méthodes et des outils facilitant l'analyse et la collaboration. Des synthèses de données sont disponibles gratuitement et les diffuseurs de contenu scientifique peuvent s'en servir pour annoncer des actualités. 298. Neurodonnées NeuroData se consacre à la recherche sur la relation unique entre l'esprit et le cerveau. Grâce à son engagement en faveur de la science ouverte et de la recherche reproductible, les contributeurs ont accès à une publication et à plusieurs jeux de données, accessibles via les liens présents sur la page web. La mise à disposition gratuite de code et d'outils d'analyse facilite grandement l'exploration des travaux de NeuroData et intéresse particulièrement ceux qui souhaitent examiner les données par eux-mêmes. 299. Neuroélectro Le projet NeuroElectro vise à collecter les caractéristiques électrophysiologiques des différents types de neurones et à les regrouper dans une base de données unique. Il cherche à étudier les interactions neuronales afin de mieux comprendre les différences entre les divers types de neurones. Le site propose des liens vers des articles et répertorie les types de neurones et leurs propriétés électrophysiologiques identifiés à ce jour. Les créateurs de contenu peuvent s'appuyer sur ce site comme source de données sur les relations entre les neurones. 300. Série d'études d'imagerie en libre accès La série d'études d'imagerie en libre accès (OASIS) est un projet visant à rendre les données d'IRM cérébrales accessibles à l'ensemble de la communauté scientifique. Journalistes et chercheurs peuvent consulter des publications comparant les données d'IRM chez l'adulte, ainsi qu'une fiche d'information détaillée extraite de l'article de synthèse d'OASIS présentant les résultats de plus de 400 sujets. Ces informations et outils sont téléchargeables en plusieurs formats depuis le site web. 301. OpenfMRI Pour les journalistes souhaitant accéder à des jeux de données IRM sans les difficultés rencontrées sur d'autres sites, l'initiative d'OpenfMRI.org, qui vise à rendre ces données accessibles au public, constitue une avancée majeure. Provenant directement des chercheurs, ce site héberge une grande variété de jeux de données, tels que le jeu de données d'apprentissage de la classification, la tâche des jeux mixtes et la tâche de prise de risque par analogie avec un ballon. La diversité et la quantité des données permettent aux chercheurs d'explorer de nouvelles pistes de recherche grâce à ce site. 302. Studyforrest Empruntant largement son nom au célèbre film Forrest Gump, StudyForest L'objectif est de comprendre les capacités du cerveau lorsqu'il doit fonctionner à un niveau supérieur tout en gérant une stimulation naturelle, mais tout aussi complexe. Le site reconnaît néanmoins que les données IRMf recueillies dans le cadre de ces études ont des applications plus vastes qu'il n'y paraît au premier abord. Les fournisseurs de contenu peuvent consulter les 19 publications qui ont utilisé ces données StudyForest les données et peut même y accéder directement. 303. Base de données ouverte de cristallographie Comme son nom l'indique, la base de données ouverte de cristallographie (Crystallography Open Database) rassemble 385 697 structures cristallines de minéraux et composés organométalliques, organiques et inorganiques, à l'exception notable des biopolymères. Les contributeurs souhaitant approfondir leurs connaissances sur les structures cristallines peuvent effectuer une recherche par formule structurale ou lancer une recherche ciblée, avec possibilité de navigation. Ce site propose également des logiciels et des données qui en font une ressource particulièrement précieuse dans le domaine de la chimie. 304. Archives des exoplanètes de la NASA Longtemps considérée comme l'une des principales sources d'information sur l'espace, la NASA perpétue sa tradition d'excellence avec ses archives d'exoplanètes. Ce site propose une série d'outils et de logiciels interactifs, tels que le service de transits et d'éphémérides, le périodogramme, l'outil de cartographie des planètes confirmées, ainsi que la possibilité de télécharger des fichiers et d'effectuer des recherches dans des tableaux. Les créateurs de contenu en quête d'informations inédites pourront exploiter ces données lors de la prochaine actualité majeure concernant les exoplanètes. 305. Sloan Digital Sky Survey Grâce au Sloan Digital Sky Survey (SDSS), chacun peut créer des cartes tridimensionnelles de l'Univers. Journalistes et créateurs de contenu ont accès aux algorithmes, aux données d'imagerie, aux jeux de données, aux tutoriels et aux ressources visuelles pour sensibiliser le public, que ce soit de manière formelle ou informelle. Le site propose également de diffuser ses données auprès du public via les médias d'information et les réseaux sociaux. Il s'agit d'un outil visuel précieux pour les créateurs de contenu. 306. StatSci.org Statsci.org propose une liste exhaustive de ressources accessibles au public, utilisables selon les besoins. Parmi ces ressources figurent le Service de jeux de données électroniques et des études de cas compilées par l'UCLA. Outre les jeux de données bruts, la page propose également des liens vers des manuels, tels que le *Handbook of Small Data Sets* et *Case Studies in Biometry*. Les créateurs de contenu à la recherche de ressources statistiques trouveront certainement leur bonheur sur ce site. 307. ÉRIC ERIC, également connu sous le nom d'Institut des sciences de l'éducation, est une ressource qui fait office de moteur de recherche pour toute personne en quête d'informations dans le domaine de l'éducation. La recherche préliminaire offre même la possibilité de filtrer exclusivement les informations évaluées par les pairs ainsi que les textes intégraux indexés dans ERIC. Compte tenu de la fréquence à laquelle les budgets de l'éducation et les méthodes pédagogiques font l'objet d'articles dans l'actualité, il s'agit d'une source de données que les journalistes devraient prendre en considération. 308. NTIS Créé peu après la fin de la Seconde Guerre mondiale, le NTIS (National Technical Information Service) a été fondé dans le but d'aider les agences fédérales à prendre des décisions éclairées grâce aux données. À l'origine, cet organisme était le dépôt de données du gouvernement américain dans le domaine de la recherche scientifique. Aujourd'hui, le site héberge des millions de publications sur une multitude de sujets. La richesse de son contenu historique en fait une source de données précieuse pour les journalistes et les éditeurs. 309. Certificat de données ouvertes Le site web de l'ODI (Open Data Institute) propose le Certificat de données ouvertes, un outil gratuit en ligne conçu spécifiquement pour évaluer et reconnaître la qualité des données ouvertes. Pour les éditeurs et les journalistes, le site met également à disposition de nombreux jeux de données sur des sujets variés, allant des listes de subventions aux alertes d'allergies, téléchargeables au format CSV. 310. Archives GitHub GitHub est sans conteste l'un des référentiels et archives de données les plus populaires et les plus connus d'Internet, grâce à sa facilité de collaboration, ses capacités d'archivage et son accessibilité pour les développeurs. Qu'il s'agisse de créer des bots capables d'effectuer certaines tâches ou de développer des applications, GitHub est un site où les créateurs de contenu et les journalistes peuvent facilement découvrir des contenus potentiellement intéressants. L'archive est accessible en suivant les instructions du tutoriel, que ce soit pour JSON ou BigQuery. 311. Modèles socio-économiques SocioPatterns est un projet visant à identifier les tendances dans l'activité humaine et les dynamiques sociales à travers l'analyse de données. Comme on peut s'y attendre compte tenu de son objectif global, les informations du site ont été utilisées dans des publications abordant des sujets variés, allant de la propagation des maladies à des études de cas sur les différences entre les personnalités en ligne et hors ligne. Les jeux de données sont consultables, de même que les articles publiés, qui contiennent des informations susceptibles d'intéresser les éditeurs. 312. Carte indépendante Indie Map est le fruit de la collecte d'informations provenant de plus de 2 000 sites parmi les plus fréquentés d'IndieWeb. Ces données sont ensuite intégrées à des outils visuels interactifs, tels qu'une API de graphe social, un ensemble de données avec des fonctionnalités de requête SQL, et les données brutes extraites de 5,7 millions de pages web. Les éditeurs numériques intéressés par les logiciels libres et l'interprétation de ces données concernant les communautés en ligne peuvent y accéder directement depuis le site web. 313. Université Simon Fraser L'Université Simon Fraser renforce sa réputation grâce à la mise à disposition de son jeu de données intitulé « Statistiques et réseau social des vidéos YouTube ». Issu d'un robot d'exploration ayant utilisé l'API de YouTube pour trouver des vidéos, ce jeu de données contient des informations sur des millions de vidéos et leurs utilisateurs. Le site précise que le téléchargement des données est réservé à un usage académique, mais il est possible d'y trouver des sources journalistiques et des références concernant ce projet. 314. ACLED ACLED (Armed Conflict Location and Event Data Project) propose des données publiques sur les manifestations et les violences politiques dans les pays en développement. Ces informations comprennent le nombre de victimes, les dates et lieux des violences ou manifestations, les noms des groupes impliqués, ainsi que des données sur les émeutes et les affrontements violents. ACLED donne accès à des rapports, des publications et des visualisations réguliers, ainsi qu'à des données téléchargeables sur son site. 315. Institut canadien d'information juridique L’Institut canadien d’information juridique (CanLII) est un site qui donne accès gratuitement aux lois et règlements, à la jurisprudence de diverses juridictions, dont la Cour suprême du Canada, les cours provinciales et d’appel, et la Cour du Banc de la Reine, ainsi qu’aux décisions de divers tribunaux administratifs et organismes créés par la loi. Avec 301 bases de données jurisprudentielles et plus de 140 000 décisions de justice consultables, les journalistes et les éditeurs numériques qui traitent de sujets juridiques auraient tout intérêt à ajouter ce site à leurs favoris. 316. Centre pour la paix systémique Le Centre pour la paix systémique (CSP) est une organisation qui se consacre à l'analyse des systèmes mondiaux afin de lutter contre la violence politique. Sur ce site, les journalistes menant des recherches dans ce domaine auront accès à des analyses sur les conflits en Afrique, les tendances des conflits à l'échelle mondiale, ainsi qu'à des résumés des trois principales publications de l'organisation : « La Troisième Guerre mondiale » et le Rapport mondial et la Bibliothèque virtuelle du CSP. 317. Corrélats du projet de guerre Le projet Correlates of War (COW) vise à faciliter la collecte et la diffusion de données quantitatives dans le domaine des relations internationales. Fidèle à son engagement d'appliquer des principes scientifiques aux données relatives aux relations internationales, COW met ses ensembles de données à la disposition du public gratuitement. Ces bases de données contiennent des informations chiffrées utiles aux journalistes et aux chercheurs, telles que les conflits armés entre États, les membres du système étatique, les capacités matérielles nationales et les alliances formelles. 318. Enquête sociale européenne L'Enquête sociale européenne (ESS) est une enquête menée à travers l'Europe afin de mesurer les comportements, les attitudes et les croyances de différentes populations dans divers pays. Les journalistes étant souvent soucieux de connaître l'opinion publique, la série « ESS Topline », qui aborde des sujets tels que le bien-être personnel et social des Européens, les attitudes envers la protection sociale et même la présence de l'âgisme au Royaume-Uni, peut enrichir un article de multiples façons. 319. Fonds pour la paix Le Fonds pour la Paix est une organisation qui œuvre à la prévention des conflits et au renforcement de la sécurité par le développement d'outils de gestion des conflits. Depuis sa création, le Fonds a collaboré avec des journalistes, des ONG, des organisations locales et leurs homologues internationaux, ainsi qu'avec des gouvernements. Qu'ils recherchent des tendances, des analyses comparatives ou des données mondiales, les journalistes et les éditeurs peuvent trouver les ressources dont ils ont besoin grâce à l'outil d'exploration de données intégré au site. 320. L'enquête sociale générale Les travaux du General Social Survey (GSS) visent à recueillir des informations sur divers aspects de la société américaine contemporaine afin de suivre l'évolution des attitudes et des comportements au sein de la population. Ce suivi des tendances, pratiqué depuis 1972, constitue à lui seul une mine d'or pour les journalistes désireux d'explorer ces évolutions. Grâce à l'outil GSS Data Explorer, chercheurs et journalistes peuvent télécharger, examiner et même analyser ces données. 321. Gésis GESIS est un institut de recherche allemand spécialisé dans les sciences sociales. Il propose diverses disciplines, ainsi que des travaux de recherche et des services allant de la méthodologie d'enquête à l'informatique appliquée, en passant par la collecte, la planification et l'analyse de données. Les journalistes intéressés par des sujets tels que l'approche méthodologique de GESIS, le recours aux immigrés surqualifiés, etc., trouveront de nombreuses informations dans la section Publications. 322. Avenirs religieux mondiaux Des sujets comme l'avortement à l'éducation sexuelle, la religion est si omniprésente que, même dans les pays majoritairement laïques, la position d'une personne sur des questions sociales délicates peut être influencée par ses convictions religieuses. Dans son rapport « Global Religious Futures », le Pew Research Center analyse les tendances des attitudes et des croyances des individus en lien avec les religions du monde. Les journalistes souhaitant examiner des détails tels que l'influence de l'évangélisme en politique ou les opinions sur la lapidation peuvent utiliser l'outil Data Explorer pour trouver des réponses dans les données. 323. Indice de gestion des risques L'Index pour la gestion des risques, également connu sous le nom d'INFORM, est une plateforme permettant aux chercheurs et aux journalistes d'évaluer les risques en cas de crise humanitaire ou de catastrophe. L'organisation propose des liens vers des données sur des sujets tels que les taux de mortalité infantile, l'indice d'inégalité des sexes et la fréquence des sécheresses. Il est possible de consulter et de télécharger les données d'INFORM ou d'y accéder via la carte interactive du site. 324. INED L'INED, ou Institut national d'études démographiques, est l'une des sources de données et de statistiques les plus prolifiques qu'un journaliste puisse trouver sur Internet. Avec plus de 70 publications par an, présentant la population mondiale sous forme de graphiques et des statistiques mesurant des questions telles que les différences de fécondité entre les sexes, l'INED constitue une ressource précieuse pour les chercheurs en quête de données fiables et précises. 325. Archives des réseaux internationaux Les Archives des réseaux internationaux de Princeton offrent un ensemble unique de publications, avec des recherches telles que le Rapport sur le développement humain 1999 et la revue Global Networks: A Journal of Transnational Affairs, accessibles en ligne. Ce site permet aux journalistes d'explorer en profondeur les données historiques et actualisées, publiques et exhaustives, des archives. Parmi les sujets abordés figurent la santé, l'armement, l'édition, la musique, les migrations, les régions, Internet, la politique et les transports, pour ne citer que quelques exemples des ressources consultables par les chercheurs. 326. Programme international d'enquêtes sociales Créé dès le départ dans un esprit de collaboration internationale, le Programme international d'enquêtes sociales (ISSP) réalise chaque année des enquêtes sur divers sujets importants en sciences sociales. Parmi les thèmes abordés au fil des ans figurent les inégalités sociales, l'identité nationale, la citoyenneté, les réseaux sociaux et l'orientation professionnelle. Les résultats de l'ISSP sont consultables par année ou par thème et peuvent être téléchargés sur le site web. 327. Associations d'études internationales L'Association d'études internationales (ISA) s'adresse aux journalistes et chercheurs en quête d'analyses approfondies sur les enjeux transnationaux, internationaux et mondiaux. Elle réunit des chercheurs, des universitaires et des experts en politiques publiques, entre autres. Son Encyclopédie des études internationales propose des articles évalués par des pairs, riches en analyses approfondies sur des sujets de recherche dans ce domaine, ainsi que des essais offrant une perspective plus historique. 328. Données transnationales sur le Web La page web du professeur James W. McGuire de l'université Wesleyan, intitulée à juste titre « Données transnationales sur le Web », est une ressource extrêmement utile qui regorge de liens vers des données pertinentes sur l'économie et le développement mondial. Parmi les ensembles de données que les journalistes curieux pourront y découvrir, on trouve notamment des informations sur la planification familiale, la réussite scolaire, la malnutrition, l'accès à l'eau et à l'assainissement, l'orientation vers le libre marché, ainsi que des données spécifiques à l'Amérique latine et aux Caraïbes. Les sources de données mentionnées sont irréprochables. 329. Centre norvégien de données de recherche Le Centre norvégien de données de recherche est un organisme qui soutient et accompagne les chercheurs dans divers domaines de la recherche empirique, tels que la protection de la vie privée, la collecte et l'analyse des données, l'évaluation des méthodologies et l'éthique de la recherche. Les chercheurs y trouveront des logiciels et des outils développés et recommandés par le centre, ainsi qu'une vaste collection de données régionales, individuelles et institutionnelles accessibles gratuitement. Le rapport annuel du centre sur la recherche et la protection de la vie privée est également une lecture toujours instructive. 330. IPUMS IPUMS n'est pas nécessairement une source de données au sens où on l'entend généralement, mais elle n'en demeure pas moins une ressource précieuse pour les journalistes grâce à son rôle d'agrégateur, d'archiviste et d'organisateur des données fournies par d'autres entités. À titre d'exemple, IPUMS USA fait office de dépôt de données pour les microdonnées du recensement américain, avec des données remontant à 1790 et jusqu'à nos jours. 331. ND-GAIN L'indice ND-GAIN, une initiative de l'Initiative mondiale pour l'adaptation de l'Université de Notre Dame, mesure la résilience d'un pays face aux changements climatiques et autres forces de la mondialisation. Cet indice comprend des scores de vulnérabilité dans des domaines tels que l'alimentation, la santé, les infrastructures et les écosystèmes, ainsi que des scores de préparation, pour un total de 500 000 points de données. Ces données, couvrant deux décennies (de 1995 à 2014) et disponibles au format CSV, peuvent être téléchargées. 332. Police du Royaume-Uni Sur ce site, journalistes et éditeurs peuvent accéder à des données ouvertes concernant l'état des forces de l'ordre et la criminalité au Royaume-Uni. Ces données contiennent des statistiques utiles sur les équipes de proximité, les différents corps de police, le nombre de contrôles d'identité, ainsi que des statistiques sur la criminalité et ses conséquences. Grâce à ce site, les journalistes peuvent comparer les forces de police et identifier les tendances en matière de justice pénale. Obtenir ces informations est très simple : il suffit de choisir la période, le corps de police concerné, puis d'attendre le chargement du fichier. 333. Page de données internationales générales de Paul Hensel La page de données internationales générales de Paul Hensel regroupe des liens classés sous les rubriques suivantes : États et système international, Données géographiques internationales, Capacités des États, Collectes de données en sciences sociales et Alliances, traités et organisations. Chaque ressource présentée sur cette page web contient des données de pointe qui confèrent une crédibilité indéniable au travail journalistique. Ces sources peuvent inclure des logiciels, des ensembles de données et des archives ; chaque lien proposé est néanmoins utile. 334. TRAC Dans le monde post-11 septembre, le terrorisme et ses effets dévastateurs sur les populations locales ont fait l'objet d'une attention médiatique considérable. TRAC, accessible à l'adresse trackingterrorism.org, fournit aux chercheurs des analyses et des informations approfondies sur ces sujets. Ce site recense des informations sur plusieurs milliers de groupes terroristes différents. Le prix de 500 $ pour un utilisateur unique peut paraître élevé au premier abord, mais il est largement justifié pour ceux qui écrivent sur la violence et la guerre contre le terrorisme. 335. Département de la justice pénale du Texas Intéressé par les rouages du système judiciaire texan ? Curieux de savoir qui se trouve actuellement dans le couloir de la mort ? Le Département de la justice pénale de l’État du Texas dispose de nombreuses informations : les dernières déclarations des condamnés avant leur exécution, des statistiques sur les condamnés à mort ventilées par sexe et origine ethnique, ainsi que des statistiques et des fiches d’information sur les exécutions. Le Département de la justice pénale du Texas est une source des plus fiables pour les journalistes. 336. Système intégré des organisations de la société civile Le Système intégré des organisations de la société civile (iCSO) vise à faciliter la communication entre les organisations de la société civile et le Département des affaires économiques et sociales. Outre l'efficacité de ce cadre robuste, la page web propose des ensembles de données et des catégories pour approfondir l'information. Les données peuvent être triées par secteur, type d'organisation, région concernée et statut de l'organisation auprès de l'ECOSOC. Il s'agit d'une source précieuse pour les journalistes en quête de sources. 337. Universités du monde entier Universities Worldwide est une base de données d'universités du monde entier, consultable pour obtenir des informations complémentaires. La recherche peut s'effectuer par ordre mondial ou être filtrée pour ne retenir que les universités américaines. Les utilisateurs peuvent également ajouter leurs propres liens. Les éditeurs de données disposant d'un important contingent d'étudiants, ou même les journalistes souhaitant vérifier une information, peuvent tous tirer profit de l'accès à une base de données de ce type, disponible à la demande. 338. Programme de données sur les conflits d'Uppsala Voici le site web du Programme de données sur les conflits d'Uppsala, l'un des plus reconnus pour la qualité de ses informations sur la violence organisée. Depuis 40 ans, ce programme s'est également distingué par son travail de collecte de données sur les guerres civiles. Les journalistes peuvent utiliser cette base de données pour rechercher des informations sur des conflits spécifiques et leurs acteurs, et peuvent également télécharger ces données. 339. Pop mondiale Le projet WorldPop, fruit de la fusion des projets AsiaPop, AfriPop et AmeriPop, est dédié à l'archivage de données démographiques spatiales pouvant servir à soutenir les efforts de secours en cas de catastrophe. Les éditeurs de contenu et les journalistes engagés dans des causes de justice sociale ou menant des recherches sur les moyens d'apporter une aide efficace en cas de catastrophe pourraient être intéressés par ce projet. Les chercheurs peuvent télécharger les données ou consulter les études de cas en ligne. 340. Draft Express DraftExpress est surtout connu sur Internet pour ses recherches, ses rapports de recrutement avant la draft, ses simulations de draft et la mise à jour rigoureuse de ses données sur la taille et les mensurations des joueurs, en complément de ses données historiques. Les espoirs présentés sur ce site proviennent de la NCAA, des lycées et même des ligues internationales. Les journalistes sportifs et les créateurs de contenu souhaitant commenter l'actualité du basketball peuvent s'appuyer sur les statistiques de DraftExpress pour analyser les joueurs et les événements en direct. 341. Betfair Betfair est surtout connu comme le site de référence pour les paris sportifs. Cependant, la disponibilité d'informations historiques détaillées sur les données de prix et l'historique du site présente un intérêt particulier pour les fournisseurs de contenu et les éditeurs numériques. Ces données sont accessibles et téléchargeables avec ou sans horodatage précis et offrent des informations complètes sur les courses hippiques et les autres marchés proposés par le site, de juin 2004 à octobre 2017. 342. FEUILLE DE CRICS Cricsheet propose un service similaire à celui de nombreux autres sites de données sportives, mais il est exclusivement dédié aux données de cricket. Le site offre des statistiques et des données balle par balle pour plusieurs ligues, dont l'Indian Premier League, les matchs internationaux d'un jour, ainsi que des statistiques pour les équipes masculines et féminines, pour ne citer que quelques exemples. Les éditeurs de contenu à la recherche de données historiques sur le cricket peuvent les télécharger aux formats CSV ou XML. 343. Données de séries chronologiques transnationales Avec des données politiques, économiques, législatives et relatives aux conflits internes couvrant plus de 200 ans d'histoire et provenant de plus de 200 pays, l'Archive de données chronologiques transnationales est l'un des ensembles de données les plus complets disponibles sur Internet. Ces données sont stockées, pour plus de commodité, dans une feuille Google Drive qui s'ouvre automatiquement en cliquant sur la catégorie du fichier. Moyennant une citation, ces informations peuvent être consultées en partie ou en totalité, selon les besoins du chercheur. 344. Ford GoBike Ford GoBike est le nom du programme de vélos en libre-service utilisé dans la région de la baie de San Francisco. Si de nombreuses personnes utilisent sans aucun doute ce programme pour rester en forme et réduire leur consommation d'énergies fossiles, le système de vélos en libre-service enregistre les données de leurs trajets. Bien entendu, ces informations ne permettent pas d'identifier les utilisateurs, mais comprennent des détails tels que le numéro du vélo, l'heure de départ et d'arrivée, le type d'utilisateur, ainsi que les stations de départ et d'arrivée. Cela mérite d'être étudié. 345. trafic maritime Marine Traffic est une entreprise qui utilise le Big Data pour suivre les mouvements des navires et les traversées océaniques. Les services de son API AIS permettent d'accéder à des informations sur les navires, leurs voyages, ainsi que des données les concernant telles que les arrivées prévues, les incidents, des photos, les caractéristiques des navires et les prévisions de voyage. Le site propose différents abonnements, mais il est difficile de savoir précisément dans quelle mesure les recherches peuvent être effectuées gratuitement. 346. Bixi Les programmes de vélos en libre-service Bixi sont parmi les plus connus dans les plus grandes villes d'Amérique du Nord. Fait intéressant, la marque publie également des données ouvertes, notamment sur l'historique des trajets et l'état des stations, permettant ainsi des comparaisons entre abonnés et utilisateurs occasionnels. Les journalistes locaux qui s'intéressent à l'utilisation et à l'intégration des vélos en libre-service dans le quotidien ont tout intérêt à exploiter ces données. 347. Base de données sur les accidents D'Amelia Earhart au vol 8501 d'AirAsia en Indonésie, les accidents aériens fascinent. La base de données sur les accidents archive et conserve les données relatives aux accidents d'aviation survenus entre 1920 et 2017. Elle recense notamment les accidents de dirigeables civils et militaires, les accidents ayant entraîné la mort de personnalités, les accidents d'hélicoptères ayant fait au moins dix victimes, ainsi que les vols passagers réguliers et non réguliers ayant causé des décès. 348. Transport for London Transport for London (TfL) est l'organisme gouvernemental chargé de superviser les transports publics dans le Grand Londres. Son site web propose des plans du métro et du réseau ferroviaire, ainsi qu'un guide pour planifier ses trajets. Outre ces services pratiques, le site héberge également de nombreuses données ouvertes, notamment sur le vélo, la qualité de l'air, le transport en commun et même les billets d'avion. Toute personne souhaitant savoir comment les Londoniens utilisent les transports publics peut tirer profit de l'accès à ces données. 349. CMAP Le CMAP est chargé de la planification et de l'organisation régionales des comtés de DuPage, Lake, McHenry, Kendall, Kane, Cook et Will, dans l'Illinois. Comme l'indique son site web, le CMAP couvre des domaines tels que le développement communautaire, la fiscalité, les indicateurs économiques, et même les infrastructures routières et de transport. C'est pourquoi les données ouvertes relatives aux indicateurs régionaux et aux déplacements sont précieuses pour un journaliste qui cherche à appréhender la situation dans son ensemble, notamment en ce qui concerne l'avenir de la région. 350. Cadre d'analyse du fret Fruit d'une collaboration entre le Bureau des statistiques des transports et l'Administration fédérale des autoroutes, le Cadre d'analyse du fret collecte des données permettant d'évaluer l'état et la performance du système de transport de marchandises. Ce logiciel recueille des informations détaillées, telles que le type et le tonnage des marchandises, en fonction des gares de départ et d'arrivée. Ces données sont ensuite mises à la disposition du public, qui peut les consulter et les télécharger, soit intégralement, soit sous forme de résumé. 351. Mozilla Science Mozilla Science est un logiciel libre, ouvert et collaboratif conçu pour faciliter le développement et la diffusion de diverses sources de données et de résultats de recherche. Au-delà des considérations de transparence, le choix d'ouvrir les programmes et de recourir à la contribution collective pour leur amélioration permet de perfectionner plus facilement les programmes existants. Avec des projets disponibles dans des domaines variés, notamment les sciences de la vie et la médecine, on y trouve des solutions logicielles susceptibles de représenter des avancées significatives. 352. Des jeux de données intéressants L'attrait du site Cool Datasets est évident dès son nom. Sur cette page, les jeux de données sont classés en six grandes catégories : gouvernement, divertissement, sciences, contributions des utilisateurs, divers et apprentissage automatique. Les journalistes souhaitant explorer ces données et y puiser des idées d'articles trouveront leur compte en consultant ce site web. Il est possible d'explorer les jeux de données et, si possible, d'en contribuer. 353. Moniteur de données ouvert OpenDataMonitor est une plateforme qui rend les jeux de données publics plus intuitifs et accessibles à tous. Les chercheurs peuvent s'y rendre pour obtenir un aperçu des ressources de données ouvertes et visualiser les données existantes de manière plus attrayante. Le site explique sa méthodologie et ses critères d'évaluation, et les éditeurs devraient trouver facilement des données publiables. 354. CrunchBase CrunchBase est surtout connu pour son approche statistique et son engagement à fournir à ses lecteurs les meilleures données disponibles. Des professionnels du monde des affaires consultent quotidiennement ce site pour s'informer des dernières tendances en matière d'investissement et d'industrie. Journalistes et éditeurs y trouvent des actualités et des analyses pertinentes sur les tendances économiques actuelles. Par ailleurs, son abonnement payant donne accès à d'importants ensembles de données analysables grâce aux outils logiciels de CrunchBase. 355. Indice Index est une plateforme qui se distingue par son argument de vente unique : elle s'adresse à tous, des startups aux investisseurs, en passant par les analystes et les grandes entreprises. Le site héberge des informations sur plus de 100 000 entreprises du secteur technologique et permet aux utilisateurs de trier, créer et exporter des feuilles de calcul. Les éditeurs et les journalistes à la recherche d'angles d'attaque peuvent ainsi anticiper l'actualité économique grâce à Index. Si Index est atypique, son utilité est indéniable. 356. SEMRUSH SEMrush se targue d'être l'un des outils d'analyse de données de recherche les plus réputés pour les spécialistes du marketing en ligne. Grâce à son académie et à ses webinaires, les chercheurs ont toutes les opportunités d'apprendre les fondamentaux. Par ailleurs, le blog et la section actualités regorgent d'informations permettant aux éditeurs et journalistes de se tenir facilement au courant des dernières nouveautés en matière de publicité en ligne et de référencement (SEO). Les services de SEMrush sont payants, mais la plateforme propose une multitude d'informations de qualité gratuitement. 357. Ahrefs Ahrefs se présente comme une suite d'outils marketing potentiellement utiles à tous ceux qui publient du contenu en ligne. Le site propose une combinaison de services tels que la recherche de contenu, la veille web, la recherche de mots-clés et l'analyse des backlinks, permettant ainsi aux utilisateurs de comprendre les stratégies gagnantes de leurs concurrents. Sans doute plus utile aux éditeurs en ligne, le blog d'Ahrefs représente à lui seul une excellente ressource pour ceux qui privilégient une approche marketing basée sur les données. 358. Angel List AngelList, dont le nom est astucieusement choisi, est un mélange entre Craigslist et LinkedIn, mettant l'accent sur la mise en relation d'investisseurs, de demandeurs d'emploi et de startups sur une seule et même plateforme. Outre ce concept original, le site offre de nombreuses opportunités aux journalistes d'investigation pour découvrir les startups les plus prometteuses et les nouvelles tendances d'investissement avant qu'elles ne se généralisent. Grâce à son interface intuitive et à sa forte orientation business, ce site s'avère utile aux professionnels à bien des égards. 359. Acquis Dans presque tous les secteurs, une acquisition peut bouleverser une industrie entière du jour au lendemain. Acquired est un site qui informe le public des acquisitions dans le secteur technologique. Grâce à ses nombreuses statistiques et à ses filtres de recherche, les journalistes spécialisés en technologie trouveront en Acquired une ressource précieuse à consulter régulièrement. 360. Mattermark Mattermark est un service payant qui simplifie la vie des décideurs en leur fournissant des listes de clients de qualité, prenant en compte à la fois les entreprises et leurs employés clés. Avec ses profils d'entreprise complets, sa flexibilité grâce à son API et ses options d'exportation pour faciliter les mises à jour, Mattermark offre une solution complète. Les entreprises souhaitant optimiser leur prospection et suivre les résultats de leurs campagnes ont tout intérêt à s'abonner à ce service. 361. Start-ups Fintech FintechStartupsCo fait office d'agrégateur recensant les levées de fonds réalisées par différentes entreprises lors de leurs introductions en bourse. Son design minimaliste, avec une navigation fluide entre les onglets « Startups » et « Actualités », permet aux journalistes de suivre rapidement et facilement l'actualité des levées de fonds. De leur côté, les éditeurs en quête de contenu et d'articles percutants trouveront également leur compte sur ce site. 362. Datafox Au cas où son nom ne serait pas assez explicite, DataFox est une entreprise qui s'efforce de fournir à ses clients les informations nécessaires pour optimiser leurs CRM et, plus généralement, prendre des décisions basées sur les données. Proposant des services tels que l'analyse de conférences et d'entreprises, des API et des indicateurs de performance, cette société est un guichet unique pour les entreprises qui modernisent leurs stratégies de vente et de prospection. Les éditeurs numériques et les fournisseurs de contenu pourraient également y trouver leur compte. 363. Opensending OpenSpending est une plateforme gratuite, accessible quasiment partout dans le monde, qui permet de rechercher et d'analyser des données financières publiques. Pour le grand public, c'est un outil puissant de visualisation et d'analyse. Les journalistes, notamment, peuvent utiliser OpenSpending pour découvrir des informations inédites et explorer des pistes journalistiques, comme le suggère la plateforme sur son site. De plus, les journalistes figurent parmi les professions les plus recherchées sur le forum. 364. API ESPN Sports Non contente d'être la chaîne sportive la plus populaire du câble, ESPN étend son influence au développement et aux API. Dans son Centre de développement, le site propose aux éditeurs un large choix d'API incluant des notes de recherche, des classements, des pronostics de draft, des calendriers et des titres d'actualité. Une API permet même d'accéder aux profils, biographies et statistiques des athlètes de tous les sports majeurs. Les journalistes préparant un article sportif trouveront assurément leur compte en consultant ces ressources. 365. Référence sportive Pour les passionnés de statistiques sportives qui aiment centraliser leurs données et leurs ressources avancées sur une seule et même plateforme, Sports Reference est l'un des meilleurs sites web. Grâce à ses données historiques incluant les statistiques d'équipes et de joueurs en attaque comme en défense, les chercheurs peuvent affiner leur analyse selon leurs besoins. De plus, le site propose des statistiques pour la quasi-totalité des sports majeurs, du basketball au baseball, ainsi que des données spécifiques pour différents sports universitaires. 366. Ensemble de données d'un million de chansons La collection « Million Songs », dont le nom est tout à fait approprié, rassemble 28 ensembles de données de métadonnées et d'informations sur les caractéristiques audio d'un million de chansons. Fruit en grande partie des travaux du LabROSA de l'Université Columbia en collaboration avec Echo Nest, cette collection est accessible et hébergée sur le système AWS d'Amazon. Les utilisateurs peuvent effectuer des recherches dans cette base de données via Infochimps, ce qui la rend encore plus accessible aux journalistes en quête d'anecdotes insolites ainsi qu'aux éditeurs de contenu.




