Il existe de nombreux types de sites différents qui fournissent une multitude de données gratuites, freemium et payantes qui peuvent aider les développeurs d'audience et les journalistes dans leurs efforts de reportage et de narration. L'équipe de State of Digital Publishing tient à les reconnaître, car ils découlent de recherches manuelles. et la reconnaissance de notre public existant.
1. Kagglé
Kaggle est un site qui permet aux utilisateurs de découvrir l'apprentissage automatique tout en écrivant et en partageant du code basé sur le cloud. S'appuyant principalement sur l'enthousiasme de sa communauté importante, le site héberge des concours d'ensembles de données pour des prix en espèces et, par conséquent, il contient d'énormes quantités de données compilées. Que vous recherchiez des données historiques de la Bourse de New York, un aperçu des tendances de la production de bonbons aux États-Unis ou un code de pointe, ce site regorge d'informations.
2. Wikipédia
Il est impossible de rester longtemps sur Internet sans tomber sur un article de Wikipédia. Avec des articles allant de biographies historiques entièrement sourcées et référencées à des chronologies du futur proche et lointain, on peut dire sans risque de se tromper que Wikipédia a consolidé son statut d'encyclopédie gratuite sur le Web. Entre l'entrée qui sert d'aperçu général du sujet et les nombreux livres et références en ligne fournis par le site, Wikipédia est le meilleur ami de l'écrivain à bien des égards.
Comme on peut le supposer d'après le nom du site Web, Common Crawl recherche ou "parcourt" le Web à la recherche de données qu'il stocke et construit ensuite dans un référentiel ouvert auquel les utilisateurs peuvent accéder. Pour deux exemples de ce qui est possible avec ce site, des marqueurs de brevets virtuels et des listes complètes de sites Web proposant des flux RSS fournissent un petit échantillon de la puissance de cette application. Si vous souhaitez effectuer des comparaisons de données ou de sites, il s'agit d'un outil accessible pour créer des informations originales.
4. GDE
EDRM, abréviation de Electronic Discovery Reference Model, est un site pour les professionnels du droit dédié à la réalisation du potentiel de la découverte électronique et des règles et attentes entourant la manière dont les informations sont régies. En outre, les membres de l'EDRM travaillent ensemble pour développer des normes collaboratives, des logiciels et des outils pédagogiques conçus pour faire avancer les objectifs de la communauté. Pour glaner des informations sur la manière dont la technologie peut changer et a changé les aspects procéduraux et administratifs de la pratique juridique, c'est le site que vous souhaitez visiter.
5. Cornac
Mahout se concentre sur un logiciel du même nom qui tente de comprendre la logistique de la construction d'un environnement capable de créer des applications d'apprentissage automatique hautes performances qui peuvent être mises à l'échelle et créées rapidement. Pour les chercheurs qui souhaitent compiler et manipuler leurs propres ensembles de données ou s'essayer aux applications d'apprentissage automatique, ce logiciel est particulièrement utile. Ce site permettra aux individus de bien maîtriser ce logiciel.
Le projet Lemur est une base de données qui se concentre sur le soutien à la recherche sur la récupération d'informations et la gestion des technologies du langage humain. Avec des pages Web comptant environ 1 milliard et 10 langues collectées de janvier 2009 à février 2009, la quantité de matériel présent et de soutien en fait une excellente ressource pour les chercheurs. Entre tout cela et le support supplémentaire qui peut être trouvé sur le site, quiconque s'intéresse à la technologie et aux langages humains aura de quoi travailler sur ce site.
Project Gutenberg est un répertoire qui contient des romans, des articles et d'autres œuvres du domaine public. La collection de plus de 54 000 livres électroniques du site va de documents bien connus tels que Shakespeare, Mark Twain et Jane Austen à des œuvres moins connues de noms plus obscurs comme Henri Bergson et Samuel Butler. Qu'il s'agisse de saisir un roman classique pour être bien lu ou de faire des recherches sur la façon dont les gens ont vécu la vie au 19e siècle, le projet Gutenberg est une excellente ressource.
8. Ensemble de données d'un million de chansons
Il s'agit d'un site Web qui héberge un ensemble de données complet contenant les caractéristiques audio et les métadonnées d'environ 1 million de chansons populaires. En plus de l'ensemble de données principal d'un million de chansons, il existe également un certain nombre d'ensembles de données auxquels la communauté a contribué dans des catégories connexes telles que les reprises, les étiquettes de genre et les paroles, entre autres. Les historiens de la musique, les amateurs ou les chercheurs qui veulent ces informations pourront trier les données avec une relative facilité. Cela pourrait très bien être l'ensemble de données le plus complet sur ce sujet sur l'ensemble d'Internet.
9. Amazone
Tout le monde connaît Amazon en tant que détaillant numérique, mais saviez-vous qu'Amazon héberge également des ensembles de données publics gratuits accessibles à tous sans avoir à stocker ou télécharger quoi que ce soit sur leurs propres appareils ? Avec des données allant de la météo, de l'environnement spatial et des informations météorologiques à l'imagerie axée sur le développement d'algorithmes qui facilitent la vision par ordinateur, les options ne manquent pas pour ceux qui recherchent un moyen plus pratique d'analyser d'énormes quantités de données.
10. Gouvernement ouvert Canada
Dans le but de promouvoir une plus grande transparence, d'inciter davantage de citoyens à s'engager et d'encourager le dialogue, le gouvernement du Canada offre des données détaillées dans le cadre de son initiative pour un gouvernement ouvert. Sur ce site, vous pouvez trouver des ensembles de données sur des questions liées au gouvernement telles que les niveaux de capacité des refuges pour sans-abri au Canada ainsi que des chiffres régionaux sur les niveaux de participation des anglophones et des francophones dans le secteur public. Avec l'accès à des ensembles de données de cette nature, il n'est pas nécessaire de dépendre des statistiques d'autres personnes pour trouver des informations.
Data Catalogs, maintenant Data Portals, offre aux utilisateurs un site pratique pour parcourir les portails de données ouvertes du monde entier. Les portails étant évalués et organisés par différents niveaux de gouvernement, un certain nombre d'ONG et même la Banque mondiale, les données disponibles pour l'analyse sont de très haute qualité. Les utilisateurs ont la possibilité de parcourir ou de contribuer à des portails de données. Du point de vue de la recherche, la variété des sujets et des informations fait de ce site un endroit particulièrement pratique pour commencer une recherche d'informations.
Data.gov.uk est un site qui permet aux particuliers de trouver et d'accéder aux données publiées par divers organismes publics, services gouvernementaux, autorités locales et agences gouvernementales. Ici, les chercheurs peuvent trouver des informations sur le climat économique pour les petites entreprises, le commerce, les importations, l'industrie et les exportations ou même faire des recherches sur les paiements de plus de 25 000 £ effectués par les ministères. Le site indiquant explicitement que les données peuvent être utilisées pour la recherche, les informations couvertes ici peuvent même générer plus d'idées au fur et à mesure que les chercheurs les parcourent.
Ce site est l'endroit où le gouvernement américain fournit des données ouvertes auxquelles le public peut avoir accès sous la forme d'ensembles de données. En plus des données brutes, le site propose également un certain nombre d'outils qui peuvent être utilisés pour effectuer des visualisations de données ainsi que pour créer des applications pour le Web et le mobile. Ne fais pas d'erreur. Les données sont immenses avec des informations allant des plaintes de carte de crédit aux données du programme fédéral de prêts aux étudiants dans plus de 197 000 ensembles de données. Ce site offre de nombreuses possibilités d'innovation et d'analyse complète.
DataSF propose des centaines d'ensembles de données concernant à la fois la ville et le comté de San Francisco. Intéressé de voir ce que les lobbyistes locaux et régionaux ont fait pression ? Avez-vous besoin de statistiques sur la criminalité? Parcourez l'onglet Showcase pour voir ce que les gens ont accompli avec les données ou utilisez le formulaire pour apporter une contribution. Fabriqué avec Open Data et offrant une académie, un blog et un certain nombre d'autres outils, ce site est en grande partie motivé par la collaboration et la communauté. Cela en fait un atout pour le chercheur.
15. DataFerrett
DataFerrett est différent de nombreux sites en ce sens qu'il ne s'agit pas tant d'un référentiel ou d'un répertoire que d'un outil permettant aux utilisateurs de personnaliser les données provenant de sources locales, étatiques et fédérales grâce à l'analyse et à l'extraction de données. Cet outil permet aux utilisateurs de créer des feuilles de calcul personnalisées et complètes, puis de transformer les mêmes informations en une carte ou un graphique sans avoir à télécharger ou activer un autre logiciel. Organiser des entrées de données massives et les transformer en quelque chose de facile à lire n'a jamais été aussi simple.
16. Informations
Par l'intermédiaire de l'Université du Maryland, Inforum met les données économiques américaines à la disposition du public. De nombreuses agences gouvernementales américaines ont contribué à ce site au point où le site contient désormais des milliers de "séries chronologiques économiques", comme il les appelle, et celles-ci contiennent des chiffres sur la production industrielle, les indices de prix, les statistiques du travail et les indicateurs commerciaux. Les données sont disponibles gratuitement et peuvent être consultées avec un ordinateur portable ou un ordinateur de bureau personnel. Les chercheurs qui souhaitent obtenir un bon aperçu des données économiques brutes ont une ressource dans Inforum.
17. Europeana
Selon les propres chiffres du site, les collections d'Europeana représentent un total de plus de 50 millions d'enregistrements. En utilisant les ensembles de données organisés ici, les chercheurs peuvent trouver les informations qu'ils recherchent en moins de temps. Les ensembles de données ici incluent des catégories telles que des modèles 3D, des cartes italiennes de la Première Guerre mondiale et même une collection de plus de 20 000 photos historiques de musées lituaniens, entre autres. Que ce soit pour des recherches historiques générales ou comme point de départ pour parcourir les archives massives d'Europeana, c'est une excellente ressource à avoir.
En plus de sa couverture ininterrompue des dernières nouvelles et événements, le Guardian a également une section entière consacrée aux présentations de données. Les pièces ici vont de sujets sérieux comme l'efficacité des politiques de logement sur le sans-abrisme à des sujets un peu plus légers comme les pays qui ont le plus de lauréats du prix Nobel. Les journalistes et les chercheurs ne manquent pas d'informations à utiliser dans leurs propres projets à partir de ce site. Avec l'aide d'une recherche rapide, il est possible de trouver des données sur à peu près n'importe quoi.
19. Omnibus d'expression génique
Hébergé par le National Center for Biotechnology Information, Gene Expression Omnibus est un site qui contient des « données génomiques fonctionnelles publiques » conformes aux normes MIAME (Informations minimales sur une expérience sur microréseau). Le site accepte également des données organisées ou séquencées tout en fournissant les outils nécessaires pour trouver et télécharger les informations. Ceux qui s'intéressent à l'étude des génomes ou à l'acquisition d'informations sur le sujet auront toutes les données dont ils ont besoin ici et plus encore.
Reconnu depuis longtemps pour ses contributions à l'innovation et au progrès dans les domaines des sciences sociales, le Center for Spatial Data Science (CSDS) de l'Université de Chicago explore la prochaine frontière avec son incursion dans l'analyse spatiale et la technologie. Le travail du CSDS a des applications dans pratiquement tous les domaines qui doivent faire face à l'espace dans l'approche des problèmes. Par conséquent, des domaines comme l'économie environnementale, la santé publique et la criminologie ont tous bénéficié de ces applications. Le dévouement du CSDS aux logiciels open source et la diffusion de ses informations rendent les données fournies encore plus accessibles.
21. Konect
Grâce à l'utilisation des données collectées par l'Institut des sciences et technologies du Web de l'Université de Coblence-Landau, KONECT (Koblenz Network Collection) propose des recherches effectuées dans le domaine de la science des réseaux et de ses sujets connexes. Le projet utilise une série de ses propres outils logiciels d'analyse de réseau pour traiter les chiffres et produire des tracés et des algorithmes dessinés. KONECT héberge alors les résultats de ses travaux d'analyse directement sur le site. Avec plus de 200 ensembles de données parmi lesquels choisir, il s'agit d'une ressource qui mérite d'être explorée.
MIdata est un site qui sert de référentiel pour les données censées être utilisées par les données d'apprentissage automatique. Ces ensembles de données peuvent aller d'une compilation d'expressions faciales humaines à des sujets plus scientifiques comme la prédiction de la façon dont les molécules se lieront. Avec des entrées divisées en catégories qui offrent un accès aux données brutes, des tutoriels dans la section matériel et méthodes, ainsi que des tâches et des défis d'apprentissage, ce site permet aux chercheurs d'analyser le référentiel pour les ensembles de données qui les intéressent.
23. NASDAQ
Le NASDAQ est une bourse de renommée mondiale qui est depuis longtemps une excellente ressource pour les journalistes et les chercheurs à la recherche de données sur le monde de la finance et des affaires. Vous y trouverez des informations sur les introductions en bourse, les données historiques sur les prix et les dernières nouvelles financières qui font de ce site une destination en ligne incontournable pour les données financières. NASDAQ Composite propose également des options de données payantes pour ceux qui souhaitent effectuer une analyse plus approfondie. C'est une ressource très respectée et bien établie.
24. Nasa
Datant de l'alunissage, tout le monde a maintenant entendu parler de cette agence gouvernementale et de ses incursions dans l'espace. Cependant, les journalistes s'intéressent à la façon dont la NASA est également une source précieuse de données grâce à ses archives coordonnées de données sur les sciences spatiales. Ici, les chercheurs peuvent trouver des données de mission scientifique spatiale dans des catégories telles que l'astrophysique, les ressources d'image et l'héliophysique, entre autres. En outre, de nombreux livres blancs sont également disponibles sur le site pour accompagner les nouvelles données soumises.
Socrata est un site qui prend les données gouvernementales disponibles et les met dans un format qui permet aux gens d'analyser, de cliquer et de trouver plus facilement les informations qu'ils recherchent. Conçu spécifiquement pour répondre aux besoins d'individus non techniques tels que les experts en politique publique, les chercheurs, les entrepreneurs et les citoyens concernés, Socrata utilise le cloud pour compiler des données à partir de diverses sources. Pour les journalistes qui essaient de comprendre l'efficacité des différentes politiques, il s'agit d'une plate-forme utile.
26. Quandl
Quandle est un site qui propose principalement des données économiques et financières formatées en fonction des besoins des professionnels de l'investissement. S'appuyant sur plus de 500 sources d'informations provenant d'organisations crédibles telles que CLS Group, l'ONU, les banques centrales et Zacks, entre autres, pour agréger ses données, cette source de données est parfaite pour les chercheurs et les journalistes qui souhaitent obtenir une vue d'ensemble en un coup d'œil. Grâce au complément Excel du site, l'accès direct aux données n'a jamais été aussi simple pour les utilisateurs.
27. L'université de Carnegie Mellon
L'Université Carnegie Mellon a une réputation bien méritée en tant qu'excellente institution universitaire. Ce que beaucoup de gens ignorent, c'est que le StatLab de Carnegie Mellon est une ressource utile pour les journalistes à la recherche de données. Cette archive d'ensemble de données comprend des données sur des questions telles que les salaires MLB des joueurs nord-américains en 1986 ainsi que des données conçues pour être utilisées dans l'évaluation de l'exactitude des logiciels de statistiques. En échange d'une reconnaissance, ces ensembles de données sont disponibles pour un usage public.
28. OPC
Le référentiel d'apprentissage automatique UC Irvine, appelé UCI, est un site qui stocke une tonne de données intéressantes que les journalistes peuvent utiliser. Abritant 394 ensembles de données à ce jour, le site a l'avantage supplémentaire d'avoir une interface facile à rechercher. Certains des ensembles de données les plus populaires incluent des informations sur la «reconnaissance de l'activité humaine à l'aide de smartphones», le vin et le marketing bancaire, entre autres sujets. En échange de l'utilisation de toutes ces données, le site demande simplement une citation.
29. DUC
Si vous êtes un journaliste qui étudie le développement de l'apprentissage automatique, la page UCR Time Series Classification/Clustering constituera une excellente lecture. Le site fournit un document d'information utile qui vous fournira toutes les informations de base dont vous avez besoin. Outre un aperçu du contenu des informations, le site offre également la possibilité de télécharger directement les données. N'oubliez pas d'utiliser le format de citation demandé par le site si vous utilisez ces ensembles de données.
Besoin de statistiques sur la richesse de la population ? Vous voulez connaître la répartition exacte par sexe d'un domaine particulier? Le recensement américain est un site qui a toutes ces données et plus disponibles pour le public. Triez les données par année ou par région, et vous pourrez rapidement trouver les statistiques que la plupart des gens ne savaient même pas avoir été prises en compte dans le recensement américain telles qu'elles l'étaient. Ces chiffres étaient disponibles dans Excel et Microsoft Word en tant qu'options qui rendent les données encore plus accessibles aux journalistes.
31. Wolfram Alpha
Wolfram Alpha est en fait un moteur de calcul qui permet aux utilisateurs de saisir les données qu'ils souhaitent connaître et de recevoir un calcul. Le moteur fait des données et des analyses statistiques, de la chimie, des dates et des heures, et même des mots et de la linguistique, entre autres choses. Pour les utilisateurs qui tentent de découvrir de nouvelles façons de gérer les données, cela est particulièrement utile car il est capable de simplement cracher de nouveaux calculs en appuyant sur un bouton. Les journalistes, en particulier, ont tout à gagner à utiliser cela comme une ressource supplémentaire.
32. Japper
Il s'avère que Yelp est plus que de simples restaurants et avis d'utilisateurs. Ce site d'avis axé sur les utilisateurs conserve également un ensemble de données qui permet aux chercheurs d'accéder aux avis, aux données des utilisateurs et aux entreprises à des « fins personnelles, éducatives et académiques ». Selon le décompte de l'entreprise, cela représente 4,7 millions d'avis et 156 000 entreprises dans 12 régions métropolitaines incluses dans l'ensemble de données. Avec ces chiffres, les matériaux et les tendances que les chercheurs pourraient potentiellement découvrir dans ces données pourraient être une agréable surprise.
Vous voulez avoir une liste des pages Facebook supprimées ? Comment trier les données économiques américaines par comté semble-t-il ? Data World est un site qui permet aux utilisateurs de partager, d'héberger, de collaborer et de suivre les données. Le site comprend même une section pour les journalistes décrivant les raisons pour lesquelles Data World est utile aux membres de la profession tout en soulignant les capacités d'hébergement d'un prédicteur FOIA simplifié ainsi que des pages conçues pour aider à l'organisation. Dans l'ensemble, il s'agit d'un solide mélange de données et d'hébergement de données.
Géré et exploité par la CIA, le World Factbook vous donne des informations sur les structures sociétales, l'histoire, la situation militaire et économique de 267 pays, ainsi que des cartes, des drapeaux et un ensemble de fuseaux horaires suivant les matériaux de la carte du monde. Le site offre un regard approfondi et approfondi sur le sujet d'une manière qui va au-delà des bases. En bref, il s'agit d'une source de données qui devrait figurer dans l'arsenal de tout journaliste.
35. HealthData.gov
Géré par le Département américain de la santé et des services sociaux, HealthData.gov offre au public un accès à des « données de santé de grande valeur » dans l'espoir de capter l'attention des entrepreneurs, des décideurs et des chercheurs. Dans les domaines du développement de produits et de services au moins, les gens ont pu examiner ces données et obtenir des résultats. Les journalistes qui souhaitent être à la pointe des données sur la santé ou qui vérifient une déclaration publiée par un responsable de la santé peuvent utiliser ce site pour trouver des réponses.
36. UNICEF
Il s'agit d'un site qui donne une crédibilité instantanée aux journalistes qui utilisent les informations qu'il propose. Les statistiques couvertes par l'UNICEF comprennent celles relatives aux questions de santé et de droits humains telles que l'éducation, la santé maternelle, la pauvreté des enfants, l'eau et l'assainissement et le handicap des enfants parmi de nombreuses autres catégories de statistiques qui sont conservées. Il est utile pour les chercheurs car il est à jour et soutenu par l'une des organisations les plus connues de la planète. Les journalistes ne peuvent pas se tromper en citant cette source de données.
37. Organisation mondiale de la santé
L'Organisation mondiale de la santé est une organisation internationale qui rassemble des statistiques et des informations sur la santé dans le monde entier. Outre les informations que l'on peut trouver directement sur la page d'accueil, le site propose également des données via l'Observatoire mondial de la santé. Ces données comprennent des informations sur les mesures que les pays prennent vers les soins de santé universels, la recherche et le développement en santé, entre autres catégories. Les journalistes trouveront ici de nombreuses informations sur les épidémies, les urgences sanitaires et la couverture des soins de santé d'un point de vue international.
38. Données publiques de Google
Avec la disponibilité des données publiques de Google, les journalistes peuvent clairement compter sur Google à plus d'un titre. Le mastodonte du moteur de recherche dispose de données publiques disponibles et disponibles pour analyse avec plus de 100 ensembles de données publiques à son nom. Le sujet des données va de l'extrêmement sérieux avec les Indicateurs du développement dans le monde et les Indicateurs du développement humain jusqu'à l'intéressant avec des données sur les routes les plus dangereuses d'Europe. Tout ce qu'un chercheur a à faire est de lancer une recherche et de voir ce que Google Public Data a.
39. Gap Minder
Gap Minder propose des données sur un certain nombre d'indicateurs locaux et nationaux ainsi que des liens et des informations sur tous les fournisseurs de données. En utilisant ce site, les chercheurs peuvent voir des informations telles que l'âge des femmes lorsqu'elles se marient pour la première fois, des statistiques sur la consommation d'alcool et les causes de décès chez les enfants. Pour les journalistes qui écrivent avec une orientation internationale ou qui font des données comparatives, c'est une excellente ressource. C'est une source de données utile quoi qu'il en soit.
40. tendances Google
Google Trends est un outil qui donne aux chercheurs un aperçu de ce que les gens recherchent en ce moment et en ce moment. Les chercheurs peuvent comparer les données aux tendances qui se sont produites dans le passé et peuvent également utiliser l'outil pour faire des estimations avant, par exemple la saison des fêtes, pour voir ce qui se passera pour les recherches à l'avenir. Les tendances Google proposent des graphiques, des sujets d'actualité et de nombreuses opportunités pour découvrir l'actualité avant qu'elle ne soit officiellement publiée.
41. Google Finances
Google Finance offre une opportunité rapide et facile d'effectuer une recherche plus approfondie sur une entreprise dont les investisseurs raffolent. Des moyens simples de filtrer les indicateurs techniques et de consulter les dernières actualités de l'entreprise dans une fenêtre simple et directe qui vous permet de trier encore plus les informations. En plus, c'est gratuit. Pour les journalistes qui souhaitent rechercher les finances d'une société cotée en bourse, Google Finance propose une interface intuitive pour accéder à ces informations. Malheureusement, Google a récemment abandonné certaines des fonctionnalités de base telles que le portefeuille financier. Voici quelques alternatives à Google Finance .
42. DBpédia
Quiconque a déjà souhaité un moyen plus simple d'effectuer des recherches sur Wikipedia a des raisons d'être enthousiasmé par DBpedia. Propulsé par l'engagement de la communauté, ce site vise à permettre d'effectuer des recherches plus sophistiquées sur le contenu de Wikipédia. Avec la version anglaise qui compte 4,58 millions d'entrées avec des classifications et des catégories associées, le site est en bonne voie d'offrir une couverture complète basée sur les informations de Wikipedia. Les journalistes ne peuvent pas se tromper avec cette source de données.
Pour beaucoup, Pew Research se situe à l'échelon supérieur en ce qui concerne les enquêtes, les rapports et les données de recherche. Le site couvre des sujets allant des opinions politiques aux tendances sociales et aux développements dans diverses industries du lieu de travail. Pew Research dispose également d'une fonction de recherche qui facilite plus que jamais l'accès aux informations. Les journalistes qui veulent des statistiques et des résultats à jour provenant d'une source fiable et réputée ne peuvent pas se tromper en se tournant vers Pew Research.
44. Institut large
Pour les journalistes qui souhaitent connaître les dernières nouvelles concernant le cancer, les ensembles de données du Broad Institute pourraient être l'endroit idéal pour trouver l'information. Cela comprend également des informations sur des sujets supplémentaires tels que la bioinformatique et la biologie computationnelle ainsi que le cancer du cerveau et la découverte de modèles moléculaires. En bref, ce site donne aux journalistes une longueur d'avance en termes de recherche de données approfondies sur le cancer pour faire des histoires à partir des données fournies par le Broad Institute.
45. UNdata
UNdata propose des informations sur différents pays du monde. Cela inclut des données telles que des indicateurs techniques, des indicateurs sociaux et des indicateurs économiques pour chaque pays concerné. Pour les journalistes qui travaillent sur des histoires d'intérêt humain ou des histoires qui pourraient bénéficier d'être étayées par des statistiques et des données supplémentaires, UNdata est le choix idéal. L'exactitude des données ainsi que la réputation de l'ONU en font une source de données sur laquelle les journalistes peuvent compter lorsqu'ils effectuent des recherches.
46. Google Scholar
Imaginez si, au lieu de faire défiler les sites Web, il était possible de lancer une recherche qui ne contenait que des articles évalués par des pairs et des documents académiques. Google Scholar permet aux utilisateurs de trouver des articles de revues, des livres blancs et des publications des plus grands universitaires du monde. Comme c'est généralement le cas pour cette entreprise, Google Scholar est aussi intuitif que possible, l'utilisateur n'ayant qu'à saisir un mot-clé pour lancer le bal. La recherche d'articles universitaires n'a jamais été aussi simple.
47. Reddit
Connu le plus souvent comme "la première page d'Internet", Reddit est l'un des sites Web les plus populaires sur Internet. En plus d'être une jauge précise de ce qui se passe en ligne, le site dispose également d'un sous-reddit, ou d'un sous-forum, également consacré aux ensembles de données. Les utilisateurs peuvent demander des ensembles de données, publier des ressources et discuter de l'utilisation des données via des formats tels que JSON. Les chercheurs ont beaucoup à gagner à parcourir cette source de données.
Qlik DataMarket vous permet de collecter et de gérer des données provenant de sources externes. Cette plate-forme permet aux utilisateurs d'emprunter plusieurs ensembles de données avec la possibilité de les croiser avec les données qu'ils possèdent déjà afin d'affiner leur sens du contexte. Mieux encore, même s'il s'agit d'une plate-forme payante en fonction du sujet, il existe également une option gratuite avec Qlik Datamarket. Les journalistes qui explorent les données peuvent le faire à leur guise.
49. Hubspot
Hubspot a toujours été un leader d'opinion dans le who's who du marketing pour les entreprises. Du point de vue de la recherche, il s'agit d'un site qui dira aux chercheurs tout ce qui se passe dans l'industrie ainsi que ce dont les gens de l'industrie du marketing parlent en ce moment en temps réel. Les journalistes peuvent utiliser ce site pour en savoir plus sur les tendances. Sur cette note, Hubspot est une excellente ressource pour les chercheurs.
50. Bureau des statistiques judiciaires
Sans surprise, le Bureau of Justice conserve une tonne de statistiques. Sur le site Web du Bureau, vous pouvez trouver des chiffres sur les arrestations, les décès de détenus, les exécutions par la peine capitale, les statistiques sur l'application de la loi et les recensements des prisons. Le système de justice pénale est un sujet de fascination constante tant pour le public que pour les personnes qui y sont impliquées. C'est ce qui rend les statistiques du Bureau of Justice encore plus utiles pour les journalistes qui font des recherches sur le système de justice pénale.
51. Rapport de criminalité uniforme
Le Uniform Crime Report est une collection de statistiques sur les crimes contre les biens et les crimes violents qui est recueillie par le FBI. Alors que les forces de l'ordre de tous les États-Unis rapportent ces données depuis 1930, les résultats ont été publiés depuis 1958 et peuvent rechercher le fichier . Les journalistes qui cherchent à explorer les données sur la criminalité ont la possibilité d'accéder et d'utiliser l'outil de données UCR pour explorer les informations disponibles sur ce site.
52. Signalement uniforme de la criminalité
Uniform Crime Reporting est le résultat d'un programme imaginé par l'Association internationale des chefs de police en 1929. Les chiffres recueillis par le FBI ici sont publiés quatre fois par an. En plus des informations fournies par le programme UCR, le site comprend également des rapports sur les statistiques des crimes haineux, les agents des forces de l'ordre tués et agressés (LEOKA), ainsi que les résultats et les chiffres fournis par le système national de déclaration des incidents.
53. NACJD
NACJD, ou National Archive of Criminal Justice Data, est un site qui tire des informations d'ensembles de données tels que les rapports uniformes sur la criminalité (UCR) et l'enquête nationale sur les victimes de la criminalité (NCVS), puis stocke et distribue les statistiques. Conçues pour être conservées, stockées et maintenues pour une accessibilité ultime, les données se présentent sous plusieurs formes, notamment expérimentales, qualitatives et longitudinales. En fin de compte, cela offre aux journalistes et autres chercheurs un autre moyen de visualiser et d'accéder aux statistiques de la justice pénale.
54. Première banque de données
First Databank est un site qui traite des données sur les médicaments. Le site vise à promouvoir une prise de décision plus efficace et davantage axée sur les données dans le domaine des produits pharmaceutiques. Cela permet aux médecins et aux cliniciens de commencer à penser aux médicaments pharmaceutiques d'une manière différente grâce à l'utilisation innovante de la technologie de First Databank. D'un point de vue professionnel, ce site est particulièrement utile en raison de la façon dont ses données peuvent aider les équipes à s'adapter à mesure que de nouvelles informations arrivent. Au moins, c'est une ressource utile pour les journalistes qui écrivent dans l'espace pharmaceutique.
55. FDA
La FDA, connue sous le nom de Food and Drug Administration, est l'agence chargée de protéger la santé publique en supervisant et en approuvant les médicaments, les produits alimentaires, les suppléments, les vaccins et les cosmétiques, entre autres produits de consommation. En tant que ressource, la FDA dispose d'ensembles de données accessibles au public tout en fournissant des données techniques aux personnes qui sont à l'aise avec les feuilles de calcul et l'analyse des informations provenant des ensembles de données. C'est certainement une ressource utile pour les journalistes.
Vous êtes-vous déjà demandé combien exactement le pays paie à la suite d'une épidémie de drogue ? Y a-t-il des rumeurs selon lesquelles les gens consomment des drogues différemment qu'auparavant ? Drugbase propose une base de données qui regorge de statistiques sur les tendances et la consommation de drogues aux États-Unis. Il existe des infographies ainsi que des publications sur des sujets tels que la comorbidité de la dépendance et de la maladie mentale ou des faits sur la conduite sous l'effet de la drogue (et non de l'alcool). Il s'agit d'une ressource qui fournit suffisamment d'informations pour repérer les tendances et faire des comparaisons avec les données passées.
57. ONUDC
L'ONUDC, ou l'Office des Nations Unies contre la drogue et le crime, a un site Web consacré à la poursuite de son objectif d'aider les États membres à adopter des normes plus strictes en matière de recherche, de collecte de données et de criminalistique. Sur ce site, les chercheurs peuvent trouver de nombreuses statistiques et publications qui couvrent des sujets tels que la collecte de données, l'analyse des tendances et les programmes de recherche lorsque cela est possible. Une ressource qui regorge d'informations sur une variété de sujets liés à la médecine légale ainsi que sur la science du sujet.
58. Faits sur la guerre contre la drogue
Drug War Facts est un site qui propose des discussions approfondies sur la guerre contre la drogue ainsi que sur les conséquences de cette politique. Cela comprend des statistiques et des chiffres sur des détails tels que des comparaisons entre le coût du traitement par rapport au coût de l'application de la loi, des chiffres sur les estimations des dépenses de lutte contre la drogue et une multitude d'informations sur à peu près tous les sujets liés à la guerre contre la drogue. Pour de nombreuses personnes, il s'agit du site le plus complet sur le Web en ce qui concerne la guerre contre la drogue.
59. Centre national des statistiques sur l'éducation
Le National Center for Education Statistics, souvent appelé NCES en abrégé, est l'endroit où aller pour toutes les statistiques liées à l'éducation. Ce site contient des statistiques sur l'état des prêts étudiants, des projections des tendances en matière d'éducation, ainsi que des ensembles de données et des outils de comparaison qui peuvent être utilisés pour effectuer une analyse plus approfondie. Les journalistes peuvent utiliser cette ressource pour découvrir les tendances, vérifier les déclarations publiques, examiner les publications du National Center for Education Statistics et trouver de nouvelles histoires dans les données.
60. Banque mondiale
La Banque mondiale héberge de nombreuses statistiques et données compilées par le Development Data Group dans le secteur financier ainsi que la macro-économie. Il est possible de trier les données en utilisant des hashtags. Les utilisateurs peuvent choisir entre une variété d'indicateurs et faire une sélection par pays afin d'examiner les différentes mesures de progrès du développement. En tant que tel, il s'agit d'une ressource à laquelle toute personne examinant la situation financière et/ou économique des pays membres peut bénéficier d'un accès.
61. Bureau des statistiques du travail
Le Bureau of Labor Statistics est la source incontournable des journalistes pour obtenir des chiffres et des statistiques concernant les conditions de travail actuelles, ce qui se passe sur le marché du travail, ainsi que la façon dont les prix changent et affectent l'économie américaine. Les travaux statistiques de l'agence remontant à 1884, les données économiques ne manquent pas pour que les chercheurs puissent les consulter. Le site stocke les informations dans une interface conviviale et met constamment à jour les données disponibles pour la recherche. C'est une source de données qui mérite d'être explorée.
62. Les nombres
Les sorties à succès attirent beaucoup l'attention des médias, mais il est difficile de dire à quel point une entreprise a réellement réussi sans chiffres. Entrez "Les chiffres". Ce site Web propose des recherches et des données pour l'industrie du cinéma et du divertissement. Les chercheurs peuvent explorer les estimations de revenus, les attentes pour les prochaines versions et d'autres données d'investissement via la capacité du moteur de recherche basé sur SQL d'OpusData. The Numbers est le premier endroit où les chercheurs se rendent pour obtenir des statistiques fiables sur les films et les films. C'est ce qui en fait une excellente ressource.
Film Forever est un site que les chercheurs peuvent visiter pour obtenir des informations sur le marché et des données sur l'industrie cinématographique au Royaume-Uni. Ici, les utilisateurs peuvent trouver les numéros de box-office hebdomadaires pour les 15 meilleures sorties au Royaume-Uni, des études d'audience, des rapports, des études de cas et l'Annuaire statistique phare de l'organisation. De plus, le site dispose également d'un calendrier qui tient les téléspectateurs informés de la date de publication des prochaines statistiques. La niche de Film Forever en fait une source de données particulièrement intéressante.
64. IFPI
L'IFPI est un site qui se targue d'être à l'écoute de l'industrie mondiale du disque. Les utilisateurs trouveront des rapports publiés remplis d'informations sur la musique enregistrée, des données sur les ventes nationales et mondiales, ainsi que des rapports sur le côté commercial de l'industrie de la musique qui montrent comment les entreprises investissent dans la musique. Ces rapports permettent aux utilisateurs de voir ce qui se passe. Ce site tiendra les chercheurs au courant de ce qui se passe dans l'industrie de la musique en temps réel.
65. Statistique
Statista est un moteur de recherche comme Google, mais au lieu de pages Web, le site renvoie des données et des statistiques. D'une simple pression sur un bouton, les utilisateurs peuvent accéder immédiatement à plus d'un million de statistiques et de faits. Les utilisateurs trouveront des infographies, des statistiques sur la Chine, l'industrie alimentaire, les marchés de consommation et, moyennant des frais, des dossiers et des rapports de l'industrie sont également disponibles pour consultation. Que vous recherchiez des informations sur l'économie, les médias sociaux ou le Big Mac, c'est l'endroit pour le faire.
66. APE
L'EPA, qui est l'abréviation de United States Environmental Protection Agency, est l'agence gouvernementale responsable de la protection des personnes et de l'environnement en appliquant les lois qui sont mises en place et adoptées par le Congrès. Sur le site Web de l'EPA, les utilisateurs peuvent parcourir un certain nombre d'ensembles de données sur des sujets allant de l'agriculture à des sujets aussi étroits que les rejets annuels sur les produits chimiques toxiques et les méthodes de gestion des déchets. Ce site est un excellent choix pour les journalistes qui souhaitent accéder à des données environnementales brutes.
67. Centres de contrôle et de prévention des maladies
Ce site Web des Centers for Disease Control and Prevention se présente comme un "guichet unique pour les données de santé publique environnementale". Sur ce site, les chercheurs trouveront des références et des listes de systèmes de données qui reçoivent des fonds nationaux tout en suivant et en stockant des informations liées aux préoccupations de santé publique environnementale. En mettant l'accent sur les programmes qui fonctionnent au niveau national et l'accessibilité grâce à des capacités de téléchargement direct, il s'agit d'une ressource sur laquelle on peut compter pour obtenir les informations les plus récentes et les plus précises sur le Web.
68. Centres nationaux pour la santé environnementale
Créés après la fusion de trois agences auparavant indépendantes, les National Centers for Environmental Health sont l'endroit où aller pour obtenir des informations de haute qualité sur l'environnement. Offrant des données complètes allant des données océaniques aux enregistrements de glace d'il y a des millions d'années, si le problème concerne l'environnement, il y a de fortes chances que ce site Web contienne des informations à ce sujet. L'engagement de l'agence envers l'exactitude et l'excellence dans sa gestion de l'une des plus grandes archives de ce type en fait également l'un des rares sites en ligne qui possède, met à jour et conserve ce type de données.
69. Service météorologique national
Le service météorologique national de la National Oceanic and Atmospheric Administration dira aux chercheurs tout ce qu'ils doivent savoir sur la météo. Ce site propose des recherches de données qui incluent des informations sur des catégories telles que les avertissements et les prévisions, le climat, les prévisions géographiques et plus encore. De plus, cela vient avec une carte intuitive et facile à suivre avec des onglets sur lesquels vous pouvez cliquer pour obtenir différents résultats. Qu'il s'agisse de passer en revue ce qui s'est passé localement ou de trouver les prévisions pour une ville dans un état différent, ce site découvrira rapidement des informations.
70. Wunderground
Wunderground est une ressource qui se consacre à s'assurer que les informations sur la météo sont disponibles pour tout le monde dans le monde, une attention étant également accordée aux zones qui ne reçoivent pas beaucoup de couverture. Wunderground déclare explicitement qu'il a pris des mesures pour s'assurer que l'expérience utilisateur est excellente sur plusieurs plateformes numériques. Cela signifie que le site est accessible via mobile ainsi que via PC, ce qui en fait une ressource idéale pour les journalistes en déplacement.
71. Base météo
Weatherbase fournit des informations sur les conditions actuelles, les moyennes, les informations climatiques et les conditions de voyage pour plus de 40 000 villes à travers le monde à l'aide d'une simple barre de recherche. Utilisez le site compagnon vers lequel le site est lié afin de trouver des informations de voyage supplémentaires à hauteur de convertisseurs de devises, de coordonnées et d'informations sur le comté, entre autres faits amusants. Weatherbase peut également être utilisé pour trouver des lieux de vacances uniquement en fonction du temps qu'il fera. Bonne recherche !
Publié sous l'égide de l'Agence internationale de l'énergie, l'Atlas de l'énergie offre aux chercheurs la possibilité de voir le monde à travers les statistiques énergétiques. Conçu à l'origine pour être une source de données complémentaire depuis sa date de création, le site propose un bilan énergétique animé des flux Sankey ainsi que plusieurs bases de données pour accompagner les publications consultables sur la page des statistiques de l'Agence internationale de l'énergie. Les chercheurs trouveront à la fois ce site et ses sites compagnons extrêmement utiles lors de leurs recherches sur la manière dont les pays et les villes utilisent l'énergie.
73. Bureau d'analyse économique
Le Bureau of Economic Analysis, ou BEA en abrégé, publie un large éventail d'informations utiles qui permettent aux chercheurs de garder leurs doigts proverbiaux sur le pouls de l'économie nationale. Sur ce site, il y a des chiffres sur les comptes économiques américains qui incluent des chiffres sur les dépenses de consommation, le PIB et les immobilisations, entre autres données utiles. Les chercheurs peuvent effectuer une recherche par région ou par industrie ainsi que par niveau avec des options de recherche internationales, nationales et régionales. Essayez la page de données interactives pour en savoir plus sur le bureau.
74. Bureau Nationale de la Recherche Economique
Le site Web du National Bureau of Economic Research, ou NBER, est une source de données qui aborde l'économie d'un point de vue analytique. Il héberge des données sur un large éventail de sujets économiques avec des entrées telles que l'indice de la gouvernance africaine, le cycle économique officiel, les indices expérimentaux de coïncidence, de pointe et de récession et la base de données d'historique macro. Le NBER a des ensembles de données officiels publiés et compilés sous son propre nom ainsi que des index compilés par d'autres éditeurs.
75. Commission américaine des valeurs mobilières et des échanges
La Securities and Exchange Commission des États-Unis est une agence qui agit en quelque sorte comme un chien de garde dans la promotion de la transparence, de l'équité et de l'efficacité sur les marchés. Chose intéressante, le site dispose d'un ensemble de données sur les états financiers datant de janvier 2009 à octobre 2017, avec des mises à jour effectuées tous les trimestres. Les chercheurs peuvent compter sur ce site pour se tenir au courant des dernières nouvelles en ce qui concerne les dépôts et les informations qu'il peut vous fournir sur les entreprises et l'état de leurs finances.
76. FMI
Le Fonds monétaire international, également connu sous le nom de FMI, est une organisation bien établie dans le secteur économique et financier international. Sur le site Web, les chercheurs peuvent trouver une foule de données sur ces sujets. Les utilisateurs peuvent rechercher des ensembles de données par indicateur et par pays et parcourir les graphiques et les cartes tout en effectuant des recherches. Les ensembles de données populaires incluent la direction du commerce, les prix des matières premières, les indicateurs de solidité financière, les enquêtes et les statistiques financières internationales, entre autres informations précieuses.
Conçu à l'origine par Harvard, l'Atlas est un outil en ligne qui permet de visualiser et d'interagir avec la situation commerciale d'une entreprise. Atlas prendra ensuite les informations et proposera différents produits que le pays pourrait potentiellement fabriquer afin d'améliorer son économie. Il s'agit d'un outil utilisé par les décideurs politiques, les hommes d'affaires, les investisseurs et les membres du public engagés qui souhaitent avoir une meilleure compréhension du climat économique d'un pays donné. Les questions de commerce et d'économies nationales n'ont jamais été aussi accessibles.
Doing Business est le résultat d'un effort d'évaluation objective de la réglementation des affaires. Le site examine près de 200 économies et de nombreuses villes en mesurant des détails tels que des indicateurs économiques et en classant la facilité de faire des affaires. Ce site permet aux utilisateurs d'examiner les effets de divers types de réglementations commerciales entre les pays et héberge des rapports ainsi que de nombreuses données qualitatives. De plus, le site permet également de faire des comparaisons dans le temps.
79. Comtrade
À l'origine un projet du Département des affaires, de l'énergie et de la stratégie industrielle du Royaume-Uni en collaboration avec le Département du commerce international, Comtrade est une excellente ressource. Empruntant des données aux données Comtrade des Nations Unies, le site fournit aux utilisateurs un graphique interactif qui peut être utilisé pour rechercher, comparer et analyser les chiffres exacts du commerce et des marchandises entre les pays. Sélectionnez simplement le pays déclarant, choisissez un pays partenaire et faites autant de sélections que possible.
80. Données financières mondiales
Global Financial Data est une source qui ne se contente pas de compiler des données financières standard, elle prend des informations financières datant des années 1200 à nos jours. Ces informations proviennent de diverses sources, notamment des livres, des documents archivés, des revues universitaires et des périodiques d'information. De plus, le site contient des ensembles de données qui utilisent la méthode statistique de chaînage. Le résultat final, du point de vue de l'utilisateur, est une ressource qui ne ressemble à aucune autre sur Internet en raison de ses données exclusives.
Visualizing Economics est moins une ressource au sens de la découverte de données du terme et est plus un service qui se concentre sur la conception de graphiques d'information et de tableaux de bord interactifs. En outre, Visualizing Economics effectue également des analyses et des conceptions dans le but exprès de rendre les données économiques plus faciles à comprendre. Grâce à ce site, les journalistes ont une opportunité légitime de travailler avec un professionnel qui a des années d'expérience dans la traduction de données économiques en quelque chose de plus accessible au grand public.
82. Portail de données ouvertes de l'UE
Le portail de données ouvertes de l'UE est un projet qui a été mis en place à la suite d'une décision prise par la Commission européenne. Sur ce site, les institutions de l'UE proposent des données à la consultation et à l'utilisation publiques sans restriction de droits d'auteur et disponibles gratuitement. Les ensembles de données comprennent les données de référence CORDIS, le registre de transparence et même une liste complète des personnes, entités et groupes contre lesquels l'UE a prononcé des sanctions financières. De plus, les données sont disponibles dans un certain nombre de formats numériques.
83. Réseau de données ouvert
L'Open Data Network est un site qui permet aux utilisateurs de rechercher des données par région et par ville. Arborant une page d'accueil claire et intuitive sur le site, les chercheurs ont la possibilité d'effectuer une recherche par catégorie de données, par ville et même par exemples de questions. Sur chaque page, après avoir parcouru les catégories de données ou les exemples de questions, vous trouverez également des liens pratiques vers encore plus d'ensembles de données. L'organisation des données à elle seule fait de l'Open Data Network un site qui vaut la peine d'être exploré.
84. Landmatrix
Le Landmatrix est un site qui propose une base de données en ligne pour les transactions foncières dans le but de promouvoir plus de transparence sur les acquisitions. Essentiellement, cet outil peut être utilisé pour visualiser et donner un sens aux différentes transactions foncières. Les données sont constamment améliorées, modifiées et ajustées afin d'améliorer l'exactitude des informations mises à disposition. À ce jour, le Landmatrix dispose d'informations sur plus de 1 000 transactions. C'est une source à explorer pour les chercheurs.
85. Programme de développement des Nations Unies
Le Programme des Nations Unies pour le développement héberge de nombreuses données utiles sur le développement humain dans le monde que le public peut explorer. Avec des dates allant généralement de 1990 à 2015 dans un grand nombre de ces ensembles de données, les index incluent des tableaux complets tels que les tendances de l'indice de développement humain, l'indice d'inégalité entre les sexes et l'écart entre les sexes au cours de la vie. Les chercheurs peuvent rechercher les données directement via la barre de recherche et également par pays si l'intention est de parcourir le graphique.
86. OCED
L'OCDE, connue sous le nom d'Organisation de coopération et de développement économiques, a un site qui se concentre sur l'aide aux gouvernements dans les initiatives de lutte contre la pauvreté et la prospérité grâce à la stabilité et à la croissance économiques. Sur ce site, les chercheurs trouveront des documents évalués par des pairs, des publications, ainsi que des normes et des arguments en faveur de l'établissement de normes. L'OCDE héberge également un factbook qui fournit un solide outil de référence économique pour accompagner un certain nombre d'enquêtes et de prévisions sur les perspectives économiques qui peuvent être trouvées sur ses pages.
87. Département américain de la santé et des services sociaux
Le département américain de la Santé et des Services sociaux exploite un site qui fournit des informations sur le Conseil présidentiel sur la condition physique, les sports et la nutrition. Avec des faits et des données compilés avec l'aide de plusieurs experts dans des domaines connexes tels que les chefs et les athlètes. De plus, le site dispose également d'une foule de statistiques. Les chercheurs peuvent trouver des faits sur l'activité physique des enfants, les habitudes de renforcement musculaire des adultes, ainsi que des informations sur les habitudes alimentaires du public, ainsi que sur l'obésité parmi de nombreux autres faits et statistiques.
88. Partenaires dans l'accès à l'information pour le personnel de santé publique
Partners in Information Access for the Public Health Workforce est un projet qui a vu le jour à la suite d'organisations de santé publique, d'agences gouvernementales américaines et de bibliothèques spécialisées dans les sciences de la santé. Les pages thématiques de ce site incluent des sujets tels que les subventions et le financement, la promotion de la santé et l'éducation à la santé, ainsi que la littérature et les lignes directrices. La section Sujets de santé publique contient également des données sur des sujets tels que le bioterrorisme, la génomique de la santé publique et la santé publique dentaire, pour n'en nommer que quelques-uns.
89. Fondation unie pour la santé
Au cours des trois dernières décennies, la United Health Foundation a fourni des informations sur les classements de santé à utiliser comme moyen de mesurer la santé publique. Le site héberge de nombreux rapports et publications qui incluent des rapports sur la santé de ceux qui ont servi, des rapports de haut niveau, la santé des femmes et des enfants, des rapports annuels et même des notes sur des sujets importants sur le terrain. Utilisez la carte interactive pour explorer par région et obtenir plus d'informations. Il y a aussi une barre de recherche pour une navigation plus poussée si les chercheurs recherchent quelque chose de plus spécifique.
Aux États-Unis, Medicare est le principal moyen sur lequel beaucoup de gens comptent pour l'assurance maladie et l'accès aux soins médicaux. Outre les services qu'il offre en temps réel, Medicare propose également des données sur les normes et la qualité des traitements dans les établissements et les hôpitaux via son tableau de comparaison et sa règle. Il s'agit de l'ensemble de données officiel utilisé par le site Web Hospital Compare et il regorge de données pouvant être téléchargées dans Excel pour en faciliter l'accès.
91. Surveillance, épidémiologie et résultats finaux (SEER)
Surveillance, Epidemiology and End Results, également connu sous le nom de SEER, dispose d'un site particulièrement utile comme source d'informations sur les statistiques sur le cancer. Il héberge des résumés statistiques qui permettent la recherche sur les nombres associés au cancer qui peuvent être triés par le site du cancer, l'origine ethnique, la race, l'âge, le sexe et même par type de données. Le site héberge également des publications, des ensembles de données et des logiciels qui peuvent être utilisés par les chercheurs pour une analyse encore plus approfondie.
Amnesty International est une organisation qui défend depuis longtemps les droits humains et la justice dans le monde. Il se trouve également qu'il héberge de nombreuses données sur l'état des droits de l'homme dans le monde ainsi que des informations sur des atrocités et des crimes contre l'humanité spécifiques à différents moments dans le cadre de son rapport annuel. Les chercheurs peuvent utiliser les informations pour faire des comparaisons entre différentes années et pour voir comment différents pays ont évolué ou régressé dans le domaine des droits de l'homme.
93. Groupe d'analyse des données sur les droits de l'homme
Depuis sa création il y a 25 ans, le Groupe d'analyse des données sur les droits de l'homme applique des principes scientifiques aux violations des droits de l'homme dans différents pays du monde. Le site héberge des publications qui ont été publiées dans des médias réputés tels que le Washington Post et des publications officielles des éditeurs Macmillan triées par année. Parallèlement à ses publications organisées remontant à des années, des projets ont également eu lieu dans le monde entier. Pour un regard plus technique sur les violations des droits de l'homme, c'est une excellente recherche.
94. Données sur les relations internationales et les droits de l'homme
Ce site héberge des bases de données compilées par de nombreuses organisations réputées, des universités et même des agences gouvernementales. Des exemples de ceux-ci seraient le projet Manifesto, le projet Minorities (at Risk), le Comparative Welfare States District et la base de données sur les conflits armés. Certains projets, comme le projet Polity IV, remontent aux années 1800. Pendant ce temps, des projets comme l'Institut international de recherche sur la paix de Stockholm (SIPRI) mesurent les transferts d'armes, les dépenses militaires internationales et les tendances en matière de sécurité. La meilleure façon d'apprécier les données serait de se rendre sur le site et d'explorer.
95. Programme de données sur les conflits d'Uppsala
Le Département de recherche sur la paix et les conflits d'Uppsala, souvent appelé UCDP, héberge une énorme base de données appelée l'Encyclopédie des conflits UCDP. Il s'agit d'un site qui permet aux utilisateurs de cliquer et d'explorer les données que le département a déjà désagrégées. Les chercheurs peuvent être cliqués sur le site Web et également téléchargés pour une manipulation et une analyse plus poussées. C'est une ressource sur laquelle on peut compter et référencer pour une information de qualité diffusée de manière accessible.
96. Département du travail des États-Unis
Le Département du travail des États-Unis héberge de nombreuses données économiques concernant les statistiques sur le chômage et l'emploi. Naturellement, ces chiffres incluent des bases de données comprenant des statistiques sur les licenciements massifs, des projections sur l'emploi, les offres d'emploi et la rotation du personnel, des statistiques nationales sur l'emploi et même des statistiques internationales de comparaison du travail. Le site fournit des informations à jour et exactes tandis que le ministère du Travail garde une trace de tout cela. Il s'agit d'une ressource réputée bénéficiant du soutien du gouvernement à des fins de recherche.
97. Administration des petites entreprises
La Small Business Administration est depuis longtemps une ressource éprouvée pour les entrepreneurs et autres entrepreneurs en herbe. Ce site héberge une tonne de statistiques sur l'emploi ainsi que des informations permettant aux chercheurs de faire des études de marché et des analyses concurrentielles. Ici, les chercheurs peuvent trouver des chiffres, des statistiques et des outils qui peuvent être utilisés pour découvrir des données supplémentaires. Pour obtenir des informations sur les statistiques des petites entreprises du point de vue des employeurs et des entreprises, il s'agit d'une excellente ressource vers laquelle les journalistes peuvent se tourner à tout moment.
98. Crowdpac
Crowdpac est une plateforme qui permet aux candidats politiques de collecter des fonds et de s'organiser. S'inspirant fortement de l'idée qu'il existe un certain nombre de candidats au Congrès à chaque élection qui se déroulent essentiellement sans opposition, ce site permet aux citoyens engagés d'organiser leur soutien. Avec des articles traitant de questions politiques pertinentes comme le gerrymandering pour aller avec des sujets supplémentaires comme les droits civils et la sécurité nationale, ce site représente une excellente occasion de comprendre et de découvrir ce qui se passe sur la scène politique de base.
99. Gallup
Ce site héberge les célèbres sondages Gallup. Gallup se spécialise dans les analyses qui permettent aux décideurs organisationnels de résoudre des problèmes grâce à une approche de résolution de problèmes basée sur les données. De plus, le dispositif proposé par Gallup est souvent utile pour piloter des solutions. Il s'agit d'une source reconnue comme la référence en matière de données et d'analyses avancées. Parcourez simplement le site pour explorer des rapports sur tout, de l'état du lieu de travail mondial à la discussion sur la productivité aux États-Unis.
100. Bibliothèque de Berkeley
La bibliothèque de Berkeley héberge une compilation complète de statistiques et de données pour la recherche en sciences politiques sur son site. Sur cette page, les chercheurs trouveront une tonne de liens qui permettent aux chercheurs d'accéder à un certain nombre d'ensembles de données ainsi que la capacité de créer les vôtres. Parmi ceux-ci figurent les statistiques historiques des États-Unis (HSUS), l'édition du millénaire, la planète des données, ProQuest Statistical Insight et le Consortium interuniversitaire pour la recherche politique et sociale. Il y a plusieurs heures de données à parcourir.
101. Services d'État RAND
Pour ceux qui ne le savent pas, la RAND Corporation est une organisation spécialisée dans la recherche sur les défis de politique publique. Avec des clients et un portefeuille qui s'étend à tous les niveaux de gouvernement, la société est une source de recherche de qualité aux fins de prise de décision. La branche américaine de la société héberge un ensemble de statistiques de base de données sur son site Web. Ici, les chercheurs peuvent trouver des informations sur l'éducation, la santé, les affaires et l'économie de la maternelle à la 12e année, entre autres catégories qui traitent de questions pertinentes pour le bien public.
102. Centre Roper pour la recherche sur l'opinion publique
Géré et exploité par l'Université Cornell, le Roper Center for Public Opinion Research est spécialisé dans la collecte, la distribution et la préservation des données sur l'opinion publique. À titre d'exemple du type d'informations que le Roper Center peut découvrir, les chercheurs peuvent avoir accès aux données de l'élection américaine ainsi qu'à un lien vers une archive de plus de 23 000 ensembles de données. Que les journalistes recherchent la réaction du public à la politique ou à une récente alerte sanitaire, ce site est presque certain d'avoir des informations.
103. Gouvernement des transports
Propulsé et exploité par le Bureau of Transportation, ce site contient des données qui couvrent un large éventail de sujets liés aux transports. Les ressources de ce site comprennent des rapports sur l'énergie, la sécurité des passagers, l'énergie, la performance du système, l'économie des transports, les infrastructures et le transport de marchandises. Les utilisateurs peuvent même trier et accéder aux données proposées sur ce site par emplacement et géographie. Il s'agit d'un site qui permet aux chercheurs de découvrir tout ce qu'ils pourraient s'attendre à savoir sur des sujets liés aux transports.
104. Industrie du voyage
Travel Trade est un site qui héberge des données concernant les départs de citoyens américains datant de 1996 à 2016 au moment de la rédaction de cet article. L'objectif déclaré de cette ressource est d'aider les membres intéressés du processus grand public et de comprendre comment le tourisme mondial et le tourisme international ont fonctionné au fil des ans. Disponible à la fois en téléchargement et en consultation en ligne, il s'agit d'une information accessible. Les chercheurs peuvent facilement utiliser ces données pour trouver des tendances et faire des comparaisons.
105. Skift
Skift est un site qui se concentre sur la fourniture de renseignements et de données à l'industrie du voyage. Entre autres sources de données, la société héberge des recherches, des conférences et des bulletins d'information parmi lesquels les abonnés et les chercheurs peuvent choisir. Skift examine des sujets que les personnes du secteur du voyage voudraient connaître, tels que les endroits où les gens voyagent de plus en plus, l'identification de nouveaux marchés et de nombreuses informations supplémentaires sur la technologie du voyage que les chercheurs ont la possibilité d'explorer.
106. Geoba.se
Geoba.se est le site idéal pour les personnes qui veulent les faits et rien que les faits sur une ville ou un lieu. En utilisant le moteur de recherche sur la page d'accueil, trouver des coordonnées, des informations sur les voyages, la météo et même des images de webcam locales ne sont qu'à quelques touches. Le site héberge également une page qui fournit des informations sur les classements mondiaux qui peuvent être affinés par région et par pays. En bref, il s'agit d'une ressource qui fournira des données et des statistiques pures.
US Travel héberge un site qui est exploité et maintenu par le Département d'État américain. La mission déclarée du site est qu'il vise à protéger la vie des citoyens américains qui se rendent à l'étranger. En tant que telle, cette source héberge des statistiques, des informations et des rapports sur des sujets tels que les passeports américains, les visas américains, les adoptions internationales, les décès à l'étranger et les enlèvements internationaux d'enfants par des parents. Les informations peuvent être utilisées lors de la planification de voyages, mais peuvent également être utilisées pour identifier les tendances à long terme avec les statistiques couvrant la période de 1996 à 2016.
108. Service de données au Royaume-Uni
Financée par le Conseil de la recherche économique et sociale, la collection UK Data Service publie un large éventail de données. Ce site contient des informations qui incluent des éléments tels que des données commerciales pour des enquêtes transnationales, des enquêtes parrainées par le gouvernement britannique et même des données de recensement britanniques. Fondamentalement, le site Web a été conçu en tenant compte des besoins des étudiants et des chercheurs. De plus, il existe des guides, des ressources et des instructions qui offrent des guides et des ressources qui aideront les chercheurs à comprendre et à utiliser rapidement les outils de ce site.
109. Data.gov.au
Géré et publié par le gouvernement australien, Data.gov.au offre un accès facile et une recherche de données ouvertes. Ce site indique explicitement que les données gouvernementales peuvent être utilisées pour développer des outils et des applications qui, à leur tour, peuvent être utilisés au profit des Australiens. Non seulement un accès est-il fourni aux ensembles de données ouverts, mais il existe également des données non publiées accessibles moyennant des frais. Pour les chercheurs qui souhaitent effectuer une analyse encore plus approfondie, le site propose également une boîte à outils de données.
110. Twitter
Tout le monde connaît Twitter pour ses conversations rapides, ses messages courts et son statut dans la culture populaire en tant que plaque tournante des dernières nouvelles. Ce que beaucoup de gens ne savent pas, cependant, c'est que Twitter dispose également d'outils de développement qui facilitent le filtrage et la découverte d'informations. Ces outils permettent même aux chercheurs de visualiser les tendances et de filtrer par géographie. Qu'il s'agisse de lire les hashtags tendances ou d'explorer les outils de développement, Twitter est une ressource que les journalistes utilisent depuis un certain temps.
111. Instagram
Instagram n'est pas uniquement destiné à aimer les jolies photos de chats et les adorables photos de bébés. Ou du moins, ça n'a pas à l'être. L'application dispose d'un ensemble d'outils de développement étonnamment sophistiqués qui facilitent la compréhension et la recherche sur le public. De plus, les hashtags et les indices révélés par les photos que les gens publient ainsi que les individus qui y sont tagués peuvent être une mine d'informations. Instagram est un moyen utile de découvrir les tendances dans différents secteurs.
112. Quatre carrés
Pour le type de recherche où l'emplacement compte, Four Square est une source de données utile en raison de sa base de données massive et de toutes les informations qu'il a compilées. En surface, il dispose d'un guide de la ville qui fournit des recommandations aux utilisateurs sur la force de la communauté. Four Square dispose également d'outils de développement qui permettent d'accéder à des informations supplémentaires via la base de données Places. Les journalistes peuvent l'utiliser pour en savoir plus sur des lieux spécifiques et sur les personnes qui utilisent l'application.
113. New York Times
Considéré par beaucoup comme un membre estimé du Fourth Estate, il y a très peu de journalistes qui n'ont pas entendu parler du New York Times. Ce qui est souvent négligé, cependant, c'est l'utilisation du New York Times comme source de données via son API. Les chercheurs peuvent trouver des articles datant de 1851 par mois, rechercher des articles et même trouver des critiques de livres. Cette API permet d'effectuer une recherche basée sur les vues, les partages et les e-mails et même de rechercher et d'accéder aux commentaires.
114. PA
L'Associated Press occupe une place permanente dans la culture populaire en tant que source d'informations précises et opportunes. Grâce à ses outils de développement, c'est aussi une source de données utile pour les journalistes. Au moment d'écrire ces lignes, les chercheurs peuvent utiliser ces outils pour créer leur propre montage tout en téléchargeant des images et des vidéos. Le niveau de contenu semble dépendre du type de plan que les chercheurs utilisent, mais l'API Associated Press permet néanmoins aux utilisateurs de faire passer le processus de recherche à un autre niveau.
115. cinq trente huit
Les journalistes connaissent peut-être déjà Nate Silver et Five Thirty Eight et son modèle statistique en raison de ses prédictions parfois inattendues mais généralement correctes. Five Thirty Eight a un GitHub qui héberge des ensembles de données ainsi que le codage qui a été utilisé au cours de l'histoire du site. Les ensembles de données présentent des sujets amusants comme les données sur les mauvais conducteurs, les Avengers et l'enquête sur l'étiquette de vol. Parallèlement, il existe également des dossiers qui traitent de questions un peu plus graves comme la sécurité aérienne et les crimes haineux.
116. IMDb
IMDb est considéré par beaucoup comme le site le plus complet sur le Web en ce qui concerne l'industrie du cinéma et du théâtre. S'il y a un film qui sort et que les gens veulent savoir qui y joue ou voir la réaction générale du public cinéphile, il y a de fortes chances qu'ils atterrissent sur ce site à un moment donné au cours de leur recherche. IMDb héberge également un certain nombre d'ensembles de données qui sont actualisés quotidiennement et sont disponibles pour une utilisation commerciale et non commerciale.
117. KAPSARC
KAPSARC est un portail de données qui héberge un total de 923 ensembles de données avec des informations spécifiques sur les données énergétiques. Ces ensembles sont divisés en quelques thèmes généraux sur la consommation d'énergie, l'approvisionnement énergétique et d'autres facteurs pertinents tels que les politiques, la démographie, l'environnement, le commerce, l'eau et les informations économiques. Pour les chercheurs qui s'intéressent à l'énergie et à son utilisation dans différents secteurs et industries, KAPSARC est l'une des sources de données énergétiques les plus complètes sur le Web.
118. Macro d'actif
Asset Marco est un site qui fournit des données financières historiques et des indicateurs macroéconomiques. Ces données couvrent plus de 75 000 actions, devises, matières premières et obligations du monde entier. De plus, le site propose plus de 120 000 indicateurs macroéconomiques que les utilisateurs peuvent utiliser pour explorer les données financières de différents pays. En plus de toutes ces données sur les marchés financiers, le site traite également des stratégies d'investissement. Cette source est tout à fait unique en raison du volume considérable d'informations qui peuvent être trouvées.
119. Services Web du gouvernement américain et sources de données XML
Les services Web du gouvernement américain et les sources de données XML sont hébergés sur un site appelé USGovXML.com. Ici, les utilisateurs peuvent parcourir les différentes sources de données XML et les services Web fournis par le gouvernement américain. Ce simple acte de conservation maintient ces sources Web transparentes et accessibles au public. Pour les chercheurs qui surveillent régulièrement cet index en général, il est possible de trouver une histoire dans les données en cas de modification soudaine des données XML.
120. Part de figuier
Figshare est un site qui héberge plus de 5 000 éléments de contenu scientifique disponibles pour la recherche universitaire et la citation. En plus des informations qui s'y trouvent, le site est conçu pour offrir aux chercheurs un emplacement unique aux fins de compiler, télécharger, stocker et gérer les recherches qu'ils trouvent. Les mathématiques, les sciences de la santé, l'ingénierie, la chimie, les sciences biologiques et les sciences sociales sont toutes répertoriées dans les catégories en vedette. Ce site est une excellente source pour les journalistes à la recherche de ressources plus académiques sur le site.
121. Données liées
LinkedData est un site dédié à l'idée de trouver de nouvelles façons de connecter des données Internet qui n'étaient pas liées auparavant. Ici, les utilisateurs trouveront des didacticiels, des guides et des ensembles de données qui feront avancer l'histoire. Les ensembles de données se concentrent tous sur le thème de l'implication dans la communauté des données liées, et en plus de la liste de courses des données liées, la plupart sont classés comme des URI déréférencables avec ou sans le format RDF complémentaire. Pour en savoir plus sur cette communauté, ce site est un incontournable.
122. Le mineur Web
Le Web Miner est l'endroit idéal pour les chercheurs qui souhaitent collecter toutes les données génériques qu'ils peuvent trouver avec le programme. Ce site héberge des exemples de bases de données telles que des restaurants américains, des codes SWIFT de banques du monde entier, des stations-service américaines, des attractions touristiques américaines et des applications Google Play parmi d'autres listes massives. Si rien d'autre, c'est un site qui permettra aux journalistes de parcourir plus facilement et plus rapidement et de découvrir d'énormes quantités de données en beaucoup moins de temps.
123. Centre de données
Data Hub est fier d'être un endroit où les utilisateurs peuvent trouver et publier des données aussi rapidement et efficacement que possible. Le site lui-même héberge un certain nombre d'ensembles de données. L'indice des prix des logements (Case-Shiller), le prix mensuel de l'or et les tendances actuelles du dioxyde de carbone atmosphérique sont les trois plus populaires. En plus des données, le site héberge également un certain nombre de didacticiels que les utilisateurs peuvent parcourir afin d'en savoir plus sur la navigation dans les différents types de données disponibles.
124. Énigme Publique
Sur son site, Enigma Public se présente comme "la plus large collection de données publiques" disponible sur le Web. Les ensembles de données appartiennent à l'une des quatre grandes catégories de FOIA, Essentials, Newsworthy et Under the Radar. Certaines des données de ce site incluent les salaires des employés de la Maison Blanche et les licences fédérales actives d'armes à feu. Après avoir créé un compte gratuit, les utilisateurs peuvent accéder à l'une des catégories de données disponibles pour la visualisation.
125. Yahoo
La plupart des internautes connaissent le nom Yahoo en raison des goûts de Yahoo! Actualités et Yahoo! Finance parmi les nombreuses propriétés en ligne de l'entreprise. Ce qui intéresse les chercheurs et les journalistes, c'est le fait que Yahoo héberge également un grand nombre d'ensembles de données, dont Yahoo! Notes des utilisateurs de musique sur les chansons avec méta-informations sur l'artiste, l'album et le genre, v. 1.0 et Yahoo! Évaluations des utilisateurs de films et informations sur le contenu descriptif, v.1.0 pour n'en nommer que deux. Les journalistes en quête de nouvelles statistiques ne peuvent pas se tromper avec cette source.
126. 1000 génomes
1000 Genomes abrite un projet du même nom qui s'est déroulé de 2008 à 2015. Le but du projet était de trouver toutes les variations génétiques qui pourraient se produire dans au moins 1% des populations étudiées. Outre les publications qui ont vu le jour grâce à ce projet, il existait également d'énormes ensembles de données comprenant des bases de données distinctes de cellules variantes, des fichiers de séquences brutes et la disponibilité des échantillons. Ces données peuvent être consultées ou téléchargées.
127. CBOE
CBOE est une bourse à terme qui se concentre principalement sur les contrats à terme sur volatilité. En particulier, le site propose de nombreux documents concernant les contrats à terme qui figurent sur l'indice de volatilité de la marque déposée du site. Le site héberge des données de marché de toutes sortes, y compris des données historiques, des statistiques quotidiennes du marché et les prix de règlement quotidiens de VX Futures. Pour les journalistes qui recherchent des données de marché de qualité, CBOE est un site qui peut fournir ces informations dans un format facile à suivre et à comprendre.
128. Fed de Saint-Louis
La Federal Reserve Bank of St. Louis est l'un des centres financiers les plus importants de sa région, sinon le plus important. Sur le site Web, les chercheurs peuvent consulter directement les documents de travail, les données économiques, les publications et les services d'information. En d'autres termes, il ne manque pas d'informations sur la pensée actuelle et passée de la Fed de Saint-Louis en termes de politique ainsi que sur la capacité d'évaluer l'efficacité de la Banque fédérale de réserve de Saint-Louis. Pour les journalistes commerciaux, financiers et économiques, il s'agit d'une ressource d'information de premier ordre.
129. OANDA
OANDA est une plate-forme de négociation d'actions en ligne populaire, qui négocie principalement des CFD et des devises. En plus des nombreuses fonctionnalités ajoutées au commerçant dans le but d'attirer les commerçants en ligne, OANDA héberge également de nombreuses données historiques sur les taux ainsi que des informations historiques sur le convertisseur de devises sur le site. Outre toutes ces données, le site propose également des informations sur les stratégies d'investissement ainsi que des actualités et des analyses de marché. Un compte n'est même pas nécessaire pour accéder à la plupart de ces données.
130. abdos
Le Bureau australien des statistiques, ou ABS, un peu comme son homologue américain, propose des données objectives, des informations économiques et des recherches sur un large éventail de sujets pertinents pour le pays. Directement sur le site lui-même, les chercheurs peuvent consulter des données statistiques sur les indicateurs commerciaux, les soins de santé, le logement, la finance, le commerce international, le logement, la santé mentale, ainsi que les indices de prix et l'inflation. Les journalistes peuvent effectuer des recherches pour trouver des enquêtes et des informations plus anciennes qui peuvent également trier les informations par région.
131. Base de données de Londres
Conçue et exploitée à l'origine par la Greater London Authority, la base de données de Londres est la tentative de Londres de rendre les données de Londres plus accessibles au public. L'objectif final est de donner aux gens l'accès à ces informations tout en les encourageant à les utiliser gratuitement comme bon leur semble. Sur ce site Web, les utilisateurs peuvent rechercher des données par sujets tels que les arts et la culture, la criminalité et la sécurité communautaire, l'éducation et la santé. Les journalistes intéressés par ce type de données peuvent désormais les obtenir directement auprès du gouvernement local.
132. Statistiques Nouvelle-Zélande
Le gouvernement néo-zélandais héberge une tonne de statistiques et de données que les chercheurs peuvent approfondir et analyser sur ce site. Ces informations peuvent être passées au crible à l'aide de la barre de recherche en haut, en filtrant par lieu et par région, ainsi que par sujet. Certains des sujets comprennent les indicateurs économiques, la santé, le revenu et le travail, les secteurs industriels, l'environnement et les affaires. Entre les sources d'information supplémentaires et les communiqués mettant en évidence diverses découvertes et statistiques, les journalistes découvriront toutes sortes de statistiques spécifiques à la Nouvelle-Zélande via ce site.
133. Bureau du gouvernement australien de la météorologie
Géré et exploité en dernier ressort par le gouvernement australien, le site Web du Bureau australien de météorologie présente des informations météorologiques concernant les différentes villes et régions d'Australie. Selon le site, cette agence a été créée pour aider les Australiens à faire face au climat qui les entoure grâce à une combinaison d'avertissements et de conseils. Ici, les chercheurs pourront trouver des perspectives saisonnières, le stockage de l'eau, les prévisions de précipitations, la variabilité climatique et les prévisions saisonnières de débit. Sur ce site, vous trouverez une couverture précise et fiable de la météo australienne.
134. GroupLens
Ce site est sur le Web avec l'aimable autorisation de GroupLens du Département d'informatique et d'ingénierie de l'Université du Minnesota. Le site propose des publications ainsi que des jeux de données à des fins de recherche. Il y a un total d'environ six ensembles de données. Parmi les ensembles nommés, il y en aurait quelques-uns intitulés Book-Crossing, MovieLens et HetRec 2011. Bref, c'est une ressource utile pour les journalistes qui cherchent à mieux comprendre comment utiliser les données fournies.
135. Pépites KD
KD Nuggets est un site qui se concentre principalement sur la fourniture de science des données, d'analyse commerciale, d'apprentissage automatique et d'exploration de données. Il y a une page sur le site qui contient une liste complète des ensembles de données que les gens utilisent pour explorer davantage l'exploration de données et le Big Data avec des ensembles de données tels que Bioassay Data, Asset Marco, DataMarket, Casualty Workbench, Data Ferrett et Datamob, tous liés. C'est une ressource fantastique pour les journalistes qui préfèrent avoir toutes les informations sur une seule page.
137. Microsoft
Tous ceux qui ont utilisé un PC ou un ordinateur portable ont probablement entendu parler de Microsoft au moins en passant. Fait intéressant, en plus des PC, des ordinateurs portables et des logiciels, Microsoft héberge également de nombreuses recherches et publications. Cela inclut des percées telles que la quête de l'entreprise pour créer des machines alphabétisées ainsi que la science des données basée sur le cloud. Il existe également des informations supplémentaires sur les outils que Microsoft développe comme Visual Studio Code Tools et les développements de l'IA qu'ils représentent.
138. RDataMining
Exactement comme il est dit sur la boîte, R Datamining est une ressource sur R et le datamining. Le site fournit de nombreux exemples et documents qui donnent une perspective approfondie sur l'exploration de données et l'exploration de données avec R. En outre, il existe également des liens vers des formations telles que la formation courte proposée par l'Université de Canberra. Cela inclut des liens vers des ensembles de données et des présentations gratuits ainsi que des ensembles de données qui couvrent des sujets tels que les données d'avion, de compagnie aérienne et d'itinéraire ainsi que des liens vers des sites comme GeoDa.
139. Recherche collaborative en neurosciences computationnelles – Partage de données
Collaborative Research in Computational Neuroscience, également connu sous le nom de CRCN, dispose d'un certain nombre d'ensembles de données accessibles via son site. Les ensembles de données sont classés selon les différentes parties du cerveau telles que le cortex visuel, l'hippocampe, le cortex moteur, les oiseaux, les mouvements oculaires et l'aplysie, pour ne citer que quelques exemples. Ces dossiers comprennent également des défis, des outils, des simulations et des méthodes. La possibilité de partager ces données en fait une ressource encore meilleure à utiliser pour la recherche.
140. Archives de la banque de données sur les protéines
Selon son site Web, l'archive de la Protein Data Bank est une ressource de premier plan sur les acides nucléiques, les structures 3D des protéines et les assemblages complexes depuis 1971. Formé avec la mission explicite de garder ces informations dans le domaine public, les chercheurs peuvent aller ici pour voir la validation rapports et dictionnaires de données en ligne. Il existe également des croissances de données et des statistiques d'utilisation disponibles pour le tri et l'analyse sur le Web ainsi que pour le téléchargement. Mieux encore, le site ajoute toujours de nouvelles informations.
141. Le projet PubChem
PubChem en tant que projet officiel a été conçu dans le but d'informer le public sur ce que les petites molécules sont capables de faire d'un point de vue biologique. Le site est lié à trois bases de données, dont PubChem Compound, PubChem Substance et PubChem BioAssay. De plus, le site permet également de rechercher les similitudes entre différentes protéines. Pour les chercheurs qui font passer leur analyse de données au niveau supérieur, le site propose également un codage gratuit et des conseils.
142. Coremine Medical
Coremine Medical est une ressource inestimable pour tous ceux qui recherchent des informations sur la biologie, la santé et la médecine. Maintenant que la capacité d'exploration de texte biomédicale de PubGene a été intégrée dans sa forme actuelle, Coremine est également l'une des sources d'informations biomédicales les plus flexibles. Ce site affichera des liens entre les concepts et les idées dans un format visuellement attrayant et facile à comprendre qui n'aurait peut-être pas été remarqué autrement. C'est facilement l'une des sources de données biomédicales les plus complètes à la disposition des journalistes.
143. Tu Tiempo
Tu Tiempo est une source incroyable de données météorologiques et climatiques pour tous les pays du monde. En utilisant cette ressource, il est facile de trouver des moyennes annuelles, mensuelles et quotidiennes pour pratiquement toutes les villes et régions du monde. En outre, les utilisateurs peuvent également effectuer des recherches dans la base de données de plus de 115 millions d'enregistrements remplis de données historiques dans lesquelles toute personne peut effectuer des recherches. Selon la région recherchée, il est possible de trouver des données remontant jusqu'à 1929.
144. Ressources réseau complexes
Il s'agit d'un site qui donne accès à une bonne partie des données qui ont été utilisées pour la première fois dans ses expériences sur ordinateur. La liste complète des ensembles de données qui répertorient les types de données, y compris les graphiques d'actualités, les graphiques biologiques, les graphiques de citations, les graphiques de collaboration, les graphiques d'ingénierie et les graphiques sémantiques. La page contient également des liens vers une liste de sources contenant de nombreuses informations, telles que l'ensemble de données qui a examiné environ 3 millions de brevets américains. La page propose également une impressionnante compilation d'ensembles de données Complex Network.
145. Scopus
Scopus est un outil qui permet aux individus de trouver rapidement et facilement des citations de recherche et universitaires. Le site offre une base de données incroyablement étendue sur les recherches effectuées dans le monde entier dans un certain nombre de domaines comprenant des secteurs tels que la médecine, la technologie, les sciences sociales, les arts et les sciences humaines. Utilisez Scopus pour capturer des sources académiques qui auraient pu être ignorées. Après tout, dans de nombreux cercles, la qualité d'une source académique peut être presque aussi importante que l'information qu'elle fournit.
146. Stanford
La réputation de Stanford en tant qu'institution universitaire prestigieuse ne s'est pas faite au hasard. L'excellence transparaît dans ses cours liés à la programmation. Le site héberge également un certain nombre d'ensembles de données qui incluent des détails tels que des informations sur les réseaux sociaux. Il existe des ensembles de données centrés sur les cercles sociaux sur Facebook, la demande d'administration de Wikipedia, les cercles sociaux de Twitter et Google +. Les réseaux de communication et le réseau de produits Amazon ont également leurs propres ensembles de données.
147. Université de Milan
Le Département des sciences de l'information de l'Université de Milan gère et exploite une page Web connue sous le nom de Laboratoire d'algorithmes Web. Ce site abrite de nombreux ensembles de données qui sont là pour l'exploration. Ceux-ci incluent des graphiques en relation avec les réseaux sociaux, des graphiques Facebook, des instantanés du projet DELIS et une courte liste de données diverses. Les informations disponibles ici peuvent être consultées en ligne et téléchargées si elles sont choisies, ce qui en fait l'un des ensembles de données les plus accessibles de ce type sur le Web.
148. Référentiel de données du réseau UCI
L'UCI Network Data Repository est un site dédié à l'approche scientifique de l'étude des réseaux. Sur la page des ressources, les chercheurs trouveront des liens vers des répertoires d'ensembles de données sélectionnés par des organismes et des groupes de recherche ainsi que par des particuliers. Il contient également une collection d'ensembles de données qui seraient généralement utilisés pour l'analyse des médias sociaux. Ceux qui creusent dans les données seront ravis de constater que ces ensembles sont également disponibles en téléchargement.
149. CAIDA
CAIDA, ou le Center for Applied Internet Data Analysis, recueille un large éventail de données à partir d'un certain nombre d'endroits différents, souvent avec l'aide de différentes organisations et personnes. Il existe des ensembles de données hébergés sur ce site comme les relations AS, les attaques DDOS, le télescope et ses associés ainsi que d'autres données. Les catégories comprennent le trafic, la topologie, la sécurité, le résumé des vers et les statistiques de résumé du trafic. Les ensembles de données peuvent nécessiter un accès sur demande, mais beaucoup, sinon la plupart, sont publics.
150. Crawdad
Crawdad, ou la ressource communautaire pour l'archivage des données sans fil à Dartmouth, est unique en raison de son objectif de fournir des données sans fil aux chercheurs et à d'autres personnes susceptibles de s'intéresser au sujet. Le site offre un certain nombre d'outils ainsi que l'accès à de nombreux ensembles de données. Parmi les ensembles répertoriés figurent ceux qui font référence à l'utilisation éducative, à la caractérisation des erreurs sur les bits, au diagnostic réseau, à la connectivité opportuniste, à l'informatique géolocalisée, etc. Les chercheurs apprécieront cette ressource au fur et à mesure qu'ils s'y plongeront.
151. Administration américaine de l'information sur l'énergie
Souvent appelée EIA, l'Energy Information Administration des États-Unis a pour mission de fournir au public des données annuelles sur les services publics d'électricité. Les informations contenues dans ces données couvrent les stocks de combustibles fossiles, la consommation de combustible, les informations mensuelles et annuelles sur la production d'électricité et les données environnementales, entre autres options. Les données sont là et disponibles pour analyse datant des années 2001 à 2017. Il suffit aux chercheurs de naviguer sur le site et de télécharger les informations.
152. Données océanographiques britanniques
Financé par le National Environment Research Council, British Oceanographic Data est l'une des sources de données marines les plus accessibles sur Internet. Avec une base de données étendue qui touche les courants, les profils CTD, les données internationales sur le niveau de la mer, les courants et même les données historiques des enregistreurs de pression de fond. De plus, des ensembles de données se trouvent dans la bibliothèque de données publiées qui offre un accès supplémentaire au catalogue. Il s'agit très probablement de l'une des sources d'informations marines les plus complètes disponibles en ligne.
153. Factuel
Factual fournit des données de localisation pour la publicité et pour une utilisation sur des plateformes mobiles. Les outils de développement qui incluent le SDK Engine Mobile et les applications professionnelles et de recherche complètes du graphique d'observation ainsi que la pile de validation locale intéressent particulièrement les chercheurs. Avec un surnom de site Web qui met l'accent sur la passion de l'entreprise pour la collecte de données dans le monde entier et la recherche de nouvelles façons de les mettre en contexte, Factual s'engage clairement envers les données et trouve de nouvelles opportunités peu orthodoxes pour les utiliser.
154. Zones administratives globales
Global Administrative Areas est une géodatabase qui indique où se trouvent les différentes zones administratives du monde. Les données recueillies à partir de ce type de base de données sont alors généralement utilisées dans les systèmes d'information géographique. Ceux-ci incluraient des pays et sont ensuite divisés en provinces, comtés et départements, entre autres. La bonne nouvelle pour les journalistes est que toutes ces données sont disponibles gratuitement et peuvent également être utilisées à des fins académiques et générales non commerciales.
155. Géonoms
Geonames est un site qui héberge une base de données géographiques avec des millions d'entrées, des caractéristiques uniques et des noms alternatifs. Offrant à la fois une option d'exportation et un accès via une variété de services Web, il s'agit d'une base de données qui traite environ 150 millions de requêtes chaque jour. Grâce aux capacités wiki de la base de données, les utilisateurs peuvent apporter des ajustements et des modifications aux entrées de la base de données avec une relative facilité. Il s'agit d'une excellente ressource pour les seules capacités d'hébergement multilingues.
156. Données naturelles de la Terre
Natural Earth Data est un ensemble de données cartographiques disponible dans le domaine public et rempli d'informations conçues pour être utilisées dans un logiciel de création de cartes pour la création de cartes à la pointe de la technologie. Les visuels du produit final sont soignés et bien organisés et les données peuvent être utilisées immédiatement. Cet ensemble de données inclut la présence de données de renseignement et divers thèmes de données vectorielles culturelles, matricielles et physiques. Créé à l'origine en tenant compte des besoins et des préférences des cartographes, cet ensemble de données est utile à toute personne intéressée par la géographie.
157. Plan d'Openstreet
Openstreet Map est moins un site Web qu'une collaboration entre utilisateurs qui fournit désormais des services de cartographie aux applications, aux sites et à divers périphériques matériels. Ce site acquiert de nouvelles données lorsque les utilisateurs entrent des informations sur des points de repère moins connus tels que les gares, les routes et les sentiers. Le jeu de données complet est disponible gratuitement sur le site et peut être téléchargé en totalité ou en partie. Pour ceux qui choisissent de faire un téléchargement partiel des données, il est également possible de télécharger par région.
158. Ville de Chicago
La ville de Chicago abrite les Bulls de championnat de Michael Jordan et son propre style de pizza unique, et elle possède également son propre portail de données complet. Les catégories d'ensembles de données couvrent une variété de sujets, notamment l'administration et les finances, l'éthique, la santé et les services sociaux, les parcs et les loisirs, la sécurité publique et la préservation historique. En bref, le portail de données de la ville de Chicago héberge pratiquement tout ce qui pourrait intéresser les chercheurs, les décideurs et les journalistes locaux.
159. CKAN
CKAN est essentiellement la maison en ligne du projet de données ouvertes de la ville de Glasgow. Ce site contient des ensembles de données sur de nombreux sujets qui sont utiles aux entrepreneurs, aux décideurs, aux chercheurs universitaires et aux développeurs d'applications. Sur les 360 ensembles de données hébergés ici, certains sont liés à la gouvernance de la ville, comme l'ensemble de données sur le stock de logements par mode d'occupation, tandis que d'autres, comme l'ensemble de données sur le cyclisme, intéressent particulièrement les résidents locaux. Il y a toutes sortes d'informations ici pour les journalistes qui couvrent un rythme plus local.
160. Gouvernement de l'Inde
Le gouvernement indien a un site Web qui couvre les ressources d'analyse et de données dans sa version du projet Open Data. Actuellement, il y a environ 137 940 ressources qui ont été consultées des millions de fois sur le site. La grande majorité de ces fichiers sont également disponibles en téléchargement sur le site. Que vous recherchiez des chiffres sur le budget du gouvernement ou que vous recherchiez des ensembles de données sur la santé et le bien-être familial, il y a de fortes chances que ce site ait des ressources à offrir.
161. Statistiques SA
Ce site regorge de statistiques, de publications et de données à jour recueillies par le gouvernement sud-africain. Ici, les chercheurs découvriront des informations sur tout, des enquêtes sur les aliments et les boissons aux indicateurs économiques, aux statistiques sur l'emploi, aux chiffres de la population et aux statistiques importantes sur la santé. Il est possible de rechercher les chiffres par ville, thème et indicateur en fonction des besoins. Ce site héberge de nombreuses informations sur le recensement tout en diffusant des publications statistiques, des questionnaires, des codes et des classifications, ainsi que la politique de tarification.
162. Élaboration de politiques et recherche
Ce site est publié sous l'égide de l'Office of Policy Development & Research du Département américain du logement et du développement. Il publie régulièrement chaque année un grand nombre d'études de cas, de publications semestrielles et de périodiques. Il propose également un grand nombre d'ensembles de données qui intéresseraient les journalistes, les loyers du marché équitable, les limites de revenu, les facteurs d'inflation du financement du renouvellement n'étant que quelques-uns des ensembles auxquels le public a accès sur ce site.
163. Données vitales sur la santé du Net
Chez Vital Net Health Data, les chercheurs trouveront de nombreux grands ensembles de données liées à la santé. Ce site n'héberge pas tant ces ensembles qu'il propose des liens vers des ensembles que les gens peuvent visiter et trouver des informations. Cette liste organisée contient des liens vers des ressources telles que CDC Wonder, Eurocat, Health Data All Star, ainsi que le travail d'organisations caritatives telles que l'Association nord-américaine des registres centraux du cancer. Il s'agit sans conteste de l'une des ressources d'ensembles de données sur la santé les plus complètes.
164. Pont analytique
Analytic Bridge est une ressource dédiée à l'informatique décisionnelle. Ici, les chercheurs trouveront des discussions sur l'apprentissage automatique et l'IA, des liens vers des webinaires et des conférences, et même un onglet de recherche d'emploi. Le site héberge également Data Science Central, qui est la partie du site qui se concentre sur le Big Data. Avec sa communauté active et engagée et son engagement à fournir des nouvelles et des informations, les journalistes intéressés par les implications des données pour les entreprises ont tout à gagner de cela.
165. Archives.org
Connu principalement pour ses efforts pour devenir une bibliothèque publique en ligne, archive.org abrite de nombreux ouvrages publiés ainsi qu'une importante collection d'ensembles de données. Le site présente les résultats du recensement Internet de 2012 ainsi que les archives du Dark Net Market de 2011 à 2015, et même un ensemble de données de commentaires publics sur Reddit. Il existe des vidages de données de Music Brainz et un ensemble de données contenant des images de couverture audio. Entre ses publications et ses données, archive.org a beaucoup de matériel à parcourir pour les journalistes.
166. Torrents académiques
Ce site Web se présente comme un système conçu pour faciliter le partage et le téléchargement d'énormes ensembles de données. Utilisant la technologie torrent pour simplifier la distribution des données, Academic Torrents est fier de permettre aux chercheurs de télécharger rapidement tout ce dont ils ont besoin. Le site héberge également des articles, des cours et une collection à consulter. Une recherche rapide parmi les ressources disponibles révélera qu'il existe des tonnes d'ensembles de données et de collections disponibles en téléchargement ici.
167. Dataverse
La meilleure façon d'aborder Dataverse est de le considérer comme un autre type de bibliothèque. Ici, les chercheurs peuvent facilement rechercher, découvrir et citer des données tout en utilisant simultanément ce site comme référentiel pour leurs propres informations. Les matières couvertes comprennent des domaines tels que les sciences sociales, les sciences agricoles, la médecine, les sciences de la santé et de la vie, ainsi que les sciences de la terre et de l'environnement. Les grands noms avec des publications sur ce site incluent Gallup et le Département américain du Commerce, Bureau du recensement, Division de la géographie.
168. DONNÉES CU
Fonctionnant en collaboration avec le laboratoire de données en sciences sociales de l'UC Berkeley, UC Data est l'archive la plus grande et la plus connue de l'université. Ce site propose des offres dans les domaines des statistiques et des données en sciences sociales. Sur ce site, les chercheurs peuvent accéder aux articles, rapports et documents de travail produits par les chercheurs de l'UC Data. Les données brutes couvrent de nombreux domaines de recherche, notamment les soins de santé, le bien-être et l'assurance sociale, la démographie, le vote et les technologies de l'information, parmi une foule d'autres sujets.
169. Camp de blagues
Joe Kamp propose un guide complet pour trouver des données et des API sur le football et le football à des fins d'analyse de données. Si les chercheurs suivent les liens fournis sur la page, des données open source sont disponibles via GitHub ainsi qu'un accès à des API gratuites et commerciales pour un accès plus facile. Étant donné que les données et le codage sont disponibles sur un site reconnu comme GitHub, obtenir ce type de données n'a jamais été aussi simple.
170. Sean Lahman
Sean Laham n'est pas nécessairement un nom que les gens entendent tous les jours, mais son site héberge l'une des statistiques les plus complètes et les plus détaillées sur les frappeurs et les lanceurs sur Internet. Avec des chiffres couvrant la période de 1871 à 2016, les données remontent littéralement à des siècles. Les données sont libres d'accès et d'utilisation sous la licence Creative Commons Share Alike 3.0 et peuvent être téléchargées directement dans SQL et Microsoft Access pour n'en nommer que quelques-uns. Les statistiques peuvent également être téléchargées via GitHub.
171. Feuille rétro
Retro Sheet est l'une des sources les plus complètes sur Internet pour les statistiques et les données de baseball. Le site comprend des détails tels que les listes annuelles et l'identification des arbitres, des joueurs et des entraîneurs. Pendant les années où cela était pertinent, les données du match des étoiles ont été incluses dans les fichiers d'événements avec un ensemble de fichiers d'événements pour l'après-saison et un petit fichier de divergence. Retro Sheet a même des identifications pour les terrains de balle pour chaque saison. Comment est-ce que c'est approfondi ?
Pour ceux qui ne sont pas aussi familiers avec le programme, le Hubway est le nom du vélo en libre-service basé dans la région métropolitaine de Boston. Bien sûr, le système n'a pas enregistré et publié d'informations d'identification, mais le Hubway dispose néanmoins des informations de base sur chaque voyage effectué entre juillet 2011 et septembre 2012. Cela comprenait des détails tels que le début et la fin du voyage ainsi que la station de ramassage pour n'en nommer que quelques catégories.
173. Vols ouverts
Open Flights est une base de données qui contient des informations sur plus de 10 000 terminaux de ferry, aéroports et gares à travers le monde. Les chercheurs peuvent trouver la version .csv compatible avec Excel via GitHub et peuvent également télécharger les données directement sur le site Web. En utilisant la carte sur la page d'accueil, il est possible de voir quels endroits spécifiques sont sur la liste et le site va même jusqu'à avoir des informations sur l'itinéraire disponibles également. Les propriétaires du site peuvent être contactés pour des informations encore plus actualisées.
174. MLVIS
MLVIS est un référentiel de données qui combine l'analyse visuelle avec l'exploration de données en temps réel. Cela permet d'explorer des compréhensions plus intuitives des données, même en travaillant avec d'énormes ensembles de données. Les données de référence et l'apprentissage automatique des données non relationnelles ainsi que différents types de données tels que les données attribuées et hétérogènes font partie des nombreuses fonctionnalités et options disponibles sur ce site. Pour plus de commodité pour les utilisateurs, ces informations peuvent également être téléchargées dans un format unique et cohérent.
175. Création de données ouvertes
Open Data Inception est un site qui propose des liens vers plus de 2600 portails de données. En utilisant la barre de recherche en haut, les chercheurs peuvent rechercher des portails et des ensembles de données par catégorie et par thème. De plus, il est également possible d'utiliser le site comme moyen de trouver la version la plus récente de l'ensemble de données recherché. Profitez de la possibilité de visualiser les portails de données sous forme de liste ou sous forme visuelle interactive et commencez à rechercher les données nécessaires.
176. OpenDataSoft
Disponible en français, anglais et allemand, OpenDataSoft est une source qui offre un accès à 480 millions d'enregistrements, 4 millions de cellules API et 9 284 jeux de données. En utilisant la barre de recherche au milieu de la page d'accueil, les chercheurs peuvent entrer un mot-clé ou une catégorie et trouver l'ensemble de données le plus approprié à partir de là. Pour les journalistes, il s'agit d'un moyen plus rapide de trouver les ensembles de données les plus pertinents nécessaires pour mener à bien la recherche en question. Visitez le site pour en savoir plus.
177. Maître de la nation
NationMaster est une source de données entièrement compilées provenant de plus de 300 pays et organisée en plus de 5 000 catégories. Les données couvrent des chiffres qui incluent des chiffres sur le pourcentage de décès enregistrés, des statistiques sur la Seconde Guerre mondiale et même des informations sur la guerre et les essais nucléaires. Les chercheurs trouveront également des tableaux, des graphiques et des camemberts qui permettront une visualisation plus poussée des données. En termes simples, il y a tellement de sujets couverts qu'il y a toujours quelque chose de nouveau à découvrir dans les données.
178. Abonné
Twitter est depuis longtemps un site de médias sociaux populaire pour les dernières nouvelles et trouver des histoires à la mode. Followerwonk permet aux utilisateurs de faire passer leur utilisation de Twitter au niveau supérieur. Cela comprend la recherche d'utilisateurs Twitter avec lesquels se connecter, l'étude des abonnés actuels et la planification de l'activité Twitter pour des résultats optimaux. Ces jours-ci, il y a beaucoup de reporters et de journalistes sur Twitter qui utilisent le site pour réseauter et diffuser des histoires. Followerwonk rend les utilisateurs de Twitter plus productifs sur le site.
179. Infochimpanzés
Infochimps est un site qui propose des services basés sur le cloud qui peuvent être réduits afin de tirer le meilleur parti du big data. Il est utile lorsqu'il s'agit de déployer et d'intégrer la technologie et les applications Big Data. Lorsque les chercheurs effectuent des recherches dans d'énormes quantités de données ou évaluent les tendances des mégadonnées, il s'agit d'une ressource inestimable. Il existe également de nombreux livres blancs et cas disponibles pour les chercheurs à consulter sur le site.
180. Statistiques nationales archivées du gouvernement
Fondé en 2006, Archive-It est un service fourni par Internet Archive. Ce service aide les organisations et les entreprises à créer des collections numériques et, par conséquent, il a eu la possibilité de travailler avec des organisations à but non lucratif, des collèges, des universités et des gouvernements. Les chercheurs peuvent rechercher quelques-unes des différentes archives sur le site, telles que les sites Web de la course aux candidats au Congrès de 2014, les archives de l'État de l'Alabama et les archives Web du gouvernement canadien PLN. Ce site est une mine d'informations pour les journalistes entreprenants.
181. Communes civiques
Civic Commons a une page qui répertorie les différentes initiatives de données ouvertes du gouvernement. Cette liste consultable de ressources est organisée par pays, ville, région et mentionne même les ressources mises à disposition par les organisations intergouvernementales. Pour les journalistes, ce site représente un moyen plus rapide de savoir quels gouvernements participent au projet Open Data. Ce site permet également d'accéder à des éléments de données localisés qui ne seraient pas nécessairement trouvés dans une simple recherche Google.
182. Gouvernements mondiaux gardiens
The Guardian est un nom célèbre dans le monde du journalisme pour sa réputation d'actualité. Ce que moins de gens réalisent, c'est que le site a une section qui offre des données sur et sur les gouvernements du monde entier. Il y a des articles sur l'impact du nombre de sans-abrisme, des discussions sur la cybersécurité et même des discussions réfléchies sur le rôle que les données et les statistiques doivent jouer dans le climat politique et social actuel. La section du gouvernement mondial du Guardian est capable de relancer la discussion et de trouver des angles pour les histoires.
183. Données gouvernementales ouvertes (Hub)
Ce site appartient à un groupe via l'Open Knowledge Foundation dans le but d'encourager et de soutenir le développement continu des données publiques ouvertes. Ici, les utilisateurs découvriront des liens vers l'une des listes les plus complètes de catalogues de données ouvertes disponibles. Parmi les objectifs supplémentaires mentionnés sur le site, le groupe cherche également à trouver des informations sur la politique, les meilleures pratiques et les directives. Il offre aux journalistes un accès étendu à des informations plus nombreuses et de meilleure qualité.
184. Gouvernement ouvert – France
Ce site Web est la maison en ligne du projet de données ouvertes proposé par le gouvernement français. Il est possible d'approfondir les données en effectuant une recherche dans des catégories telles que l'emploi, l'agriculture, l'éducation, les voyages et le tourisme. Ce sont des données qui permettent de construire et de développer une compréhension plus nuancée de ce que les données disent réellement tout en laissant de la place pour des comparaisons basées sur les informations historiques. Fondamentalement, les journalistes ont toutes les raisons d'être ravis de parcourir ces données.
Ce site stocke les données de recherche disponibles via l'utilisation de SourceForge.net par l'Université de Notre Dame. Les données sont proposées via des bases de données relationnelles. Les data dumps mensuels permettent également de mieux comprendre les logiciels open source et leurs applications. Pour accéder à ces informations, les demandes d'accès doivent être faites par écrit par courrier électronique. Le hic, cependant, est que les chercheurs universitaires et universitaires sont les seuls éligibles à l'accès aux données.
186. Rapports d'OVNIS
Le National UFO Reporting Center dispose d'une base de données en ligne détaillant les expériences des personnes avec des objets volants non identifiés. Les chercheurs peuvent rationaliser leur recherche dans la base de données en utilisant l'une des quatre catégories dans la date, la forme de l'OVNI, la date affichée et même par état. Les ovnis sont uniques car ils ne manquent jamais de captiver l'imagination du public. S'il y a eu des rencontres récentes du troisième type à proximité, c'est l'endroit idéal pour découvrir ce que les gens ont dit.
187. WikiLeaks
Notoire et tristement célèbre dans les médias en raison des controverses et de ce que les fuites ont révélé sur le fonctionnement interne du gouvernement et d'autres personnalités célèbres et puissantes de la société, WikiLeaks a une réputation qui le précède. Bien que les vidages de données soient rarement supprimés discrètement, personne ne remet jamais en question l'exactitude des informations. Pour les journalistes à la recherche d'histoires qui susciteront instantanément l'intérêt, WikiLeaks est une source éprouvée. Si rien d'autre, cela fera une lecture intéressante.
188. Le Washington Post
Le journal est déjà connu comme une excellente source d'actualités et d'articles d'opinion, mais peu de gens savent que le Washington Post donne accès aux données brutes souvent mentionnées dans ses articles. Sur la page de données, les chercheurs peuvent trouver des données dans des catégories telles que l'éducation, le recensement, la santé et la sécurité, les transports et le développement, les bases de données historiques de la Coupe du monde et même des chiffres relatifs au gouvernement et à la politique. En termes simples, l'accès à ces chiffres aide les gens à développer une compréhension plus concrète des enjeux de l'actualité.
189. Données climatiques
Les données climatiques sont un ensemble de données qui fournit des informations complètes sur la température mondiale. Dans le format actuel, les utilisateurs peuvent voir toutes les informations climatiques importantes à travers les grilles tout en étant en mesure de voir quelles sont les moyennes. Pour ceux qui recherchent les données complémentaires, il est également possible d'accéder aux mêmes informations pour la terre et l'océan. Ces informations peuvent être téléchargées, mais pour des raisons de commodité, elles peuvent également être consultées directement sur le site.
Protein Structure est une source qui cherche à examiner comment les réseaux informatiques peuvent être utilisés en conjonction avec la biologie. La page héberge un référentiel avec des données accessibles via les liens fournis. La façon dont le site intègre plusieurs idées telles que l'analyse de modèles et la biologie exécutable dans la poursuite de cet objectif présente un intérêt particulier pour les membres de la communauté de la recherche. Pour les journalistes, ce site vaut la peine d'être consulté pour observer les progrès et examiner les données.
191. Analysez les données d'enquête gratuitement
Avec l'aide de ce site, les utilisateurs peuvent suivre un cours d'analyse des données d'enquête sans avoir à payer pour ce privilège. Analyze Survey Data Free avec sa table des matières détaillée, comprend des sections portant des titres tels que Maps and Art of Survey - Weighted Maintenance, Balancing Respondent Confidentiality with Variance Estimation Precision, Structural Equation Models (SEM) et Complex Survey Data. Le site offre un excellent rappel pour ceux qui prévoient de traiter plus de données statistiques à l'avenir.
192. UCLA
Sur le site wiki de l'UCLA, les chercheurs trouveront un certain nombre d'ensembles de données disponibles à des fins de démonstration. Il existe de nombreuses données simulées et observées parmi lesquelles choisir. En utilisant ces ressources, il est possible pour les gens d'utiliser cette ressource pour découvrir des données climatiques, des données démographiques, des données biomédicales, des données de neuroimagerie, des données de recensement américaines, des données électorales et des données économiques parmi de nombreuses autres catégories. En fin de compte, ces ensembles de données sont une ressource dont beaucoup de gens peuvent bénéficier.
Sur sa page de site, l'Université de Toronto offre aux chercheurs un accès à ce qu'elle appelle les ensembles de données Delve. Ces collections de données faisaient partie d'un produit plus vaste conçu dans le but de faire des comparaisons entre les méthodes d'apprentissage. En fin de compte, ces informations sont là pour le développement et l'évaluation des différentes approches d'apprentissage. En bref, il s'agit d'une source solide pour les chercheurs qui souhaitent mieux comprendre comment analyser et gérer les ensembles de données.
194. Service de la conservation des ressources naturelles
Le Natural Resources Conservation Service a un site qui se concentre sur la promotion de la conservation tout en offrant des informations sur les différentes mousses, hornworts, plantes vasculaires, lichens et hépatiques présents aux États-Unis. Ce site héberge une base de données complète de plantes et d'images de plantes qui peuvent être trouvées sur le site pour accompagner des tonnes d'informations. Les chercheurs peuvent télécharger la base de données et trouver des tonnes d'informations sur des sujets tels que les cultures alternatives. Essentiellement, ce site Web contient tout ce que les gens doivent savoir sur les plantes.
195. Service de la recherche agricole
Comme on peut le deviner d'après le nom de l'agence, ce service gère les besoins de recherche du Département américain de l'agriculture. Chaque fois qu'un problème agricole est découvert, c'est la partie du gouvernement qui a probablement aidé à trouver une solution. Le site héberge un certain nombre d'ensembles de données qui peuvent être consultés et téléchargés directement. Les journalistes peuvent également utiliser ce site pour trouver toutes les dernières nouvelles en rapport avec les questions touchant l'agriculture.
196. Bibliothèque d'images de cellules
Ce site propose une bibliothèque publique qui propose des ressources, des informations et un accès à des images et des animations représentant des cellules et des processus cellulaires. La cellule est conçue avec le double processus de recherche et d'éducation à l'esprit, les informations ici sont presque toujours pertinentes lors de discussions sur la santé publique et la maladie. Les matériaux proviennent d'une combinaison de sources, y compris des publications historiques et modernes. Pour une explication approfondie qui simplifie les processus biologiques complexes, les journalistes ne peuvent pas se tromper avec la bibliothèque d'images cellulaires.
197. Génomique complète
Il s'agit du site d'une entreprise qui se considère comme une partie établie de l'espace biotechnologique dans le domaine du séquençage du génome humain. Chose intéressante, Complete Genomics a mis à la disposition du public un certain nombre de ses séquences génomiques entières. En fin de compte, cela offre toutes sortes d'informations utiles sur l'ADN et le génome humain séquencé. La seule condition sur ce matériel est que les chercheurs qui utilisent ces informations prennent soin de donner les références appropriées à Complete Genomics.
198. Tableau Express
Array Express est un référentiel qui stocke les informations des résultats d'expériences génomiques qui ont nécessité des quantités massives de séquençage ou de traitement. Sur ce site, les utilisateurs trouveront les résultats de plus de 70 000 expériences pour accompagner plus de 2 millions d'essais dans plusieurs téraoctets de magasins de données. Mieux encore, ces informations peuvent être réutilisées gratuitement à des fins de recherche. Il s'agit d'une excellente ressource pour toutes les dernières informations sur la génomique et les progrès réalisés dans le domaine.
199. Encoder
L'Encyclopédie des éléments d'ADN, ou le Consortium ENCODE, est le résultat de groupes de recherche du monde entier qui travaillent en collaboration les uns avec les autres. En fin de compte, l'objectif est de compiler une liste de toutes les parties fonctionnelles du génome qui incluent l'examen attentif des niveaux d'ARN, des protéines, des éléments qui régulent les cellules et de l'activité des gènes. Il y a des données qui peuvent être recherchées ainsi qu'une encyclopédie qui offre de plus amples informations.
200. Génomes d'ensemble
Ensemble Genomes est un site créé en 2000 qui traite des génomes des vertébrés. Au fil des ans, cette ressource a ajouté des informations complémentaires sur les métazoaires invertébrés, les plantes, les bactéries et les champignons. Les données sur tous ces sujets peuvent être trouvées et accessibles en cliquant sur les liens disponibles sur le site. Ce site propose des didacticiels, des ensembles de données sur tous les sujets abordés et une collection de documents à parcourir. Tous ces facteurs font d'Ensemble Genomes une source de données fantastique pour les journalistes.
201. Consortium d'ontologie génétique
Gene Ontology est un site qui existe dans le but exprès de trouver un moyen de représenter la compréhension actuelle de la façon dont les gènes fonctionnent par ordinateur. Il contient de nombreuses publications ainsi que de la documentation supplémentaire que les gens peuvent lire. Il y a des annotations hébergées directement sur le site. La bonne nouvelle pour les chercheurs qui souhaitent se pencher sur les chiffres et les données brutes est qu'il existe des fichiers disponibles en téléchargement directement sur le site Web.
202. Bibliothèque de signatures cellulaires intégrées basées sur le réseau
Le centre LINCS de la Harvard Medical School existe dans le but d'aider la communauté de la recherche et le grand public à en savoir plus sur la façon dont les cellules humaines réagissent lorsqu'elles ont été perturbées par des médicaments. À l'aide de la base de données HMS LINCS et de l'outil d'exploration de projets, les chercheurs peuvent trouver des publications et des résumés de projets ainsi que des ressources générales. Les journalistes peuvent également utiliser ce site pour obtenir toutes les dernières nouvelles et informations issues de cette recherche.
203. Projet de diversité du génome humain
Le projet de diversité du génome humain a fait beaucoup de progrès grâce aux efforts du Stanford Human Genome Center. Le site a des échantillons qui ont des milliers d'échantillons et de marqueurs. Il s'avère que ceux-ci peuvent être téléchargés, observés et analysés en profondeur simplement en suivant les liens fournis sur la page. Il s'agit d'une excellente ressource pour les journalistes qui souhaitent comprendre les informations provenant de la communauté des chercheurs.
204. Visualiseur de données JCB
JCB DataViewer permet à ceux qui s'intéressent à ce que le Journal of Cell Biology a à dire de voir les données d'image associées aux articles qui y sont publiés. Le site a une galerie complète que les gens peuvent faire défiler afin de voir les matériaux. En outre, les téléspectateurs ont également la possibilité d'effectuer une analyse plus approfondie des données lorsqu'ils parcourent le site. Pour faire simple, ce site est parfait pour comprendre les références et les chiffres présents dans les articles de la revue.
205. Portail de données Genomic Data Commons
Le portail de données GDC est une plate-forme conçue pour aider les chercheurs et ceux du domaine de la bioinformation à effectuer plus efficacement des recherches sur le cancer. Il y a une archive, une API, ainsi que des documents disponibles pour la lecture, etc. L'accès à ce site signifie être en mesure de voir les mêmes informations que celles que les chercheurs sur le cancer utilisent pour mener leurs propres recherches. Ici, les journalistes pourront trouver toutes les données qu'ils recherchent et plus encore.
206. Opensp
L'Opensp est un projet communautaire conçu dans le but de partager des génotypes. Les personnes qui ont été saisies à l'aide de FamilyTreeDNA, 23andMe ou deCODEme peuvent télécharger ces informations sur le site. Le but de demander aux gens de le faire est que le site puisse se concentrer sur la recherche de connexions entre les génotypes et les SNP, ou les polymorphismes d'un seul nucléotide. Ce qui est particulièrement intéressant pour les journalistes, c'est qu'il existe des données que les gens peuvent télécharger et apprécier.
207. Guide de chemin
Pathguide est un site dédié à fournir des informations sur les voies métaboliques et de signalisation ainsi que sur les interactions entre les protéines au niveau moléculaire. Cette page héberge une liste d'environ 697 ressources liées au sujet principal. Les bases de données auxquelles renvoie ce site sont généralement libres d'accès. La plupart des références fournies sur cette liste de ressources se concentrent principalement sur l'interaction protéine à protéine. Ce site est une ressource inestimable pour les passionnés de biologie.
208. RCSB PBB
Il s'agit d'un site dédié à informer les universitaires et le grand public sur tout ce qui concerne les acides nucléiques et les protéines. La banque de données sur les protéines RCSB offre un accès à divers outils conçus pour rendre cet aspect de la biologie plus compréhensible, notamment des outils de visualisation, une visualisation de la structure 3D et une archive entièrement consultable qui peut être classée par catégorie d'organisme. De plus, ce site offre des nouvelles mises à jour sur tous les derniers développements dans ce domaine.
209. Consortium de génomique psychiatrique
Le Psychiatric Genomics Consortium est le résultat d'une collaboration entre des chercheurs et des scientifiques du monde entier qui travaillent sur des recherches concernant la composante génétique des troubles psychiatriques. En fin de compte, ce projet a pu produire 17 articles principaux et 31 autres articles de développement offrant une analyse et une méthode secondaires avec un seul article de référence qui en est ressorti. Le Consortium propose des outils, des téléchargements et un accès aux résultats via le portail d'accès aux données sur demande.
210. Pub Chimie
PubChem est un nom respecté dans le domaine de la recherche médicale et biologique et ce depuis très longtemps. Offrant la possibilité de rechercher des structures ainsi que des bases de données de composés, d'essais biologiques et de substances, les chercheurs ne peuvent pas se tromper avec ce site. De plus, des millions d'entrées sont présentes dans chacune de ces bases de données. Ces informations peuvent être visualisées à l'aide d'outils tels que les outils de conformation 3D et les outils BioAssay. Les données sont également disponibles en téléchargement.
211. COSMIQUE
Comme son nom l'indique, le Catalogue des mutations somatiques dans le cancer, ou COSMIC, est dédié à la chronique et à l'exploration des effets des mutations somatiques dans le cancer. Le site permet de rechercher COSMIC classé par type de cancer, gène et mutation. Il existe des outils sur COSMIC tels que le navigateur du génome et le navigateur du cancer. En outre, des données sur la conservation des gènes, la résistance aux médicaments, les criblages de génomes, les signatures mutationnelles et la conservation de la fusion des gènes sont également disponibles sur le site pour téléchargement.
212. Génomique de la sensibilité aux médicaments dans le cancer
La génomique de la sensibilité aux médicaments dans le cancer se consacre à la recherche de biomarqueurs qui peuvent aider les médecins à identifier le type de médicament anticancéreux auquel les patients sont plus susceptibles de réagir. Les journalistes peuvent utiliser les onglets d'actualités pour rester informés de la présence de nouvelles données ou de modifications du site. En outre, il existe également une compilation de données sur les lignées cellulaires, une base de données relatant les caractéristiques du cancer et même une liste de composés tous disponibles pour consultation sur le site.
213. Institut Stowers de recherche médicale
Le site Web de l'Institut Stowers pour la recherche médicale offre aux membres chercheurs du public un accès gratuit aux données que ses scientifiques, chercheurs et scientifiques en génomique ont utilisées pour leurs publications. Pour le grand public, l'institut prend soin de souligner que le référentiel de données originales Stowers est généralement libre d'accès. Cela étant dit, certains des fichiers les plus volumineux de la base de données peuvent ne pas être accessibles directement via Internet et peuvent nécessiter des dispositions supplémentaires.
214. Base de données SSBD
La base de données Systems Science of Biological Dynamics, généralement appelée base de données SSBD, fournit une suite d'outils et de ressources à utiliser dans le but d'examiner des images microscopiques et d'évaluer des données biologiques quantitatives. Les images trouvées sur ce site proviennent de diverses sources et incluent des objets tels que des cellules, des molécules uniques et des noyaux d'expression génique. Les données de ce site étant acquises à partir de simulations informatiques et d'expériences, les journalistes peuvent être assurés que les informations ici sont constamment affinées et mises à jour.
215. Partage des génomes personnels
Le projet de génome personnel est un site axé sur la création de données sur la santé, le génome et les traits qui sont ouvertes et accessibles au public. Poursuivant largement le projet avec l'aide de personnes qui se sont portées volontaires pour rendre publiques leurs informations génomiques, ce site offre gratuitement au public les données qu'il a trouvées et acquises avec succès. Science mise à part, ce projet offre aux journalistes un regard intéressant sur les effets de la création d'un dossier public d'informations sur le génome personnel.
216. Navigateur de génome UCSC
Le USCS Genome Browser permet aux individus de visualiser les assemblages de génomes. En plus de la visualisation en ligne, le site fournit également des liens qui peuvent être utilisés pour télécharger les séquences et les annotations pour ces mêmes assemblages de génomes. Ces liens sont divisés en catégories d'humains, de mammifères, d'autres vertébrés, de deutérostomes, d'insectes, de nématodes, d'autres génomes et d'autres téléchargements. Les outils et répertoires de ce site sont également gratuits pour un usage personnel et non commercial. Les journalistes peuvent bénéficier de la rigueur et de l'accessibilité de ces informations.
217. UniProt
L'Universal Protein Resource, connue sous le nom d'UniProt, est l'endroit où aller pour obtenir des informations sur le séquençage et l'annotation des protéines. S'appuyant sur les informations fournies par trois bases de données dans les clusters de référence UniProt, la base de connaissances UniProt et l'archive UniProt, ce site est équipé de recherches de peptides et de clusters, entre autres fonctionnalités. Les journalistes peuvent utiliser ce site pour vérifier, découvrir et en savoir plus sur les nouvelles découvertes dans le domaine du séquençage et de l'annotation des protéines.
218. Données de l'indice climatique des actuaires
L'indice climatique des actuaires, également appelé ACI en abrégé, fournit au grand public et aux décideurs des informations sur les tendances climatiques et les effets des changements climatiques au Canada et aux États-Unis. Les chercheurs peuvent parcourir les informations fournies par cet outil pédagogique pour trouver et découvrir des changements massifs de la mer et de la météo. Il est possible d'affiner la recherche par régions et composants. Ce site dispose de décennies de données et met régulièrement à jour ses informations tous les trimestres.
219. Centre de météorologie aéronautique
Le centre de météorologie aéronautique fournit des informations précises, opportunes et à jour sur les conditions météorologiques sur lesquelles le système de l'espace aérien peut compter. Sur ce site, les utilisateurs peuvent visualiser les divers graphiques, prévisions et observations météorologiques encadrés d'une manière que les aviateurs peuvent apprécier. Il est possible de visualiser les informations fournies par les sources de données du site en temps réel via une sortie .csv ou XML. Les chercheurs peuvent manipuler et observer les chiffres bruts de plus près grâce à cette option de téléchargement.
220. Unité de recherche climatique
Le site Web de l'Unité de recherche climatique est là dans le but exprès d'effectuer des recherches sur les effets du changement climatique dans le passé, d'étudier les causes et de trouver des solutions aux problèmes du changement climatique dans le présent. Ici, les gens peuvent lire les résultats de la recherche, avoir un aperçu du sujet à travers les fiches d'information, lire des publications et même accéder aux données brutes. Les journalistes à la recherche d'ensembles de données météorologiques brutes ont de la chance avec cette ressource.
221. Évaluation européenne du climat et ensemble de données
Sur le site Web de l'European Climate Assessment & Dataset, le public peut découvrir des informations sur les changements extrêmes du climat ou de la météo. Les chercheurs ont la possibilité d'utiliser l'outil de recherche du projet, appelé KNMI Climate Explorer, pour vérifier les données, examiner les prévisions saisonnières et même examiner de plus près les effets d'El Nino, entre autres applications. Étant donné que cet ensemble de données est mis à jour quotidiennement, les journalistes utilisant cette source seront les premiers informés de tout signe de changement climatique extrême.
222. Services de navigation d'imagerie mondiale
Global Imagery Browse Services, GIBS en abrégé, est un élément essentiel d'EOSDIS dans son rôle de fournisseur de services d'imagerie réactifs et basés sur les normes communautaires. En d'autres termes, GIBS permet aux gens ordinaires d'interagir avec des images satellites prises de pratiquement n'importe où sur terre en haute définition. Étant donné qu'EOSDIS GIBS est mis à disposition via les données des sciences de la Terre de la NASA, il est plus facile que jamais pour les journalistes et les chercheurs d'en savoir plus sur le monde en temps réel.
223. Climat et écosystème de Béring
Fonctionnant sous l'égide de la National Oceanic and Atmospheric Administration du gouvernement des États-Unis, ce site Web indique aux journalistes et aux chercheurs tout ce qu'ils pourraient vouloir savoir sur la façon dont le climat et l'écosystème de la mer de Béring réagissent aux changements survenus dans l'Arctique. Ici, il est possible de lire des essais, d'examiner des projections et d'utiliser l'outil de données en ligne pour voir comment divers indices climatiques, données biologiques, atmosphériques, océaniques et fauniques se comportent dans la mer de Béring.
224. NCEI
Le NCEI, ou National Centers for Environmental Information, est le résultat final de la fusion des trois centres de données de la National Oceanic and Atmospheric Administration. Cette page héberge une série de liens divisés en 22 catégories qui relieront les utilisateurs à différentes ressources, pages d'intérêt et ensembles de données climatiques et météorologiques. Les journalistes à la recherche d'informations sur le climat, les tempêtes, les précipitations et une foule d'autres problèmes météorologiques trouveront probablement ce qu'ils recherchent ici.
225. Laboratoire de recherche sur le système terrestre
La division de surveillance mondiale de la National Oceanic and Atmospheric Administration fournit des informations sur les tendances à long terme des forces du changement climatique sur terre grâce à sa surveillance des paramètres atmosphériques clés. Parmi ceux-ci seraient le monoxyde de carbone, le méthane, l'oxyde nitreux et le dioxyde de carbone à titre d'exemple. Ces paramètres sont ensuite utilisés pour mesurer des éléments tels que l'appauvrissement à long terme de la couche d'ozone, les sources et les niveaux de dioxyde de carbone, ainsi que les puits. Il s'agit d'une ressource sur le changement climatique que les journalistes peuvent utiliser.
226. WorldClim – Données sur le climat mondial
Vous avez toujours voulu une meilleure façon de visualiser les données climatiques ? WorldClim est un fournisseur de logiciels de données gratuites qui peuvent ensuite être appliquées à la modélisation spatiale ainsi qu'à la création de cartes. La version actuelle de ce logiciel gratuit ne peut être appliquée qu'au climat actuel tandis que l'ancienne version permet d'accéder aux données climatiques du passé et du présent et permet également aux utilisateurs de voir l'état des prévisions climatiques futures. Les journalistes peuvent simplement suivre le lien et télécharger le logiciel.
227. Laboratoire de découverte des connaissances
Le Knowledge Discovery Laboratory est un site dédié au développement de technologies innovantes, aux bases de l'apprentissage automatique et à l'application de ces connaissances dans des domaines pratiques tels que la science des réseaux, la détection des fraudes et l'analyse des données scientifiques. Le site héberge un ensemble de données assez important dans le DBLP avec 1,2 million d'objets et 2,48 millions de liens inclus dans l'ensemble. Pour les chercheurs intéressés par les objectifs du Laboratoire de découverte des connaissances, cet ensemble de données est une excellente ressource.
228. Défi de mise en œuvre DIMACS
Le site Web du 9th Implementation Challenge vise à aider les chercheurs à apprendre à résoudre les problèmes de chemin le plus court. Pour les créateurs, le site a été construit avec deux objectifs en tête. Tout d'abord, trouver les meilleures solutions reproductibles. Et deuxièmement, pour faciliter la collaboration des chercheurs et découvrir des solutions plus efficaces. Les chercheurs qui souhaitent voir les progrès réalisés dans ce domaine peuvent consulter les articles et les ensembles de données sur le site.
229. Référentiel réseau
Le référentiel du réseau est un site où les données scientifiques sont stockées avec l'ajout d'outils visuels interactifs auxquels les utilisateurs peuvent accéder et analyser. Ce site a la double distinction d'être à la fois le premier référentiel de ce type et aussi le plus grand sur le web. Utiliser des données graphiques et des images intuitives et visuellement attrayantes, faire des comparaisons et trouver de nouvelles façons de contextualiser les données est beaucoup plus facile. Les journalistes peuvent utiliser cette source pour trouver des histoires dans les données scientifiques.
230. Ensembles de données Pajek
Pajek Datasets est une page qui fournit un ensemble de données qui traite des interactions entre les protéines trouvées dans la levure bourgeonnante. Après avoir offert une brève explication de fond sur l'impact de la recherche de nouvelles méthodes de détection des interactions ainsi que les raisons pour lesquelles il est essentiel de pouvoir discerner l'importance de diverses interactions protéine-protéine, le site relie directement les téléspectateurs à un ensemble de données disponible en téléchargement. Pour en savoir plus, les chercheurs peuvent cliquer sur le lien en bas afin de lire l'article publié sur le sujet.
Ce site cherche à partager des liens vers les ensembles de données réseau que le propriétaire du site Web a utilisés et compilés. Les thèmes des ensembles de données vont du football universitaire américain, des blogs politiques et des livres sur la politique américaine aux réseaux sociaux, Les Misérables et aux collaborations théoriques à haute énergie. Les personnes intéressées à les explorer auront le choix entre de nombreux thèmes d'ensembles de données d'intérêt. De plus, les données sont libres d'utilisation tant qu'il y a des références.
232. La base graphique de Stanford
Le Stanford GraphBase est le nom qui a été donné à un tas d'ensembles de données et de programmes par Donald Knuth de Stanford. Lorsqu'ils sont utilisés en combinaison les uns avec les autres, ces programmes et ensembles de données sont capables de manipuler et de générer des graphiques et des réseaux. Sur ce site, les matériaux nécessaires sont disponibles pour téléchargement via les liens. Dans ces fichiers, les chercheurs trouveront des données sur les scores de football, des données de dictionnaire, des données concernant la reconstruction de la Joconde, et bien d'autres.
Anciennement connue sous le nom de University of Florida Sparse Matrix Collection, SuiteSparse Matrix Collection est une collection de matrices qui ont des implications réelles. Selon le site, cette collection particulière est utilisée le plus souvent pour l'algèbre linéaire numérique dans le développement et le raffinement des algorithmes de matrice creuse. Les utilisateurs ont tendance à aimer la collection pour son utilité dans l'exécution et le test des résultats d'expériences. Les jeux de données et les benchmarks matriciels sont disponibles en téléchargement directement sur le site.
234. Ensembles de données graphiques
Il s'agit d'un ensemble d'ensembles de données que les créateurs de cette page Web pensaient être soit relationnels, soit capables de bien se traduire en représentation graphique. Graph Datasets propose des ensembles de données tels que les données du Predictive Toxicology Challenge, les données IMDb, les données de mutagenèse, les données MovieLens, le filtrage collaboratif et les données sur les protéines aux chercheurs qui souhaitent apprendre à travailler avec les chiffres bruts. Les fichiers sont mis à disposition sur cette page et sont principalement disponibles en téléchargement au format XML.
235. Actualités sur les mégadonnées
Big Data News est un site axé sur les mégadonnées et les principes fondamentaux de la science des données. Ce site contient les dernières nouvelles et comprend des discussions sur l'apprentissage en profondeur et l'intelligence artificielle. De plus, Big Data News héberge également un ensemble de données massif qui contient un total d'environ 3,5 milliards de pages Web. Ceux-ci sont tous séparés par des niveaux appelés respectivement graphique au niveau de la page, graphique au niveau du sous-domaine, graphique du sous-domaine de premier niveau et graphique du domaine au niveau de la rémunération.
236. Centre de recherche sur les réseaux et systèmes complexes
CNetS, ou Centre de recherche sur les réseaux et systèmes complexes, opérant sous l'égide de l'Indiana University Network Science Institute et de la School of Informatics and Computing. Le site est destiné à être une ressource dans les domaines de la science des données, des sciences sociales computationnelles et des réseaux et systèmes complexes contenant des informations sur l'exploitation minière et les modèles de trafic en ligne. En outre, CNetS héberge également un ensemble de données contenant environ 53,5 milliards de requêtes réseau effectuées par les utilisateurs de l'Université de l'Indiana.
237. Explorateur OONI
OONI Explorer, qui fait partie de l'Open Observatory of Network Interference, est un projet dédié à la fourniture de logiciels libres et open source. Il est possible pour les utilisateurs d'utiliser ensuite le logiciel pour s'essayer au blocage de sites Web et d'applications de messagerie, entre autres applications. La disponibilité d'un accès gratuit aux données brutes collectées par OONI est particulièrement intéressante pour les personnes intéressées par cette technologie. Entrez simplement les informations dans OONI Explorer et interagissez avec les données à partir de là.
238. Les défis de l'apprentissage automatique
Challenges in Machine Learning est dédié à la recherche et au développement de l'apprentissage automatique. Sur ce site, les lecteurs trouveront des liens vers des logiciels, des livres, des défis d'apprentissage automatique, ainsi que des notifications d'ateliers à venir. Le site fournit même des liens vers des défis qui permettent des soumissions post-date. Pour les journalistes qui souhaitent voir si l'apprentissage automatique peut effectuer des tâches telles que la prévision financière ou la classification de pages Web, c'est un site qui vaut bien une visite.
239. DonnéesX
Travaillant actuellement sous l'égide de CrowdANALYTIX, DataX est la partie machine d'une initiative communautaire qui exploite la puissance du collectif pour créer des applications personnalisées d'intelligence artificielle, d'apprentissage automatique et de programmation neuro-linguistique. Le rôle de DataX dans le processus est la maintenance et le déploiement qui, à leur tour, servent à rendre ces solutions évolutives. Pour les journalistes qui ont des tonnes de textes, de vidéos et de données à trier, les robots disponibles via CrowdANALYTIX et DataX peuvent réduire de moitié les temps de recherche.
240. Données pilotées
Driven Data combine le crowdsourcing avec la science des données d'une manière que presque aucun autre site ne fait. Soulignant son rôle d'assistance aux organisations qui s'attaquent à différents défis sociaux, ce site offre une aide en mettant sa communauté scientifique de données substantielle au travail pour créer des modèles statistiques qui résolvent des questions prédictives. Driven Data semble fonctionner principalement avec des organisations à but non lucratif, mais il est potentiellement utile pour quiconque dispose de données brutes à affiner. Les journalistes peuvent bénéficier de garder cette source à l'esprit.
241. Mégadonnées ouvertes
L'API Dandelion est une application qui gère l'analyse de texte sémantique pour le Big Data. Ce que cela signifie pour les personnes qui ont des données qui nécessitent un traitement, c'est que ce programme prendra du texte désorganisé et trouvera un moyen de le mettre en contexte. Les journalistes qui parcourent de nombreux documents peuvent certainement bénéficier de cette capacité. L'API de pissenlit a également Open Big Data dans les catégories Milano, Trento et Europe. Bien que cette API soit payante, une quantité quotidienne de texte peut être analysée gratuitement.
242. Modèles terrestres
Earth Models se concentre sur le partage et le stockage de logiciels et d'ensembles de données liés à la Terre. Les outils de modélisation mentionnés sur le site comprennent des logiciels de simulation et de traitement ainsi que des données virtuelles qui empruntent fortement à des domaines d'étude spécifiques comme la tectonique et la sismologie. Les journalistes et chercheurs qui souhaitent affiner leurs connaissances sur le sujet peuvent utiliser les publications et articles de ce site pour le faire avant de se plonger dans les outils de modélisation et de visualisation.
243. Centre de Données et d'Applications Socioéconomiques (SEDAC)
Le Centre de données et d'applications socioéconomiques, ou SEDAC, est l'un des centres de données associés au système EOSDIS de la NASA. Sur ce site, les lecteurs trouveront des ensembles de données qui offrent des chiffres sur le changement climatique ou des informations démographiques maillées. Les ensembles de données peuvent également être recherchés par thèmes tels que la gouvernance, l'agriculture, l'utilisation des terres, la santé, la conservation et le climat, l'eau, la télédétection et la pauvreté. Il existe des cartes, des galeries, des guides qui donnent plus de contexte aux données, ainsi que des ressources et des outils supplémentaires auxquels les chercheurs peuvent également accéder sur le site.
244. Portail AODN
Le portail AODN, un site détenu par l'Australian Ocean Data Network, est un site qui offre un accès aux données scientifiques et marines australiennes sur le climat. Les chercheurs qui accèdent à ces informations auront également accès aux données IMOS et aux métadonnées, qui est un cadre de recherche de plusieurs institutions dont le soutien du gouvernement australien. Les chercheurs qui choisissent d'exploiter le portail AODN peuvent s'attendre à recevoir une excellente livraison des données océaniques dans une interface intuitive.
245. Planète OS
Planet OS offre un cadre de données volumineuses mettant l'accent sur les énergies renouvelables. Ce choix de niche couplé à la maîtrise du site l'a rendu populaire auprès des énergéticiens à la recherche de nouvelles façons de visualiser et de contextualiser leurs données. De plus, le site a également ce qu'on appelle le DataHub présent où il héberge une collection substantielle de plus de 2 000 ensembles de données. Ces ensembles de données incluent des données ouvertes via la NASA et Copernicus et les données sont souvent mises à jour régulièrement.
Le Smithsonian est depuis longtemps un nom académique respecté et est apprécié dans le monde entier pour son engagement envers la recherche et l'histoire. À certains égards, il est naturel que le Smithsonian ait un site Web qui offre certaines des meilleures informations sur la recherche en ligne sur les volcans. Le site publie des rapports, des liens de recherche et des bases de données qui incluent des recherches restreintes sur les volcans, les éruptions, les émissions et les déformations pour aller avec la liste et le tableur des volcans de l'Holocène. Les journalistes n'auront pas besoin d'une autre source sur l'activité volcanique.
247. Catalogue des tremblements de terre
Mis à jour et maintenu par le Earthquake Hazards Program du gouvernement américain, le Earthquake Catalog permet aux chercheurs de voir quand et où un tremblement de terre s'est produit pour la dernière fois. Alors que les résultats de recherche sont limités à 20 000, la recherche dans le catalogue est capable de filtrer les résultats par ampleur, date et heure, et même par région géographique. Ce niveau de flexibilité rend cette ressource particulièrement utile pour les journalistes qui couvrent une catastrophe naturelle ou un tremblement de terre local et qui recherchent des informations de fond.
248. Association économique américaine
L'American Economic Association fournit aux chercheurs des données macroéconomiques pour les États-Unis et d'autres pays du monde. Ce site ne semble pas tant produire des données économiques qu'il dresse une courte liste des plus fiables. Cependant, à la lumière des nombreux sites proposant des informations économiques sur Internet, il s'agit d'une ressource dont les journalistes peuvent s'attendre à avoir de la crédibilité. Allez simplement sur le site et cliquez sur les catégories de données économiques en conséquence.
Historicalstatistics.org est un site incroyablement utile pour trouver le type d'information économique qui présente un contraste intéressant avec le présent. Par exemple, le convertisseur de devises historique du site permet aux chercheurs de savoir combien une personne avec 10 USD en 1923 pouvait acheter aujourd'hui. Il héberge également des publications et des articles qui posent des questions sur les mesures utilisées dans le domaine de l'histoire économique ainsi que des indices de prix et des informations sur la masse monétaire qui peuvent être filtrées par pays.
250. DB Nomics
Et si toutes les données économiques publiques sur Internet pouvaient être consultées et recherchées à partir d'une seule plateforme navigable ? Db.nomics est un agrégateur de bases de données économiques qui cherche à faire exactement cela. Les données sont disponibles dans des formats tels que HTML, JSON et CSV et sont automatiquement mises à jour tandis que les révisions précédentes sont archivées en conséquence. Les sources économiques comprennent la Réserve fédérale, le Bureau d'analyse économique, le Fonds monétaire international et d'autres. Les chercheurs à la recherche de données économiques fiables ne peuvent pas se tromper avec Db.nomics.
251. Centre conjoint de la dette extérieure (JEDH)
Développé grâce aux travaux combinés de la Banque des règlements internationaux, de l'Organisation de coopération et de développement économiques (OCDE), du Fonds monétaire international et de la Banque mondiale, le Joint External Debt Hub rend les informations sur la dette et les créanciers et débiteurs internationaux accessibles aux le public. Les journalistes qui étudient les finances de différentes nations et tentent de mieux comprendre le paysage financier international trouveront pratiquement tout ce qu'ils veulent savoir ici.
252. Données sur le commerce international
Réunie avec la contribution complète d'un expert économique de premier plan en la personne de Jon Haveman, cette page sur les données du commerce international héberge des données qui peuvent être téléchargées et analysées plus en détail. Les ensembles de données comprennent les données tarifaires, les tableaux Penn World, les services publics, les données d'importation, la productivité manufacturière, les classifications des biens, les codes de différenciation des produits Rauch, les données NBER, l'enquête sur les flux de marchandises de 1997, le commerce et l'immigration, et le modèle de gravité utile. UNIX est le système d'exploitation utilisé pour les compiler, mais le site note que les PC devraient également avoir accès aux données.
253. Entreprises ouvertes
Sur OpenCorporates, les chercheurs ont le luxe de rechercher et de trouver des informations dans l'une des plus grandes bases de données ouvertes d'entreprises du monde entier. Ces informations sont ensuite utilisées par différents groupes à travers le monde tels que des banques, des enquêteurs, des ONG et des journalistes dans un effort de renseignement et d'information. Les journalistes ont l'avantage supplémentaire de pouvoir accéder aux données en temps réel à l'aide de l'API OpenCorproates ainsi que via les données de base en masse ou d'autres ensembles de données de base.
Notre monde en données prend des informations à partir d'un certain nombre de sources dans une variété de domaines et présente des données quantifiées à leur sujet. Des chiffres sur la participation des femmes au marché du travail aux informations sur la perception générale de la corruption dans le secteur public et l'inégalité mondiale des revenus, si le sujet peut être abordé en termes de données, ce site Web pourrait bien avoir une entrée pour cela. Les journalistes peuvent utiliser cette source pour trouver des statistiques et des chiffres liés à des questions sociales.
255. Sciences Po
Sciences Po, ou comme on l'appelle plus communément, l'Institut d'études politiques est une école qui a une influence indéniable dans les sciences sociales. Dans ce cas, la page de Thierry Mayer comprend des fichiers de données qui présentent des données de régression de la gravité et des conflits militaires de "Make Trade Not War" ainsi que des ensembles de données sur les potentiels de marché parmi plusieurs autres. Les journalistes qui cherchent à mieux comprendre les conclusions tirées dans les revues académiques découvriront de nombreuses informations en parcourant ce site.
256. Centre de données internationales
Depuis ses débuts en 1999, le Center for International Data s'est consacré à sa mission de collecte, de création, d'amélioration et de distribution de données économiques internationales hors ligne et en ligne. Sur le site Web, les lecteurs peuvent accéder à des informations telles que les données tarifaires américaines, les importations et les exportations mondiales et américaines, et même des informations provenant de la Penn World Table. Ces informations étant mises à la disposition du public à des fins d'éducation et de recherche, les journalistes peuvent accéder et utiliser ces données gratuitement.
257. Observatoire de la Complexité Economique
L'Observatoire de la complexité économique, communément appelé OEC, permet aux chercheurs, étudiants, économistes et à toute autre personne de visualiser les données du commerce international. Avec ses thèmes accrocheurs et son interface interactive, ce site donne aux chercheurs une occasion légitime d'explorer l'information sur le commerce international d'une manière qui n'a jamais vraiment été vue auparavant. Pour les journalistes qui aiment pouvoir voir les données économiques prendre vie au fur et à mesure qu'ils les recherchent, l'OEC est une ressource inestimable.
258. Données du tableau de bord du collège
L'enseignement supérieur est un sujet brûlant dans de nombreux cercles, les étudiants et les familles souhaitant savoir comment se situent les écoles et dans quelle mesure les étudiants apprennent. Grâce à ses données College Scorecard, le US Department of Education donne aux éducateurs et aux étudiants toutes ces informations et plus encore. Ces chiffres couvrent la période de 1996 à 2016 et incluent les données actuelles, les données des tableaux de bord et les revenus post-scolaires, ainsi que les nouvelles informations du Système national de données sur les prêts aux étudiants. C'est une source d'enseignement postsecondaire à jour que les journalistes devraient s'assurer d'utiliser.
259. Ensemble de données sur l'énergie des bâtiments commerciaux
En tant qu'ensemble de données traitant principalement de l'énergie, COMBED revendique automatiquement l'unicité. Ajoutez à cela le fait que ses données sont renouvelées plusieurs fois par minute en provenance d'un immeuble commercial, et il devient clair que cet ensemble de données est unique en son genre. Pour les journalistes, ces informations sont extrêmement utiles lors de la préparation d'un article sur la consommation d'énergie. Accéder aux données de COMBED est aussi simple que de télécharger et d'ouvrir une feuille de calcul Excel.
La partie DRED de la base de données DRED signifie Dutch Residential Energy Dataset. Comme le titre l'indique, ces données mesurent et étudient la quantité d'énergie qu'un seul ménage néerlandais consommera. L'ambiance, l'occupation, l'électricité et les informations générales sur les ménages ont toutes été surveillées dans cet ensemble de données du 5 juillet 2015 au 5 décembre 2015. Tout journaliste effectuant des recherches sur la consommation d'énergie gagnerait à consulter les chiffres bruts fournis ici. Les instructions pour télécharger les données au format CSV se trouvent directement sur le site Web.
ECO, qui signifie Electricity Consumption and Occupancy, est un projet exploité et géré par le Distributed Systems Group. La prémisse de ce projet consistait à ce que des chercheurs surveillent les charges et détectent les occupations dans six ménages suisses au cours de 8 mois. Ce site offre un accès à ces informations ainsi que des instructions et des liens vers des publications connexes. Grâce au tableau de bord visuellement interactif du site, les journalistes ne devraient avoir aucun problème à traduire la recherche en quelque chose d'engageant.
262. Ensemble de données indien pour l'eau et l'énergie ambiantes
IAWE, qui signifie Indian Dataset for Ambient Water and Energy, a été créé dans le but de surveiller la consommation d'énergie d'une maison de New Dehli avec des mesures d'électricité provenant d'appareils électroménagers, du compteur d'électricité et du panneau de circuit. En raison de pannes, de différences d'approvisionnement en eau, de pertes de paquets et de fluctuations de tension, l'iAWE a rencontré des problèmes propres au suivi de la consommation d'énergie en Inde. Ce sont des données incroyablement utiles pour les journalistes lorsqu'ils discutent des modèles de consommation d'énergie.
263. Électricité au niveau des appareils domestiques au Royaume-Uni
UK Domestic Appliance-Level Electricity, ou UK-DALE, est le nom donné à un ensemble de données qui surveille et enregistre la quantité d'électricité demandée dans un groupe de cinq ménages. Toutes les six secondes, UK-DALE mesure la demande du réseau électrique principal ainsi que des appareils individuels de la maison. Les journalistes intéressés à voir comment les ménages britanniques utilisent l'énergie peuvent certainement utiliser UK-DALE. Les données sont accessibles et il y a un document décrivant le système disponible pour la lecture.
264. ArcGIS
ArcGIS Hub est une plate-forme que les organisations et les particuliers peuvent utiliser pour atteindre leurs objectifs grâce à des initiatives à l'échelle du site. Avec des modèles de page, des guides étape par étape et des exemples disponibles pour consultation, ce site est une excellente ressource pour les déménageurs sociaux ambitieux. Pendant ce temps, les informations disponibles sous l'onglet Open Data hébergent des centaines d'ensembles de données dans la seule catégorie "Catastrophe". Que les journalistes recherchent des données ou y contribuent, ArcGIS Hub est utile à plus d'un titre.
265. SIG de Cambridge
Cambridge GIS est le référentiel de données ouvertes de la ville de Cambridge, Massachusetts. À l'exception des fichiers trop volumineux pour être téléchargés via ce référentiel GitHub, la plupart des ensembles de données de la ville se trouvent sur cette page. Les ensembles de données individuels disponibles ici comprennent les districts commerciaux, les servitudes, les districts de zonage, les résultats du recensement, les cimetières et d'autres points de repère et caractéristiques qui peuvent être quantifiés par les données. Un journaliste à la recherche d'informations locales trouvera tout ce qu'il recherche et plus encore sur ce site.
266. Geo-Wiki.org
En tant que ressource, Geo-Wiki est un site dédié à ce qu'il appelle le « mouvement scientifique citoyen ». Ici, les citoyens sont encouragés à s'essayer à la surveillance de l'environnement. Les chercheurs peuvent trouver les dernières nouvelles dans la barre latérale ainsi que les noms des publications et les téléchargements gratuits d'ensembles de données et de logiciels. Les outils rendus accessibles par le site comprennent des cartes, des téléchargements de données personnelles, des validations et des hackathons qui peuvent être téléchargés au format Excel et dans des fichiers zip.
267. OpenStreetMap
Les extraits de données OpenStreetMap proviennent du projet OpenStreetMap, la tentative en ligne en cours pour créer une carte du monde grâce aux modifications et aux efforts de la communauté mondiale des utilisateurs. Pour commencer avec cette source de données, tout ce que les éditeurs de contenu doivent faire est de choisir leur continent préféré, puis de trouver leur pays préféré après ce point. Il n'y a pas de frais pour le téléchargement de cette Geofabrik GmbH et les données sont mises à jour quotidiennement en règle générale.
Exploité et entretenu par le Département de la sécurité intérieure, HIFLD, pour les données de niveau de la fondation de l'infrastructure intérieure, place les données géospatiales dans le domaine public. Ces données sont distribuées dans le but exprès de fournir un soutien et des informations à des fins de recherche et de préparation dans la communauté. Ces données peuvent être téléchargées dans Shapefile et CSV et peuvent également être consultées sur le Web. Pour les éditeurs, HIFLD Open Data rend les données géospatiales plus visuelles et attrayantes que jamais.
269. OuvrirAdresses
OpenAddresses est spécialisé dans l'infrastructure et la collecte d'adresses. Propulsé en grande partie grâce aux efforts de la communauté, ce site utilise GitHub comme plateforme de développement. Ici, les gens peuvent placer des adresses sur une carte après l'avoir ajoutée à la base de données ou ils peuvent prendre les données et commencer immédiatement le géocodage. Avec toutes les données et adresses ouvertes et nécessitant une simple attribution, les mises à jour régulières des données et le potentiel d'avancées du géocodage font d'OpenAddresses un projet très intéressant.
270. Unité de gestion des données ouvertes
Open Data LMU s'appuie fortement sur les données d'OpenStreetMap pour aider au développement du Fast Reverse Geocoder. Cela signifie que l'application est capable de prendre rapidement un emplacement sur une carte et de trouver une adresse complète basée sur ce point. Cela pourrait également s'appliquer aux quartiers et aux comtés. Cette page Web héberge un tas de liens liés à l'application qui incluent le code source, les ensembles de données et les tables de recherche et résolutions OpenStreetMap.
271. Explorateur de données environnementales
Avec l'explorateur de données environnementales, les journalistes, les chercheurs et les étudiants peuvent télécharger et explorer les mêmes ensembles de données que le Programme des Nations Unies pour l'environnement utilise avec ses organisations affiliées et ses partenaires. Les recherches peuvent être restreintes par région et effectuées à l'aide de l'un ou de l'ensemble des 500 filtres. De plus, les ensembles de données comprennent des catégories telles que la santé, le PIB, le climat, les émissions et l'eau douce qui peuvent être visualisées directement sur le site sous forme de graphique, de tableau ou de carte.
272. Groupe de la Banque africaine de développement
Le site du Groupe de la Banque africaine de développement est le premier arrêt d'un journaliste lorsqu'il recherche des informations statistiques et des indicateurs relatifs au continent africain. Les utilisateurs qui parcourent le catalogue de données peuvent filtrer les ensembles de données par source, sujet et région. Pour tous ceux qui recherchent une connaissance plus approfondie du sujet traité, le site propose également des liens vers une liste impressionnante de publications comprenant des titres tels que les Perspectives économiques en Afrique et l'Annuaire statistique africain.
273. Données communes génomiques (GDC)
Genomic Data Commons du NCI héberge l'un des référentiels de données sur le cancer les plus complets sur le Web qui se concentre sur le domaine des études génomiques sur le cancer. Le portail de données de ce site héberge des milliers de cas et couvre 38 types de maladies pour aller avec 39 projets et est libre d'accès. Les soumissions de données étant principalement effectuées par des institutions et des chercheurs, l'exactitude de ces informations en fait une source de données idéale pour les journalistes.
274. Bases de données PhysioBank
Les bases de données PhysioBank mettent des données physiologiques à la disposition des individus via le domaine public. Ces bases de données sont divisées en deux grandes catégories en forme d'onde et clinique. Parmi les sous-catégories de formes d'onde, il y a des bases de données d'images, d'intervalles interbattements, synthétiques, de marche et d'équilibre, d'ECG et de bases de données multiparamètres. Un avant-goût des informations pures qui en découlent comprend des données sur les signes vitaux au chevet du patient, la saturation en oxygène et même les maladies cardiovasculaires. Les journalistes et les personnes faisant des recherches sur le corps humain peuvent trouver des informations ici.
275. Base de données sur la couverture de l'assurance-maladie
La base de données Medicare Coverage, gérée par les Centers for Medicare & Medicaid Services par l'intermédiaire du ministère de la Santé et des Services sociaux, offre aux chercheurs un accès complet à une tonne d'informations sur les services médicaux. Il existe des informations sur les maladies chroniques, les dépenses en médicaments, les modèles cliniques électroniques, le système de recouvrement de créances et les subventions de recherche et de démonstration à lire. Pour les données tirées directement de la source, il s'agit du site le plus complet et le plus complet de son genre en ligne.
276. Données de paiement ouvertes
Lorsque la plupart des gens vont chez le médecin, ils ne s'assoient généralement pas pour se demander si leur médecin de premier recours bénéficie ou non financièrement après avoir travaillé avec des fabricants de soins de santé. Open Payments informe le public de tous les repas, recherches, cadeaux, honoraires de conférencier et frais de déplacement que le médecin ou l'hôpital a reçus des entreprises. Les journalistes à la recherche d'une histoire percutante peuvent soit utiliser l'explorateur de données pour afficher les informations, soit cliquer sur l'onglet pour télécharger directement les données.
277. FlickrLogos
C'est partiellement écrit dans le nom, mais FlickrLogos fait référence à un ensemble de données composé de logos d'entreprise qui ont été photographiés dans une variété de positions différentes. Gérée par le laboratoire d'informatique multimédia et de vision par ordinateur de l'Université d'Augsbourg, cette collection a été compilée à l'origine dans le but d'entraîner les ordinateurs à reconnaître le logo et le texte. Pour rester au courant des progrès réalisés avec ce programme digne d'intérêt, il ne peut pas faire de mal de télécharger cet ensemble de données et de voir de quoi il s'agit.
278. ImageNet
ImageNet est une base de données pleine d'images qui ont été organisées par WordNet. Il existe des défis annuels sur le site qui peuvent être consultés même après la fermeture et sont axés sur la création d'algorithmes capables d'effectuer des tâches spécifiées. ImageNet héberge également de nombreuses publications, citations et diapositives. Les éditeurs de contenu axés sur la technologie auraient toutes les raisons d'utiliser l'option d'exploration pour donner un sens à la structure WordNet ainsi qu'à la carte des nuages.
279. Ensemble de données sur les chiens de Stanford
L'ensemble de données Stanford Dogs contient des tonnes de photos et d'images de différentes races de chiens. Avec 120 races de chiens différentes incluses ainsi que plus de 20 000 images individuelles, cette base de données alimentée par ImageNet offre aux chercheurs de nombreuses images avec lesquelles travailler tout en enseignant aux machines comment reconnaître chaque race de chien. Sur le site, des liens vers différentes publications traitant de l'utilisation d'ensembles de données pour enseigner aux ordinateurs la reconnaissance d'images peuvent être cliqués et lus avec le téléchargement de l'ensemble de données.
280. Base de données SUN
La base de données SUN est le site d'un projet mis en place pour que la communauté de la recherche fasse des progrès dans des domaines tels que la vision et le graphisme par ordinateur, l'exploration de données, l'apprentissage automatique et les neurosciences, entre autres. Bénéficiant de plus de 131 000 images et de près de 4 000 catégories d'objets dans ses index, ce site est aussi complet que possible. Pour les éditeurs qui s'intéressent à cette base de données et à ce que les chercheurs ont pu faire en l'utilisant, il s'agit d'une source de données qui mérite d'être explorée.
281. L'ensemble de données sur les animaux de compagnie Oxford-IIIT
L'ensemble de données Oxford-IIIT Pet est un site qui agit comme un complément à un article publié lors de la conférence IEEE 2012 sur la vision par ordinateur et la reconnaissance de formes et héberge l'ensemble de données original qui a été utilisé aux fins de l'article. Ces images ont été organisées en environ 37 catégories d'animaux de compagnie pour aller avec 200 autres images associées à chaque classe impliquée. De plus, ces données peuvent être téléchargées directement via les liens sur la page Web.
282. L'ensemble de données du génome visuel
L'API Visual Genome est le résultat final du travail acharné de plusieurs étudiants et professeurs associés de l'Université de Stanford. Avec plusieurs articles à son actif dans le but de créer une API capable d'évaluer et de décrire des images, le programme a répondu avec succès à plus d'un million de questions tout en évaluant plus de 100 000 images. Cette API représente un progrès dans le domaine de l'informatique et ses domaines connexes et l'ensemble de données peut être téléchargé directement sur le site.
283. Visages YouTube
La base de données YouTube Faces se concentre sur le développement d'une solution au problème de la reconnaissance faciale automatique dans les vidéos. Au total, l'ensemble de données contient plus de 3 000 vidéos extraites de YouTube de près de 1 600 individus d'une durée moyenne d'environ 181 images. En fin de compte, le but est de créer un algorithme capable de créer des étiquettes qui identifient la personne qui se trouve dans la vidéo. Les données ainsi que les informations sur les erreurs ainsi que les méthodes de description sont toutes disponibles pour consultation directement sur le site.
284. Dépôt de l'ensemble de données KEEL
Le référentiel d'ensembles de données KEEL contient l'ensemble de données du logiciel open source basé sur Java qui est conçu pour aider à divers types de découverte de données de connaissances. KEEL, connu simplement sous le nom d'extraction de connaissances basée sur l'apprentissage évolutif, peut être formé pour apprendre à ajouter des valeurs manquantes, des modèles hybrides et des méthodes statistiques pour évaluer des expériences parmi un certain nombre d'autres tâches. Les téléchargements d'ensembles de données ainsi qu'une liste complète des algorithmes présentés dans KEEL peuvent être téléchargés directement à partir du site.
285. Club de prêt
La renommée du Lending Club est son statut de prêteur peer-to-peer qui permet aux emprunteurs de recevoir des prêts même lorsqu'ils n'ont pas nécessairement le pointage de crédit pour emprunter auprès des prêteurs traditionnels. Outre les aspects novateurs du fonctionnement du site, il fournit également des statistiques qui incluent les faits saillants de la plate-forme, les informations sur les prêts refusés, les chiffres de performance des investisseurs et même un dictionnaire de données contenant des données historiques. Ces chiffres commencent généralement à partir de 2007 et peuvent être téléchargés au format CSV.
286. Musée d'histoire naturelle
Le Natural Museum of History est considéré par beaucoup comme l'un des musées les plus reconnaissables au monde, mais la numérisation et la possibilité d'examiner son catalogue via le portail de données ouvertes seraient probablement nouvelles pour beaucoup de gens. Avec 91 ensembles de données comprenant des collections de microfossiles et de fossiles ainsi que des enregistrements de lots d'index entre autres matériaux, les données sont ouvertes au public et téléchargeables gratuitement dans plusieurs formats.
Ce site est parfait pour les journalistes et les éditeurs qui souhaitent respecter certaines directives de style lors de la description et de la catégorisation de certains noms d'art, d'artistes, d'architecture, de matériaux et de noms géographiques. Ce site relie directement les utilisateurs aux bases de données de vocabulaire contrôlé que les chercheurs et les catalogueurs doivent connaître afin de répondre aux normes internationales. Ici au moins, il n'y a pas moyen de battre les vocabulaires Getty. Les ensembles de données peuvent être explorés par texte ou SPARQL et peuvent être téléchargés via le site.
288. Corpus d'enquête sur la stylométrie CLiPS (CSI)
Le CLiPS Stylometry Investigation Corpus n'est probablement pas ce à quoi la plupart des gens pensent lorsqu'ils entendent les mots CSI, mais le corpus CSI est néanmoins un ensemble de données composé de critiques et d'essais d'étudiants. Outre le texte lui-même, la présence de métadonnées et d'informations intégrées dans le document est notée par le site comme ayant de multiples usages. Proposé et distribué sous licence Creative Commons, tout ce que le corpus demande en échange de l'utilisation du jeu de données est une attribution.
289. Dépendances universelles v2
Universal Dependencies v2 fait référence à la deuxième version mise à jour du projet Universal Dependencies, un effort pour développer une annotation treebank qui peut être utilisée de manière cohérente avec plusieurs langues différentes. Dans la version mise à jour, les chercheurs trouveront des dizaines de banques d'arbres UD pour différentes langues, notamment l'afrikaans, le grec ancien, le japonais, le néerlandais, le finnois et le chinois en plus de l'anglais. La dernière version de Universal Dependencies peut être trouvée et téléchargée au bas de cette page Web.
290. Webhose
Webhose est une source de premier ordre d'ensembles de données extraits directement des référentiels du site et ouverts au public. Les chercheurs peuvent trier les articles de presse par langue, l'arabe, le français et le néerlandais n'étant que quelques-unes des langues dont les numéros d'article dépassent 100 000. De plus, les articles de presse en anglais sont divisés en catégories telles que le divertissement et les sports pour accompagner la critique et les messages du forum. Les éditeurs numériques et les chercheurs peuvent bénéficier de l'exploration de ces ensembles de données.
291. Données wiki
Wikidata est une source sous-estimée de contenu et d'idées pour les éditeurs et les chercheurs. Selon cette page, il existe un certain nombre de façons d'accéder au matériel dans les vidages de données, bien que l'utilisation de JSON soit celle que le site recommande le plus fortement. Disponibles et totalement gratuites pour un usage non commercial et commercial, toutes les données disponibles ici sont accessibles et téléchargeables gratuitement sous la licence Creative Commons.
292. Liens Wiki
Situé confortablement dans le cadre de Google Code, Wiki Links est un projet open source qui vise à fournir aux individus un accès à cet ensemble de données particulier et unique. Sur cette page Web, les chercheurs peuvent télécharger les textes README, les fichiers de données et la licence Creative Commons. Les éditeurs ou les personnes généralement axées sur la technologie ont beaucoup à attendre lorsqu'ils parcourent cet ensemble de données massif. Naviguez simplement sur le site, cliquez et commencez à télécharger les fichiers.
293. Wordnet
WordNet est un lexique anglais composé des composants de la langue, des adverbes, des noms, des adjectifs et des verbes qui sont classés en groupes distincts qui sont ensuite utilisés pour exprimer des idées particulières. Le résultat final est un outil utile qui catégorise les mots en fonction de la façon dont ils sont utilisés et de ce qu'ils signifient plutôt que de la façon dont ils sonnent lorsqu'ils sont prononcés. Les applications de WordNet en programmation linguistique sont notées ainsi que les nombreuses publications et statistiques disponibles sur le site.
L'Allen Brain Atlas, créé par l'Allen Institute for Brain Science Resources, est un outil permettant d'étudier et d'en apprendre davantage sur le cerveau humain et sur la façon dont il réagit lorsque le corps humain est en bonne santé ainsi qu'en cas de maladie. À l'aide de l'atlas, les chercheurs peuvent en apprendre davantage sur le cerveau humain et son développement ainsi que sur le glioblastome et l'effet du cancer sur le cerveau. Les journalistes couvrant ces sujets peuvent visiter ce site pour des ensembles de données et des informations.
295. NITRC
Le NITRC, ou Neuroimaging Informatics Tools and Resources Clearinghouse, est l'endroit où les journalistes et les éditeurs peuvent se rendre pour la neuroimagerie. Rassemblé et promu comme une initiative de partage de données en neuroimagerie, ce site héberge les données de plusieurs projets tels que le 1000 Connectome Project, l'Addiction Connectome Preprocessed Initiative, ainsi que les projets INDI-Prospective et Retrospective respectivement. Les particuliers sont libres de télécharger les données via le site Web. Les neuroimages prises à différentes étapes n'ont jamais été aussi accessibles.
296. HCP jeune adulte
Le projet Human Connectome Project Young Adult s'inscrit dans la continuité des efforts en cours pour créer une carte précise du connectome humain tel qu'il serait observé chez la plupart des adultes normaux. En deux phases, 1200 adultes en bonne santé ont été scannés grâce à une combinaison de techniques d'IRMf à l'état de repos et d'imagerie de diffusion. Les journalistes et les éditeurs à la recherche d'informations sur le cerveau ne trouveront pas un autre site avec plus de données sur le connectome humain chez les jeunes adultes en bonne santé.
Le NIMH Data Archive, ou NDA en abrégé, n'est pas tant une source de données indépendante qu'une plate-forme de distribution et de stockage de données. Sur ce site Web, il y a des données qui ont été recueillies au cours de plusieurs articles et projets de recherche ainsi que la fourniture de méthodes et d'outils qui permettent une meilleure analyse et collaboration. Les résumés de données sont disponibles gratuitement et les fournisseurs de contenu rapportant les dernières avancées scientifiques peuvent utiliser ces informations pour faire la une des actualités.
298. Neurodonnées
NeuroData se consacre à la recherche sur la relation unique entre l'esprit et le cerveau. Grâce à l'engagement du site en matière de science ouverte et de recherche reproductible, les fournisseurs de contenu ont accès à une publication et à plusieurs ensembles de données accessibles en suivant les liens sur la page Web. La disponibilité d'outils de code et d'analyse gratuits qui rendent l'exploration du travail de NeuroData encore plus simple sont particulièrement intéressantes pour ceux qui souhaitent voir les données par eux-mêmes.
299. NeuroElectro
Le projet NeuroElectro est conçu dans le but de collecter les diverses caractéristiques électrophysiologiques associées aux différents types de neurones et de les agréger dans une seule base de données. Ce projet vise à étudier la relation entre les neurones dans le but d'étudier les différences entre les différents types de neurones. Le site propose des liens vers des articles et répertorie les types de neurones et les propriétés électrophysiologiques découverts jusqu'à présent. Les fournisseurs de contenu peuvent compter sur ce site comme source de données sur les relations neurone à neurone.
300. Série d'études d'imagerie en libre accès
La série d'études d'imagerie en libre accès, également connue sous le nom d'OASIS, est un projet qui a été conçu dans le but de rendre les ensembles de données d'IRM cérébrales accessibles à la communauté scientifique dans son ensemble. Les journalistes et les chercheurs peuvent accéder à des publications qui comparent les données d'IRM entre adultes ainsi qu'à une fiche d'information complète de l'article complet d'OASIS comparant et contrastant les résultats de plus de 400 sujets. Les informations et les outils peuvent être téléchargés à partir du site Web dans plusieurs formats.
301. OpenfMRI
Pour les journalistes qui souhaitent accéder aux ensembles de données IRM sans les tracas associés à certains autres sites, l'accent mis par OpenfMRI.org sur la mise à disposition des ensembles de données IRM au public est une évolution positive. Venant directement des chercheurs eux-mêmes, ce site héberge une variété d'ensembles de données tels que l'ensemble de données d'apprentissage de la classification, la tâche de paris mixtes et la tâche de prise de risque analogique ballon. La variété et la quantité de données permettent aux chercheurs de trouver de nouvelles pistes de recherche à travers ce site.
302. Étudeforrest
Empruntant largement son nom au célèbre film Forrest Gump, studyforrest cherche à comprendre ce dont le cerveau est capable lorsqu'il doit fonctionner à un niveau supérieur tout en faisant face à une stimulation naturelle mais tout aussi complexe. Même ainsi, le site reconnaît que la quantité de données IRMf recueillies à partir de ces études a des applications plus larges qu'il n'y paraît au premier abord. Les fournisseurs de contenu peuvent parcourir les 19 publications qui ont utilisé studyforrest et peuvent même accéder directement aux données.
303. Base de données ouverte de cristallographie
Comme on pouvait naturellement s'y attendre d'après le titre, la base de données ouverte de cristallographie est une collection de 385 697 minéraux et composés organométalliques, structures cristallines organiques et inorganiques, à l'exception notable des biopolymères. Les fournisseurs de contenu qui souhaitent en savoir plus sur les structures cristallines peuvent effectuer une recherche par formule structurelle ou exécuter une requête de recherche correspondante avec l'option de navigation. Il existe également des logiciels et des données sur ce site qui rendent ce site Web particulièrement précieux dans le domaine de la chimie.
304. Archives des exoplanètes de la NASA
Longtemps considérée comme l'une des principales sources d'informations sur l'espace extra-atmosphérique, la NASA poursuit sa tradition d'être une ressource inestimable avec ses archives Exoplanet. Ce site héberge une série d'outils et de logiciels interactifs tels que le service de transit et d'éphémérides, le périodogramme, l'outil de traçage des planètes confirmées et la possibilité de télécharger de manière interactive des fichiers et des tableaux de recherche. Les fournisseurs de contenu à la recherche d'informations uniques peuvent utiliser ces données pour le faire la prochaine fois que des exoplanètes feront l'actualité.
305. Enquête sur le ciel numérique Sloan
La possibilité de créer des cartes tridimensionnelles de l'Univers est possible pour quiconque à l'aide du Sloan Digital Sky Survey, ou SDSS. Les reporters et les fournisseurs de contenu peuvent accéder aux algorithmes, aux données d'imagerie, aux ensembles de données, aux didacticiels et au développement ultérieur de matériel visuel dans le but d'éduquer le public de manière formelle et informelle. Le site discute également explicitement de rendre ses données accessibles au public via les actualités et les médias sociaux. Il s'agit d'un outil visuel inestimable pour les fournisseurs de contenu.
306. StatSci.org
Statsci.org propose une liste complète de ressources auxquelles le public peut accéder et utiliser en fonction de ses besoins particuliers. Certaines des informations incluent le service d'ensemble de données électroniques et des études de cas compilées par UCLA. En plus des ensembles de données brutes, il existe également des manuels liés à cette page. Cela inclut des titres tels que le Manuel des petits ensembles de données et des études de cas en biométrie. Les fournisseurs de contenu à la recherche de statistiques ne peuvent pas se tromper en y regardant.
307. ÉRIC
ERIC, également connu sous le nom d'Institut des sciences de l'éducation, est une ressource qui agit comme un moteur de recherche pour quiconque recherche des informations sur le domaine de l'éducation. La recherche préliminaire offre même la possibilité de filtrer exclusivement les informations évaluées par des pairs ainsi que les textes intégraux basés sur ERIC. Compte tenu de la fréquence à laquelle les budgets de l'éducation et les méthodes d'enseignement semblent faire l'actualité, il s'agit d'une source de données que les journalistes devraient garder à l'esprit.
308. NTIS
Créé peu de temps après la fin de la Seconde Guerre mondiale, le NTIS (National Technical Information Service) a été formé dans le but d'utiliser des données pour aider les agences fédérales à prendre des décisions éclairées basées sur des données grâce à l'utilisation de données. Cette agence était à l'origine le dépôt de données du gouvernement américain dans le domaine de la recherche scientifique. Aujourd'hui, le site héberge des millions de publications sur une myriade de sujets. Les informations historiques à elles seules font de ce site une source de données bien méritée pour les journalistes et les éditeurs.
309. Certificat de données ouvertes
Le site Web de l'ODI (Open Data Institute) héberge ce qu'on appelle l'Open Data Certificate, un outil gratuit disponible en ligne qui a été développé dans le but exprès d'examiner de manière critique et de reconnaître la qualité des données ouvertes. Du point de vue d'un éditeur ou d'un journaliste, le site héberge également de nombreux ensembles de données sur des sujets allant des listes de subventions aux alertes d'allergie ainsi que des listes téléchargeables au format CSV.
310. Archives GitHub
GitHub est facilement l'un des référentiels et archives de données les plus populaires et les plus connus sur Internet en raison de sa facilité de collaboration, de ses capacités d'archivage et de son accessibilité en matière de codage. Qu'il s'agisse de tenter de créer des robots capables d'effectuer certaines tâches ou de développer des applications, GitHub est un site où les éditeurs de contenu et les journalistes peuvent facilement tomber sur des produits potentiellement dignes d'intérêt. L'archive est accessible en suivant les instructions du didacticiel pour JSON ou Big Query.
311. Sociopatterns
SocioPatterns est un projet qui se concentre sur la recherche de modèles dans l'activité humaine et la dynamique sociale à travers les données. Comme on peut s'y attendre avec un objectif aussi large, les informations du site ont été utilisées dans des publications traitant d'une gamme de sujets allant de la propagation des maladies aux études de cas sur les différences entre les personnalités en ligne et hors ligne des individus. Les ensembles de données peuvent être consultés, tout comme les articles publiés contenant des informations que les éditeurs trouveront probablement pertinentes à un moment ou à un autre.
312. Carte indépendante
Indie Map est le résultat de la prise d'informations de plus de 2 000 des sites les plus fréquentés d'IndieWeb et du déploiement des données dans des formes visuelles interactives telles qu'une API Social Graph, un ensemble de données avec des capacités de requête SQL et les informations brutes qui ont été explorées sur un total de 5,7 millions de pages Web. Les éditeurs numériques intéressés par les logiciels open source et ce que ces données pourraient dire sur ces communautés en ligne peuvent accéder aux informations directement à partir du site Web.
Simon Fraser continue de s'appuyer sur son statut d'université réputée avec la disponibilité de son ensemble de données concernant les «statistiques et réseau social des vidéos YouTube». Tirant des informations d'un robot qui a utilisé l'API de YouTube pour trouver des vidéos, les fichiers contiennent des données sur des millions de vidéos et des ensembles de données d'informations sur les utilisateurs. Le site précise que les téléchargements d'ensembles de données sont uniquement à des fins académiques, mais il peut être possible de trouver des sources et des références journalistiques sur ce projet via le site.
314. ACLED
ACLED, ou Armed Conflict Location and Event Data Project, propose des données publiques concernant la protestation et la violence politique dans le monde en développement. Les informations fournies ici comprennent des chiffres sur les décès, des informations sur les dates et les lieux de la violence ou de la manifestation, les noms des groupes concernés et des données sur les émeutes et les affrontements violents qui se sont produits. ACLED donne accès à des rapports réguliers, des publications et des visuels ainsi qu'à des données disponibles en téléchargement sur le site.
315. Institut canadien d'information juridique
L'Institut canadien d'information juridique, ou CanLII comme on l'appelle dans le langage courant, est un site qui offre un accès gratuit aux lois et à leurs règlements, à la jurisprudence des tribunaux de diverses juridictions, y compris la Cour suprême du Canada, les cours provinciales et d'appel et la Queen's Bench, ainsi que des décisions de divers tribunaux administratifs et organismes créés par la loi. Avec 301 bases de données de jurisprudence et plus de 140 000 décisions de justice disponibles pour consultation, les journalistes et les éditeurs numériques qui traitent de sujets juridiques bénéficieraient de la mise en signet de ce site.
316. Centre pour la paix systémique
Le Centre pour la paix systémique, ou CSP, est une organisation qui s'est consacrée à l'analyse des systèmes mondiaux dans le but de résoudre le problème de la violence politique. Sur ce site, les journalistes qui effectuent des recherches dans ce domaine auront accès à des analyses sur les conflits en Afrique, les tendances des conflits au niveau mondial, entre autres, ainsi que des résumés sur les trois principales publications de l'organisation telles que Third World War et CSP's Global Report and Virtual Bibliothèque.
317. Projet des corrélats de la guerre
L'objectif du projet Correlates of War, ou COW, est d'aider à la collecte et à la distribution de données quantitatives comme dans le domaine des relations internationales. Fidèle à son engagement d'appliquer des principes scientifiques aux données sur les relations internationales, COW rend ses ensembles de données librement accessibles au public. Ces bases de données contiennent des chiffres sur les informations que les journalistes et les chercheurs peuvent utiliser, telles que les conflits militarisés entre les États, les membres du système étatique, les capacités matérielles nationales et les alliances formelles.
318. Enquête sociale européenne
L'enquête sociale européenne, ou ESS, est une enquête menée dans toute l'Europe dans le but de mesurer les différents comportements, attitudes et croyances de différentes populations dans différents pays. Étant donné que les journalistes sont souvent intéressés à obtenir l'opinion du public, la série ESS Topline couvrant des sujets allant du bien-être personnel et social des Européens, des attitudes envers le bien-être et même la présence de l'âgisme au Royaume-Uni, peut renforcer une histoire dans plus façons d'un.
319. Fonds pour la paix
Le Fonds pour la paix est une organisation qui se concentre sur la prévention des conflits et se concentre sur la sécurité grâce au développement d'outils pouvant être utilisés pour atténuer les conflits. Au cours de sa carrière, la FFP a travaillé en partenariat avec des journalistes, des ONG, des organisations locales et leurs homologues internationales, ainsi que des gouvernements. Qu'ils recherchent des tendances, des analyses comparatives et des données mondiales, les journalistes et les éditeurs peuvent trouver les documents qu'ils souhaitent grâce à l'outil d'exploration de données intégré au navigateur du site.
320. L'Enquête sociale générale
Le travail de l'Enquête sociale générale (ESG) se concentre sur la collecte d'informations sur divers aspects de la société américaine moderne afin de se tenir au courant des tendances et des modèles d'attitudes et de comportement de la population. Avec cette pratique du suivi des tendances remontant à 1972, les données historiques sont à elles seules une mine d'or pour les journalistes qui veulent explorer les tendances. Grâce à l'explorateur de données GSS, les chercheurs et les journalistes peuvent télécharger, examiner et même évaluer des données.
321. Gésis
GESIS est un institut d'infrastructure allemand dédié aux sciences sociales. Il propose différentes sciences sociales, ainsi que des travaux de recherche et des services allant de la méthodologie d'enquête à l'informatique appliquée, à la collecte de données, à la planification d'études et à l'analyse de données pour ne citer que quelques-unes des activités de GESIS. Les journalistes qui s'intéressent à des sujets tels que l'approche GESIS de la méthodologie, l'utilisation d'immigrants surqualifiés, etc. peuvent trouver de nombreuses informations dans la section des publications.
322. Avenirs religieux mondiaux
Des sujets comme l'avortement à l'éducation sexuelle, la religion est si omniprésente que même dans les pays largement laïcs, la position d'une personne sur des sujets sociaux difficiles peut être influencée par la croyance religieuse. Dans Global Religious Futures, le Pew Research Center examine les tendances dans les attitudes et les croyances des gens en ce qui concerne les religions mondiales. Les journalistes qui cherchent à examiner des détails comme l'influence de l'évangélisme dans la politique ou les attitudes envers la lapidation peuvent utiliser l'explorateur de données pour trouver des réponses dans les chiffres.
323. Indice de gestion des risques
L'Index for Risk Management, également connu sous le nom d'INFORM, est un endroit où les chercheurs et les journalistes peuvent se rendre pour évaluer les risques dans les situations où il existe un risque de crise humanitaire ou de catastrophe. L'organisation propose des liens vers des données sur des sujets tels que les taux de mortalité infantile, l'indice d'inégalité entre les sexes et les fréquences de sécheresse, entre autres chiffres. Il est également possible de voir et de télécharger les données d'INFORM ou d'y accéder via la carte interactive du site.
324. INED
L'INED, ou l'Institut français d'études démographiques, est l'une des sources de données et de statistiques les plus prolifiques qu'un journaliste puisse trouver sur Internet. Avec plus de 70 publications étudiées et publiées chaque année pour accompagner la population mondiale sous forme de graphique ainsi que des statistiques qui mesurent des questions telles que la différence de fécondité entre les sexes pour accompagner les nouvelles et les méthodes de ressources. Les chercheurs à la recherche de résultats précis provenant d'une source fiable les trouveront avec l'INED.
325. Archives des réseaux internationaux
Les archives des réseaux internationaux de Princeton offrent une combinaison unique de publications, avec des recherches comme le Rapport sur le développement humain 1999 et Global Networks : A Journal of Transnational Affairs disponibles à la lecture sur ce site. Sur ce site, les journalistes pourront se plonger dans l'ensemble des données publiques historiques et actualisées des archives. Les sujets abordés ici incluent la santé, les armes, les livres, la musique, la migration, les régions, Internet, la politique et les transports ne sont qu'un échantillon des matériaux que les chercheurs peuvent consulter ici.
326. Programme international d'enquêtes sociales
Fondé dès le début comme un moyen de collaboration entre des personnes de différentes nations, le Programme international d'enquêtes sociales (ISSP) a mené chaque année des enquêtes sur une variété de sujets importants dans le domaine des sciences sociales. Au fil des ans, les sujets ont inclus l'inégalité sociale, l'identité nationale, la citoyenneté, les réseaux sociaux et l'orientation professionnelle, entre autres. Les résultats de l'ISSP peuvent être recherchés par année ou par sujet et peuvent être téléchargés en conséquence sur le site Web.
327. Associations d'études internationales
Journalistes ou autres chercheurs qui recherchent une discussion informative et intellectuelle sur les questions liées au sujet des questions transnationales, internationales et mondiales, l'International Studies Association (ISA) rassemble l'expertise de chercheurs, d'universitaires et d'experts en politiques parmi Autres noms. L'Encyclopédie des études internationales de l'ISA présente des essais évalués par des pairs qui sont pleins de discussions approfondies sur des sujets concernant la recherche dans ce domaine ainsi que des essais qui fournissent des informations qui sont racontées d'un point de vue plus historique.
328. Données transnationales sur le Web
La page incroyablement utile du professeur James W. McGuire de l'Université Wesleyan, intitulée à juste titre Cross-National Data on the Web, est une page de ressources pleine de liens vers des données pertinentes sur le développement économique et mondial. Parmi les ensembles de données que les journalistes en quête pourront découvrir ici, il y a des données sur la planification familiale, la réussite scolaire, la sous-alimentation, l'eau et l'assainissement, l'orientation vers le marché libre et des informations spécifiques à l'Amérique latine et aux Caraïbes pour n'en citer que quelques-unes. Les sources de données répertoriées ici sont impeccables.
329. Centre norvégien de données de recherche
Le Centre norvégien de données de recherche est une institution qui soutient et aide les chercheurs dans différents domaines de la recherche empirique tels que la confidentialité, la collecte et l'analyse de données, l'évaluation méthodologique et l'éthique de la recherche. Ici, les chercheurs trouveront des logiciels et des outils développés et recommandés par le centre pour accompagner une vaste collection de données régionales, individuelles et institutionnelles accessibles gratuitement. Les conclusions du centre dans le rapport annuel sur la recherche et la confidentialité sont également toujours intéressantes à lire.
330. IPUMS
IPUMS n'est pas nécessairement une source de données au sens où la plupart des gens s'y attendraient en entendant le terme, mais c'est néanmoins une source utile pour les journalistes en raison de son rôle d'agrégateur, d'archiveur et d'organisateur des données que d'autres entités lui fournissent. Par exemple, IPUMS USA agit comme une sorte de référentiel de données pour les microdonnées de recensement américaines, avec des données remontant à 1790 et remontant jusqu'à nos jours.
331. ND-GAIN
L'indice de pays ND-GAIN, une initiative organisée par l'Initiative d'adaptation mondiale de l'Université de Notre Dame, mesure la résilience d'un pays au changement climatique et à d'autres forces de la mondialisation. Cet indice comprend des scores de vulnérabilité dans des domaines tels que l'alimentation, la santé, les infrastructures et les écosystèmes, ainsi que des scores de préparation pour jusqu'à 500 000 points de données. Contenant deux décennies de données des années 1995 à 2014 sous forme de fichiers CSV, ces informations peuvent être téléchargées.
332. Police Royaume-Uni
Sur ce site, les journalistes et les éditeurs peuvent accéder à des données ouvertes concernant l'état de la police et de la criminalité au Royaume-Uni. Les données contiennent des statistiques utiles sur les équipes de quartier, les forces de police individuelles, les nombres d'interpellations et de fouilles, ainsi que des statistiques sur la criminalité et les résultats. Grâce à ce site, les journalistes peuvent effectuer des comparaisons entre les forces de police et repérer les tendances en matière de justice pénale. Obtenir des informations est aussi simple que de choisir la plage de dates, de choisir le corps de police, puis d'attendre le dossier.
333. Page de données internationales générales de Paul Hensel
La page de données internationales générales de Paul Hensel est une série de liens regroupés sous les rubriques États et système international, Données géographiques internationales, Capacités des États, Collections de données en sciences sociales et Alliances, traités et organisations. Chaque ressource répertoriée sur cette page Web contient des données de pointe qui donneront automatiquement de la crédibilité au travail d'un journaliste. Ces sources peuvent inclure n'importe quoi, des logiciels aux ensembles de données et aux archives, mais chaque lien inclus ici est utile.
334. TRAC
Dans le monde post-11 septembre, le terrorisme et ses effets dévastateurs sur les populations locales ont retenu l'attention des médias. TRAC, sur trackingterrorism.org, fournit aux chercheurs des analyses et des informations détaillées sur ces sujets. Ce site contient des informations sur plusieurs milliers de groupes terroristes différents. Le prix pour un utilisateur unique de 500 $ peut être un peu élevé au départ, mais vaut bien le prix payé pour ceux qui écrivent sur la violence et la guerre contre le terrorisme.
335. Département de la justice pénale du Texas
Intéressé par le fonctionnement interne du système de justice pénale du Texas ? Curieux de savoir qui est actuellement dans le couloir de la mort ? Le département de la justice pénale de l'État du Texas dispose de nombreuses informations provenant des dernières déclarations des prisonniers avant leur exécution, des statistiques sur les couloirs de la mort par sexe et race, ainsi que d'autres statistiques et fiches d'information sur les exécutions. Le ministère de la justice pénale du Texas est une source aussi fiable que possible pour les journalistes.
336. Système intégré des organisations de la société civile
Le système intégré des organisations de la société civile, ou iCSO, est conçu pour faciliter la communication des organisations de la société civile avec le Département des affaires économiques et sociales. En plus de l'efficacité du cadre robuste, la page Web comprend des ensembles de données et des catégories pour plus d'informations. Les données peuvent être triées par secteur, type d'organisation, région concernée et statut ECOSOC de l'organisation. Il s'agit d'une source de données que les journalistes peuvent certainement utiliser pour trouver des sources.
337. Universités dans le monde
Universities Worldwide est une base de données des universités du monde entier qui peut être consultée pour plus d'informations. La recherche peut être effectuée par liste mondiale ou filtrée exclusivement sur les universités américaines, et les utilisateurs peuvent également ajouter leurs propres liens dans le processus. Les éditeurs de données avec un important contingent d'étudiants, ou même les journalistes qui cherchent à vérifier un fait, peuvent tous bénéficier de la possibilité d'accéder à une base de données comme celle-ci à la demande.
338. Programme de données sur les conflits d'Uppsala
Il s'agit du site Web du programme de données sur les conflits d'Uppsala, qui est l'un des fournisseurs d'informations les plus connus sur la violence organisée. Au cours des 40 dernières années du programme, il s'est également imposé pour son travail de collecte de données sur la guerre civile. Les journalistes peuvent utiliser cette source de données pour rechercher des informations sur des conflits spécifiques et des acteurs de ces conflits et peuvent également accéder à ces données pour les télécharger.
339. Pop du monde
Le projet WorldPop, résultat final de la fusion des projets AsiaPop, AfriPop et AmeriPop, est dédié à l'archivage d'ensembles de données démographiques spatiales qui, à leur tour, ont des applications comme moyen de fournir un soutien aux efforts de secours en cas de catastrophe. Les éditeurs de contenu et les journalistes qui sont impliqués dans des causes de justice sociale ou qui recherchent autrement des opportunités efficaces de secours en cas de catastrophe pourraient être intéressés par ce projet. Les chercheurs peuvent télécharger les données ou consulter les études de cas en ligne.
340. Brouillon Express
DraftExpress est peut-être le plus connu sur Internet pour ses recherches, ses rapports de repérage avant le repêchage, ses faux choix de repêchage et son entretien méticuleux des hauteurs et des mesures des joueurs pour aller avec ses données historiques. Les prospects mentionnés sur ce site proviennent de la NCAA, du lycée et même des ligues internationales. Les journalistes sportifs ou les fournisseurs de contenu qui ont l'intention d'offrir des commentaires liés au basket-ball peuvent se tourner vers les statistiques de DraftExpress tout en discutant des joueurs et des événements au fur et à mesure qu'ils se produisent dans le sport.
341. Foire aux paris
Betfair est peut-être mieux connu comme le site où aller pour les paris sportifs. Cependant, la disponibilité d'informations historiques détaillées sur les données de tarification et l'historique du site est particulièrement intéressante pour les fournisseurs de contenu et les éditeurs numériques. Les données peuvent être consultées et téléchargées avec ou sans l'horodatage détaillé tout en offrant également des données détaillées sur les courses de chevaux et les autres offres du marché du site de l'année juin 2004 à octobre 2017.
342. CRICSHEET
Cricsheet offre un service similaire à un certain nombre d'autres hubs de données sportives, mais c'est un site qui se spécialise exclusivement dans la fourniture de données sur le cricket. Le site propose des statistiques et des données balle par balle d'un certain nombre de ligues, dont la Premier League indienne, des internationaux d'une journée, ainsi que des chiffres pour les équipes masculines et féminines, pour ne citer que quelques-unes des plus grandes catégories. Les éditeurs de contenu à la recherche de données historiques sur le cricket peuvent télécharger les données au format CSV ou XML.
343. Données de séries chronologiques transnationales
Avec des données politiques, économiques, législatives et sur les conflits nationaux couvrant plus de 200 ans de données dans plus de 200 pays à travers le monde, l'archive de données de séries chronologiques transnationales est l'un des ensembles de données les plus complets sur Internet. Les données sont stockées, le plus commodément, dans une feuille Google Drive qui s'ouvre automatiquement en cliquant sur la catégorie du fichier. En échange d'une citation, ces informations peuvent être consultées en partie ou en totalité selon les besoins du chercheur.
344. Ford GoBike
Ford GoBike est le nom du programme de vélos en libre-service utilisé dans la Bay Area. Alors que de nombreuses personnes utilisent sans aucun doute ce programme pour rester en forme et éviter d'utiliser des combustibles fossiles, le système de vélo en libre-service garde une trace des données de trajet. Bien sûr, ces informations n'incluent rien qui puisse identifier les cyclistes, mais des détails tels que le numéro de vélo, l'heure de départ, l'heure de fin, le type de cycliste et les gares d'arrivée et de départ sont inclus dans les données. Cela vaut la peine d'être exploré.
345. Trafic maritime
Marine Traffic est une entreprise qui trace et suit les mouvements des navires et les voyages en mer à l'aide de mégadonnées. Le type d'informations couvertes par les services API AIS de Marine Traffic comprenait les navires, les informations sur les voyages et les données sur les navires en question, telles que les arrivées prévues, voire les incidents, les photos, les détails du navire et les prévisions de voyage. Cependant, il existe des plans tarifaires sur ce site, il n'est donc pas clair combien de recherches peuvent être effectuées gratuitement.
346. Bixi
Les programmes de vélos en libre-service Bixi sont peut-être parmi les programmes de vélos en libre-service les plus connus dans certaines des plus grandes villes d'Amérique du Nord. Chose intéressante, la marque publie également des données ouvertes qui fournissent des informations sur des éléments tels que l'historique des trajets et l'état des stations, ainsi que des comparaisons pouvant être effectuées entre les membres et les utilisateurs occasionnels. Les journalistes locaux qui étudient la façon dont les individus utilisent et intègrent les programmes de vélos en libre-service dans leur vie ont toutes les raisons de se plonger dans ces données.
347. Base de données des accidents
D'Amelia Earhart au vol 8501 d'AirAsia en Indonésie, les accidents de vol et d'avion sont un sujet qui attire l'attention des gens. La base de données sur les accidents archive et stocke des données sur les accidents d'aviation survenus entre les années 1920 et 2017. Les accidents comptés dans cette base de données comprenaient les accidents de dirigeables civils et militaires, les accidents ayant entraîné la mort de célébrités ou d'une personne célèbre, les accidents d'hélicoptère ayant fait 10 morts ou plus. , vols réguliers et non réguliers de passagers aériens qui se sont soldés par un décès.
Transport for London est l'organisme gouvernemental chargé de superviser les transports publics dans la région du Grand Londres. Des cartes des métros et des voies ferrées sont disponibles sur le site Web, ainsi qu'un guide de planification de voyage. En plus de tous ces services pratiques, le site héberge également de nombreuses données ouvertes dont le vélo, la qualité de l'air, la baignoire et même l'huître. Toute personne souhaitant savoir comment les habitants du Grand Londres utilisent les transports en commun peut bénéficier de l'accès à ces données.
349. CMAP
Le CMAP est responsable de la planification et de l'organisation régionales dans les comtés de DuPage, Lake, McHenry, Kendall, Kane, Cook et Will dans l'Illinois. Comme on peut le voir sur le site Web, les responsabilités du CMAP s'étendent à la résolution de problèmes tels que le développement communautaire, les impôts et les indicateurs économiques, et même les routes et le transport en commun. C'est pourquoi les données ouvertes concernant des domaines tels que les indicateurs régionaux et les voyages sont utiles à un journaliste essayant de comprendre la situation dans son ensemble en ce qui concerne l'avenir de la région.
Créé grâce à une collaboration entre le Bureau of Transportation Statistics et la Federal Highway Administration, le Freight Analysis Framework collecte des données qui sont ensuite utilisées pour évaluer la santé générale et les performances du système de fret. Ce logiciel collecte des informations sur des détails tels que le type de marchandise et le tonnage par rapport aux gares de départ et d'arrivée et ces données ont à leur tour été mises à la disposition du public pour qu'elles puissent y accéder et les télécharger, soit dans leur intégralité, soit sous forme résumée.
351. Sciences Mozilla
Mozilla Science est un logiciel open source, open practice, collaboratif qui est là pour aider au développement et à la distribution de différentes sources de données et résultats de recherche. Intérêts de transparence mis à part, la décision d'ouvrir des programmes et d'externaliser le processus de raffinement facilite l'amélioration des programmes déjà en place. Avec des projets disponibles dans une variété de domaines, y compris les sciences de la vie et la médecine, entre autres, il existe ici des solutions logicielles qui peuvent représenter des progrès dignes d'intérêt dans le domaine.
352. Ensembles de données sympas
L'attrait de Cool Datasets ressort facilement du nom du site. Sur cette page, les ensembles de données relèvent de six catégories générales dans le gouvernement, le divertissement, la science, les soumissions d'utilisateurs, divers et l'apprentissage automatique. Les journalistes qui souhaitent explorer les données et extraire des histoires ont tout à gagner en consultant ce que ce site Web a à offrir. Il existe une option pour explorer les jeux de données et, si possible, pour contribuer également aux jeux de données.
353. Moniteur de données ouvert
OpenDataMonitor est une plate-forme qui prend des ensembles de données publics et les présente d'une manière plus intuitive et facile à suivre pour les individus. Les chercheurs peuvent accéder à la plate-forme pour voir un résumé de ce dont les ressources de données ouvertes sont capables, et ils pourront voir les données existantes qui leur sont présentées d'une manière plus attrayante visuellement. Le site explique sa méthodologie et ses repères, et les éditeurs ne devraient avoir aucun problème à trouver des données qui valent la peine d'être publiées.
354. CrunchBase
CrunchBase est peut-être mieux connu pour son accent sur les statistiques et son engagement à donner à ses lecteurs l'accès aux meilleures données disponibles. Les personnes soucieuses des affaires visitent ce site tous les jours pour se renseigner sur les dernières tendances en matière d'investissement et d'industrie. Ici, les journalistes et les éditeurs trouveront des nouvelles et de nouvelles discussions sur les dernières tendances commerciales. Pendant ce temps, dans le cadre de son option payante, le site héberge également de vastes ensembles de données qui peuvent être analysés à l'aide des outils logiciels de Crunchbase.
355. Indice
Index est une plate-forme avec une proposition de vente unique car elle a quelque chose à offrir à tout le monde entre les startups, les investisseurs, les analystes et les entreprises. Le site héberge également des informations sur plus de 100 000 entreprises du secteur technologique tout en offrant simultanément aux utilisateurs la possibilité de trier, de créer et d'exporter des feuilles de calcul. Les éditeurs et les journalistes qui parcourent les gros titres à la recherche d'angles d'histoire potentiels peuvent prendre de l'avance sur l'actualité économique grâce à ce site. L'index peut être inhabituel, mais il ne fait aucun doute qu'il s'agit d'une ressource utile.
356. SEMRUSH
SEMrush est fier d'être l'un des outils d'intelligence de recherche les mieux établis à la disposition des spécialistes du marketing en ligne. Entre l'académie et les webinaires, les chercheurs ont toutes les chances d'apprendre les fondamentaux. Cependant, les sections blog et actualités contiennent suffisamment d'informations pour que les éditeurs et les journalistes puissent facilement se tenir au courant de toutes les dernières actualités en matière de publicité en ligne et de référencement. Les services de SEMrush ont un prix, mais ils fournissent gratuitement de nombreuses informations de qualité.
357. Ahrefs
Ahrefs se résume peut-être mieux à une suite d'outils marketing potentiellement utiles à quiconque publie du contenu en ligne. Le site offre une combinaison de services tels que la recherche de contenu, la surveillance Web, la recherche de mots-clés et la recherche de backlinks pour aider les utilisateurs à rétroconcevoir le succès des concurrents. Probablement le plus utile aux éditeurs en ligne dans le grand schéma des choses, le blog Ahrefs représente à lui seul une excellente valeur pour ceux qui aiment que leur marketing se fasse avec une orientation basée sur les données.
358. Liste des anges
AngelList, avec son nom intelligemment choisi, est essentiellement composé de deux parties Craigslist et d'une partie LinkedIn, qui met l'accent sur le rapprochement des investisseurs, des demandeurs d'emploi et des startups en un seul endroit. Parallèlement à ce concept de site intéressant, il existe de nombreuses opportunités pour les journalistes entreprenants de découvrir les startups les plus en vogue et les dernières tendances d'investissement avant qu'elles ne deviennent courantes. Avec son interface simple et sa forte orientation business, ce site est utile aux professionnels à plus d'un titre.
359. Acquis
Dans presque tous les secteurs, une acquisition d'entreprise peut changer une industrie entière pratiquement du jour au lendemain. Acquired est un site qui se charge d'informer le public lorsqu'une acquisition est réalisée dans le secteur de la technologie. Plein de statistiques pouvant être consultées sur le site pour aller avec la possibilité de filtrer les recherches, les journalistes qui écrivent sur la technologie ont tout à gagner à faire d'Acquired une partie régulière de leur navigation quotidienne sur le Web.
360. Mattermark
Mattermark est un service payant qui facilite la vie des décideurs des entreprises en produisant des listes de clients de qualité prenant en compte à la fois les entreprises et leurs collaborateurs clés. Fournissant des profils d'entreprise complets, une flexibilité avec son API et même des capacités d'exportation à des fins de mise à jour, Mattermark met tout en œuvre. Les entreprises qui souhaitent mieux cibler leur portée tout en suivant les résultats de leurs campagnes ont beaucoup à gagner en s'inscrivant à cela.
361. Startups Fintech
FintechStartupsCo sert de type d'agrégateur qui garde une trace du montant que différentes entreprises ont pu lever lors de leurs introductions en bourse. Arborant un design minimaliste qui bascule entre les onglets "startups" et "actualités", c'est un moyen rapide et facile pour les journalistes de rester au courant des dernières nouvelles sur la collecte de fonds. Pendant ce temps, les éditeurs à la recherche de contenu rapide et d'histoires rapides ont également intérêt à revoir ce que ce site a à offrir.
362. Datafox
Juste au cas où le nom n'aurait pas tout révélé, DataFox est une entreprise qui s'efforce de fournir à ses clients professionnels les informations dont ils ont besoin pour optimiser leurs CRM et prendre généralement des décisions basées sur les données. Offrant des services qui incluent l'intelligence de conférence et d'entreprise, les API et les signaux d'entreprise, cette société est en fait un guichet unique pour les entreprises qui réorganisent leur travail de vente et de sensibilisation. Les éditeurs numériques et les fournisseurs de contenu peuvent également vouloir le vérifier.
363. Ouvrirenvoi
OpenSpending est une plate-forme gratuite, accessible pratiquement partout dans le monde, qui permet aux utilisateurs de rechercher et d'examiner des données financières dans le domaine public. Pour les membres de la société qui ne piratent pas, il s'agit d'un outil puissant de visualisation et d'analyse. Les journalistes, en particulier, peuvent utiliser OpenSpending pour trouver de nouvelles informations intéressantes et poursuivre des angles d'histoire comme l'entreprise le suggère directement sur son site. En prime, les journalistes font partie des métiers spécifiquement demandés sur le forum.
364. API ESPN Sports
Non content d'être simplement la chaîne sportive la plus populaire sur le câble, ESPN étend son influence au codage et aux API. Dans le Developer Center, le site propose aux éditeurs leur choix de plusieurs API qui incluent des notes de recherche, des classements de puissance, des brouillons, des calendriers et des titres. Il existe même une API qui charge les profils, les biographies et les statistiques des athlètes dans tous les sports majeurs. Les journalistes qui s'apprêtent à écrire une histoire avec un contenu sportif ne peuvent que tirer profit de leur navigation.
365. Référence sportive
Pour les amateurs de sports qui aiment les statistiques avancées et les ressources en un seul endroit, Sports Reference est l'un des meilleurs sites sur le Web. Avec des données historiques qui incluent des statistiques d'équipe et de joueur sur l'attaque et la défense, les chercheurs sportifs peuvent aller aussi loin ou aussi étroitement qu'ils le souhaitent avec ce site. En outre, il existe des chiffres pour pratiquement tous les sports majeurs, du basket-ball au baseball, ainsi que des données distinctes pour différents sports universitaires.
366. Ensemble de données d'un million de chansons
La bien nommée "Million Songs Collection" représente 28 ensembles de données complets de métadonnées et d'informations sur les caractéristiques audio d'exactement un million de chansons. En grande partie le résultat du travail LabROSA de l'Université de Columbia aux côtés de l'Echo Nest, ces informations sont accessibles et hébergées sur le système AWS d'Amazon. Les utilisateurs peuvent effectuer des recherches d'informations via Infochimps, ce qui les rend encore plus accessibles aux journalistes à la recherche d'anecdotes obscures ainsi qu'aux éditeurs de contenu.