SODP logo

    Isang Araw sa Buhay ng Isang Data Journalist – Idrees Kahloon, The Economist

    Ang isang araw sa buhay ng isang data journalist ay maaaring ituring na pagtingin sa mga spreadsheet at paglalahad ng impormasyon sa isang makabuluhang paraan, gayunpaman, gaya ng binabanggit sa handbook ng Data Journalism…
    Na-update Noong: Disyembre 1, 2025
    Vahe Arabian

    Nilikha Ni

    Vahe Arabian

    Vahe Arabian

    Sinuri ang Katotohanan Ni

    Vahe Arabian

    Vahe Arabian

    Inedit Ni

    Vahe Arabian

    Ang isang araw sa buhay ng isang data journalist ay maaaring ituring na pagtingin sa mga spreadsheet at paglalahad ng impormasyon sa isang makabuluhang paraan, gayunpaman, bilang Handbook ng Pamamahayag ng Datos mga tala sa pamamagitan ng ilang mga kontribyutor, mahalaga ang Data Journalism dahil sa mga sumusunod na dahilan:
    • Nakakatulong ito sa pagsala ng daloy ng datos
    • Pagbibigay ng bagong pamamaraan at pamamaraan sa pagkukuwento
    •  Isang kakaibang anyo ng pamamahayag, tulad ng mga salitang journalism o photojournalism
    • Ang pamamahayag ng datos ang kinabukasan ng pagkonsumo ng nilalaman sa web
    • Pag-update ng iyong mga kasanayan
    • Isang lunas para sa pagproseso ng impormasyon
    • Isang sagot sa PR na nakabatay sa datos
    • Pagbibigay ng mga malayang interpretasyon sa opisyal na impormasyon
    • Pagharap sa pagbaha ng datos
    • Aktibidad na nakakatipid ng oras
    • at higit pa…
    Si Idrees Khaloon, isang kamakailang nagtapos sa Harvard sa Applied Mathematics, ay isang Data Journalist sa Economist na responsable sa pakikipagtulungan sa mga beat journalist, section editor, developer, at designer upang maghanap at makagawa ng mga data visualization, kartograpiya, at infographic na sumusuporta sa mga kwento ng mga mamamahayag at matiyak ang pinakamahusay na representasyon ng data sa lahat ng format (print, app, at web) na may layuning bumuo ng mas mahabang view na mga produkto at kwento ng editoryal. Dahil sa kanyang kawili-wiling intersect na papel sa organisasyon, Noong ika-27 ng Enero, nagpatakbo si Idrees ng isang live na sesyon ng Q&A sa QuoraNasa ibaba ang balangkas ng sesyon at ang buod ng mga tanong at sagot.

    Balangkas ng QA

    • Pamamahayag sa datos – isang tipikal na araw sa opisina
    • Paano kinakalkula ng The Economist ang datos upang masakop ang mga kuwento
    • Mga pagkakamali sa botohan at botohan
    • Ilan sa mga kwentong aking nagawa ay ang mga sumusunod:
      • Pagmomodelo sa mga resulta ng Brexit
      • Pag-aaral kung mahuhulaan ba ng mambabasa ng pahayagan ang suporta para kay Donald Trump
    • Payo sa Karera sa Pamamahayag ng Datos

    Pamamahayag sa datos – isang tipikal na araw sa opisina

    Una, narito ang siklo ng buhay ng isang kuwento ng datos:
    • Pagbuo ng ideya
    • Pagtukoy sa mga umiiral na mapagkukunan ng datos
    • Paglilinis at pagsasaayos ng datos ayon sa hugis
    • Paggalugad sa datos, kadalasan ay medyo walang patutunguhan
    • Pagsubok sa iyong mga hypotheses para sa mga kawili-wiling konklusyon o pagbuo ng isang istatistikal na modelo (karaniwan ay paliwanag lamang; ang mga predictive na modelo ay mas mahirap)
    • Pagsusulat ng iyong mga natuklasan, na palaging dinadagdagan ng kumbensyonal na pag-uulat
    • Panghuli sa lahat, ang pagtugon sa mga editor at fact-checker bago ilathala
    Sa isang karaniwang araw, hindi gagawin ng isang data journalist ang lahat ng ito—ngunit gagawin niya ang ilan sa mga ito. Ang pinakamahirap na gawain na malamang na tinanggap ko ay ang pagbuo ng aming modelo ng golfMatapos bumuo ng balangkas para sa modelo ang isa sa aking mga kasamahan, na isinasaalang-alang ang mga bagay tulad ng mga hot streak at mga epekto ng panahon—sa isang Excel sheet mismo—kinailangan kong isalin ang prototype sa Python. Pagkatapos, kinailangan naming alamin kung paano gayahin ang mga paligsahan sa ilalim ng modelong ito, na hindi madali. Pagkatapos ng isa o dalawang linggo ng pakikipaglaban, gumana nang maayos ang programa upang gayahin ang mga nakaraang paligsahan nang 10,000 beses. Sa kabila ng aking pinakamahusay na pagsisikap, ang Python, na isang interpreted language, ay hindi nakakakuha ng halos bilis na kailangan namin. Kaya bumaling kami sa isang kasamahan na may PhD sa physics, na nagawang isalin ang aking Python sa C++—na nagpabuti sa aming bilis nang isang order ng magnitude o higit pa. Napakasaya.

    Maraming trabaho ang kailangan para sa ating mga tsart bago mangyari ang mahika ng visualization (ang pangangalap at pagproseso ng datos sa R ​​at Python na aking nabanggit). Kapag handa na ang nalinis na datos, mayroon tayong dalawang bespoke charting tool na ginagamit natin para lumikha ng mga tsart: isang Excel script at isang Adobe Illustrator script na nagko-convert ng datos sa isang aktwal na tsart.

    Paano kinakalkula ng The Economist ang datos upang masakop ang mga kuwento

    Kaya, kapag mayroon na akong magandang datos, nililinis ko ito at inaayos sa tamang anyo gamit ang panda's library ng Python o R, na siyang mas popular na pagpipilian sa mga data journalist dito. Kapag maayos na ang datos, karaniwan kong sinusuri nang kaunti: tinitingnan ang mga average, hinahanap kung may mga nawawalang halaga o kakaiba, at iginuguhit ang ilang mga trend. Mula roon, magpapasya kami sa mga tamang tsart na sasama sa kuwento. Ang mga ito ay ginagawa ko sa aking makina at pagkatapos ay ipinapasa sa isang data visualiser upang maisama sa aming sikat na istilo. Ang nagpapaiba sa The Economist ay walang seksyon ng data journalism sa industriya, ito ay nasa lahat ng dako. Pangalawa, bilang isang lingguhang pahayagan, mayroon kaming mga mamahaling deadline kumpara sa aming mga kaibigan sa mga pang-araw-araw na pahayagan. Ang paggawa ng mga kuwento ng datos ay karaniwang tumatagal ng medyo matagal, dahil sa oras na kinakailangan upang linisin at iproseso ang makalat na datos. Maswerte kami na nakapaglaan ng aming oras sa mga kuwento at mabigyan ang mga ito ng maayos na pagtrato bago ilathala.

    Mga komento sa mga pagkakamali sa botohan at botohan

    Ang pangunahing sagot, kung medyo nakakabagot, ay ang mga sample na may kinikilingan at walang representasyon. Gumagana ang botohan kung, at kung lamang, ang sample ay kumakatawan sa buong populasyon. Mayroong lahat ng uri ng problema na humahadlang sa pamantayang gintong ito—hindi pagtugon sa bias (mas malamang na sagutin ng ilang tao ang iyong mga tanong kaysa sa iba) o bias sa pagpili ng sarili (halimbawa, ang pagsasagawa ng botohan sa isang country club ay maaaring magbaluktot sa iyong sample). Ang hilaw na datos na ginagamit ng karamihan sa mga pollster ay karaniwang medyo may kinikilingan. Halimbawa, ang sample ay maaaring 60% na lalaki kapag ang aktwal na populasyon ay halos 50%. Upang ayusin ito, naglalapat ang mga pollster ng weighting, na magpapahalaga sa mga tugon ng kababaihan. Gumagana ito nang maayos maliban kung may mga biglaang pagbabago sa mga hindi makontrol na aspeto ng politika, na maaaring nangyari noong nakaraang taon.

    Ang isa pang aspeto na maaaring mapabuti ay ang mga proyeksyon ng bilang ng mga botante, na karaniwang tamad na umaasa sa mga exit poll mula sa mga nakaraang halalan o mga posibilidad na iniulat ng sarili. Malamang na kailangan ang mas magagandang modelo, na kinasasangkutan ng mga indibidwal na hula. Ang mga kampanya sa Amerika ay mayroon nang nangunguna sa ganitong uri ng trabaho—na kadalasang sinusuportahan ng mga matatalinong siyentipiko ng datos—at maaaring makabubuting matuto mula sa mga ito ang mga pollster.

     Halimbawa ng mga kuwentong pinagtrabahuhan ni Idrees Kahloon

    Pagmomodelo sa mga resulta ng Brexit

    Ang pinakamalaking kahirapan sa pagmomodelo ng Brexit ay ang kawalan ng analog na magagamit namin sa pagsasanay. Nalusutan namin ito ng aking kasamahan na si James Fransham sa pamamagitan ng pagtingin sa mga polling microdata upang makakuha ng malinaw na ideya sa mga pinakamahusay na predictor para sa pagboto ng Leave o Remain. Agad naming nakita na ang edukasyon at uri sa lipunan ay napakahusay, samantalang ang mga predictor ng politikal na pag-uugali na naging maayos noon (tulad ng pagiging kaakibat ng partido) ay hindi gaanong mahusay ang naging resulta. Nang matukoy namin ang pinakamahalagang salik, gumamit kami ng mga numero ng senso upang i-project ang mga pangwakas na bilang. Iminemode rin namin ang bilang ng mga bumoto gamit ang isang katulad na pamamaraan.

    Ginamit ng modelo ng halalan sa gabi ang lahat ng pagkalkula ng bilang na ito bilang batayan ng prediksyon (isang Bayesian prior). Habang lumalabas ang mga resulta, sumulat kami ng isang script na pabago-bagong nag-aayos sa pinagbabatayang modelo, na ginagawa itong lalong tumpak habang tumatagal ang gabi. Sa kasamaang palad para sa United Kingdom, ngunit sa kabutihang palad para sa aming modelo, hinuhulaan namin ang isang Brexit sa loob ng isang oras pagkatapos lumabas ang mga resulta. Makakakita ka ng kaunti pa, kabilang ang mga magagandang detalye sa istatistika, dito .

    Hula tungkol sa suporta ng mambabasa ng pahayagan kay Donald Trump

    Kamangha-mangha ang resulta nito . Kung tatanungin mo ang isang botante kung gaano katiwala ang kanilang pagbibigay ng rating sa ilang pahayagan, mahuhulaan mo ang kanilang boto nang may 88% na katumpakan. Hindi pa kasama rito ang anumang iba pang kapaki-pakinabang na impormasyon tulad ng lahi, kinasasangkutan sa partido o antas ng edukasyon. Bagama't maaaring isang tagumpay ito para sa mga estadistika, sa palagay ko ay medyo nakakapanghina ng loob na ang mga pananaw sa media ay napakatindi ang pagkakahati-hati ayon sa mga partisan na pananaw.

    Ano ang pinakamahusay na paraan upang maghanda para sa isang karera sa data journalism?

    Ang kaalaman sa tatlong bagay ay kailangan upang maging isang mahusay na data journalist: estadistika, agham pangkompyuter, at pagsusulat. Ang malawak na pagsusulat, at partikular na ang pamamahayag, ay pinakamahusay na natututunan sa pamamagitan ng paggawa. Kung interesado ka sa pamamahayag, ang pinakamahusay na paraan upang maghanda ay ang mag-intern para sa iyong lokal na pahayagan at subukang magsulat para sa magasin o papel sa kampus ng iyong paaralan. Ang isa pang paraan ay ang trade press, kung saan ikaw ay dalubhasa sa isang niche field ngunit natututo ka ng lahat ng pangunahing kasanayan na kailangan upang magsulat sa anumang paksa. Mas madaling matuto mula sa mga bihasang mamamahayag kaysa subukang magbasa tungkol sa mga bagay na ito. Halimbawa, The Economist

    Pinakamainam na matutunan ang estadistika at agham pangkompyuter sa silid-aralan, mula sa isang bihasang instruktor na kayang itama ang mga pagkakamali bago pa man ito masyadong lumalim. Kung natapos mo na ang iyong pormal na edukasyon, maraming online na materyales at kurso na makakatulong sa iyo. Para sa isang masusing pagpapakilala sa estadistika, irerekomenda kong basahin ang mahusay na * Introduction to Probability* (at paglutas sa mga problema!). Gamit ang kaalamang iyon, matutuklasan mo na maraming paksa, tulad ng econometrics at machine learning, ang magiging mas madaling matutunan.

    Karamihan sa mga coder ay self-teach na ngayon. Tulad ng sa pagsusulat, ang pinakamahalagang bagay dito ay ang paggawa. Pumili ng wika (ang Python ay kadalasang pinakamadali para sa mga nagsisimula), i-set up ang mga bagay-bagay, at subukang bumuo ng mga simpleng programa. Kung mas pinipilit mo ang iyong sarili na magsulat ng code, mas magiging natural ito.

      Ano pa ang maipapayo mo sa pagiging isang data journalist? Pakilagay ang iyong mga komento sa ibaba.
    0
    Gusto mo ang iyong mga saloobin, mangyaring magkomento. x