|
|
Python för satellitbilder, sentimentanalys och Excelark
22 augusti 2017
Nyhetsbrevet är tillbaka efter sommaruppehållet! Varannan vecka skriver vi om inspiration, verktyg, utbildningar, event och trender kring datadriven journalistik. Tipsa oss gärna!
|
|
Fox & Friends, före och efter valet
Vi börjar med din månatliga påminnelse om att data också är text. Här har Vox gjort textanalys på allt den konservativa morgonshowen Fox & Friends sänt de senaste 17 månaderna, baserat på Internet Archives textarkiv över amerikansk tv. De har använt Pythonbiblioteket NLTK för det mesta jobbet, och något som heter Vader för sentimentanalys.
https://www.vox.com/2017/8/7/16083122/breakfast-club-fox-and-friends
Tidernas märkligaste(?) valdebatt analyserad
Apropå sentimentanalys: Det kenyanska presidentvalet bjöd på en av de märkligaste valdebatterna någonsin. Uhuru Kenyatta dök inte upp, så Raila Odinga ”debatterade” ensam. Här är Odinga tolkad av Nairobiföretaget Odipo Devs egen motor för sentimentanalys.
https://medium.com/@OdipoDev/a-robot-watched-railas-debate-performance-here-s-what-it-found-c815f6502055
En chattbot värd att följa
Raheem är en spännande och väl utförd chattbot från Indien, som hjälper dig känna igen, och rapportera oegentligt beteende från polisen:
http://raheem.ai/
Annotera mera
Vi talar oss ofta varma för annoterade grafer; att lägga in förklaringar, pilar och etiketter och i olika diagram. Men Ibland behöver det inte vara märkvärdigare än att stryka över några rader i en tabell för att blir så här slagkraftigt:
https://twitter.com/jonbir90/status/893947320554881024
|
|
Bevaka gruvindustrin med Python
Miljöorganisationen SkyTruth använder digitala verktyg för att dokumentera miljöförstöring. Här är Pythonkoden de använder för att identifiera MTR-gruvor i stora mängder satellitbilder (MTR=Mountain Top Removal, en kontroversiell typ av dagbrott som används inom kolindustrin). Den är väldokumenterad, och en bra introduktion, tänker vi oss, för den som vill testa något snarlikt.
https://github.com/SkyTruth/MTR
Dataproofer kollar din data
Dataproofer är ett verktyg som kollar din rådata efter de vanligaste tecknen på trasig data: Tomma celler, suspekta värden (255, 256, etc), duplicerade rader. Det finns både ett grafiskt gränssnitt, och script som kan köras från terminalen. Det senare är antagligen mer användbart i praktiken, om du lyckas få in en datacheck i ditt vanliga arbetsflöde. Det är ju som bekant när du har minst tid att göra de här kontrollerna manuellt som det är störst risk att det blir fel…
http://dataproofer.org/
OCR, fast för scatter plots
Det här lät galet, tills jag insåg att jag själv haft behovet flera gånger. Mata in en scatter plot, och få ut tabellen som ligger bakom. Vi har bara testat den ytligt, och vet inte hur väl den fungerar i verkligheten, men värt att stoppa i verktygslådan! Från Bloomberg.
https://github.com/bloomberg/scatteract
|
|
Använd Pandas rätt
Använder du rätt funktioner för att manipulera kolumner i Pandas? Ett rätt tekniskt blogginlägg, men matnyttigt för den som manipulerar stora dataset i Pandas och ogillar när det tar tid.
https://medium.com/towards-data-science/pandas-tips-and-tricks-33bcc8a40bb9
Dotmap? Heatmap? Koroplet?
Så väljer du rätt kartvisualisering. Det må vara Mapbox-marknadsföring förklädd till ett blogginlägg, men texten innehåller några bra tips och best practices:
https://blog.mapbox.com/right-way-visualize-data-945d6010fab0
|
|
Olagligt att skrejpa?
Kan det vara olagligt att skrejpa en sajt i USA? LinkedIn hävdar det:
https://arstechnica.com/tech-policy/2017/07/linkedin-its-illegal-to-scrape-our-website-without-permission/
Friare geodata
Svenska Lantmäteriet släpper sin redan öppna data under CC-0, Creative Commons icke-licens som betyder ”så fritt det är juridiskt möjligt”. Det betyder konkret att du kan använda deras öppna data utan att credda. Själva skulle vi förstås önska att mer av all den data som i dag är betalvara släpptes fri.
https://www.iis.se/blogg/oppna-data/oppna-data-fran-lantmateriet-blir-helt-fria-att-anvanda/
|
|
|
|
|
|