Einfache Wort-Häufigkeitsanalyse

Die häufigsten Worte in einem Artikel sagen einiges über einen Text oder den den ihn geschrieben hat aus

Quelle: http://blog.helvetas.ch/stopp-dem-kahlschlag-bei-der-entwicklungshilfe/

1 zürcher
1 zusammen
2 entwicklungshilfe
2 finanzkommission
2 franken
2 hilfe
2 kahlschlag
2 millionen
2 nahen
2 osten
2 stopp
2 vorgeschlagenen
3 bundesrat
3 menschen
4 entwicklungszusammenarbeit

Entwicklungsszusammenarbeit: Ziel vor den Augen
Mensch: zweithäufigstes Wort… ❤
Bundesrat: der «Nemesis» wie Jungs wie ich das nennen die zu viele Computerspiele spielen…

beim file hacker-mindset.txt (http://www.coxblue.com/adopt-growth-hackers-mindset/) sieht man aber schön, dass das wohl eher ein Marketing Heini war als ein Hacker:

8 hacker
10 tactics
13 product
19 growth
23 marketing

letzteres ist in der Datei eval.tar->evaluateWordcount.sh als Datei hinterlegt, falls jemand auch damit Zeugs testen willst.

PS: es füllt dann das Verzeichnis mit ihrgendwelchen Hilfstdateien, und ich deklariere das zum hässlichsten Code den ich (teilweise) je geschriben habe, aber es funktioniert so weit.

Meister dieses Fachs müsste der Josch vom CCC sein:

https://www.youtube.com/watch?v=2Bkpitdl95I

Man binde einen Germanistik Studenten/in in mehreren Informatikvorlesungen fest ☺

bzw. das Video vom Kongress ein Jahr später
https://www.youtube.com/watch?v=qIJpUv1Imfw

so zu sagen ein Auto-Troller-Bot, so wie ich…

die Richtige Software findet man irgendwo unter: http://www.scharloth.com/ aber für einen 1. Semestler ist wohl meine Variante einfacher und führt zu ersten Erfolgserlebnissen:

Ähnliches:
https://www.bubenhofer.com/sprechtakel/

Die kleinen sollen das hier allenfalls nicht lesen…
Man stelle sich jetzt vor, die NSA hat nur 5% der Gespräche aufgezeichnet und in Textfiles [1,2,3] umgewandelt, was die da «schönes» machen können, sigh…

[1] http://www.netzpiloten.de/nsa-telefonueberwachung-google-for-voice-datenschutz/
[2] https://www.freitag.de/autoren/netzpiloten/das-gesprochene-wort-ist-nicht-mehr-sicher
[3] http://www.skype.com/de/

[4] http://www.cisco.com/c/en/us/support/docs/switches/6260-ip-dsl-switch/9257-6260ovrvw.html (allenfalls sollten wir so Zeugs selber entwickeln)

69587

über so ein Teil gehen auch Eure Festnetz Anschlüsse, die Weissen Kästen im Quartier die nicht von der CableCom… sind.

191299

und so sieht die Netzwerkgrafik von dem Zeugs aus, man sieht hier deutlich den NSA nicht eingezeichenten…

Da gibts scheinbar sogar ein Chrome / Chromium Plugin dafür (das aber leider die Partikel und anderen Füllwörter auch anzeigt)

[UPDATE] Anwndungsfall:
didTheCiaKilledIanMurdock

[UPDATE von $Unbekannt]
allenfalls wäre es ein Feature, pro Webseite, pro TV-Sender oder pro TV-Sendung der PopulismusQuotient aufgelistet würde.

PopulismusQuotient =
(Anzahl Populistischer Schlüsselwörter pro Sendung oder Sender wie z.B. ISIS, Nazi, Jude, Fussball…) / (Anzahl aller Wörter)

dies wäre eine echte Wertsteigerung.

Wir könnten uns auch z.B. ein NerdQuotioent oder ein HausFrauenQuotient/HausMännerQuotient vorstellen.

Beispiel für NerdQuotient:

NerdQuotient =
(Anzahl Nerdischer Schlüsselwörter pro Sendung oder Sender wie z.B. CPU, Starwars, Sheldon, Elektronik…) / (Anzahl aller Wörter)

Domain Model:
Sendung/Sender/Artikel/Webseite ==[SprachanalyseSoftware]==> durchsuchbarer Text => Füllwörter wie der, die, und, oder, während… herausfiltern ==[ Worthäufigkeitsanalyse]==> die häufigsten Wörter => Abgleichen mit den verschiedenen Gruppen (Populismus, Nerd, Haushälter, Gärtner)….

Sollte ein 3. Semestler Informatikstudent wohl alleine hinbekommen…

Leave a comment

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert