Sunday, August 9, 2009

Waarom sta ik niet in de twopcharts?

Het is zeer goed mogelijk dat tweeters naar de lijst kijken en zichzelf niet terugzien, terwijl ze dat wel zouden verwachten op basis van de positie van andere tweeters. Dit kan met name gebeuren in de onderste regionen van de lijst. Dit komt omdat wordt gekeken naar de friends van de volgers van nl_twop_1000, en bij tweeters die relatief weinig gevolgd worden kan het voorkomen dat ze nog niet in steekproeven voor zijn gekomen. Dit zal echter ongetwijfeld slechts een kwestie van tijd zijn. Het proces kan flink versneld worden door nl_twop_1000 te gaan volgen, want alle volgers worden meegenomen in de berekeningen voor de nieuwe week statistieken, evenals alle friends. De lijsten staan natuurlijk gewoon op www.twopcharts.com

Thursday, August 6, 2009

Weekoverzichten toegevoegd

Zojuist twee week overzichten toegevoegd op de website. Deze zijn eigenlijk het meest interessant omdat er meer beweging inzit en echt de activiteit van het moment weergeeft. Het is de bedoeling dat deze overzichten de mutaties geven vanaf de laatste weekstand, Het zijn dus geen dagelijke mutaties, maar de cumulatieve mutaties vanaf, in dit geval, 5 augustus. Ook hier zijn we weer afhankelijk van de data van Twitter, dus rare uitschieters zo nu en dan zijn niet uitgesloten.

Twoptweeters lijst

Zojuist is de lijst met twoptweeters online gezet, met de data van gisteren 5 Augustus. Enige uitleg is wellicht nuttig. De lijst is samengesteld uit de twop-1000 lijst, en is in die zin dus een sublijst. Als je niet in de eerst lijst staat, dan sta je dus ook niet in deze lijst. Dat komt puur door een zelfopgelegde beperking van het aantal tweeters dat gevolgd wordt. Op zich is het geen probleem om de populatie te vergroten tot het aantal friends dat op nl_twop_1000 gevolgd wordt, maar ook dan komt er een door Twitter opgelegde limiet. Toename van het aantal volgers zal het wel makkelijker maken de lijst te vergroten tot wellicht een twop-2000.

De tweeter lijst is niet gefilterd op soort, want die informatie is niet beschikbaar bij Twitter, terwijl zelf nog geen initiatief is genomen om tweeters in categorieen onder te verdelen. Dit betekent dat er waarschijnlijk een behoorlijk aantal automaten hoog staan, hetgeen de handmatige tweeters niet tot tevredenheid zal stemmen. Verbeteringen kunnen altijd later overwogen worden. Net als Twitter is dit ook een interactief proces.

Nog een laatste opmerking: Twitter heeft regelmatig problemen met de kwaliteit van de data, zoals verdwenen friends, volgers en tweets. Dit kan ertoe leiden dat er foute data wordt gebruikt en getoond, die meestal wel later weer door Twitter wordt gecorrigeerd.

Wednesday, August 5, 2009

De twop-1000 van 5 augustus 2009

Vanmiddag is de nieuwe lijst op de website gezet en het proces begint goed te lopen. Na een volledige verandering van de wijze waarop potentiele tweeters opgenomen kunnen worden loopt het proces nu veel soepeler, en vooral veel sneller. De location van twitter speelt nu geen rol meer, maar er wordt gekeken of tweeters in het Nederlands tweeten, waarbij het niet volledig in het Nederlands hoeft te zijn. De lijst wordt vervolgens samengesteld uit gekwalificeerde tweeters. Op deze wijze is het ook voorstelbaar dat het een twop-1500 of twop-2000 wordt, want de lijst van gekwalificeerde tweeters neemt alleen toe, waarbij nu alles onder de 1000 afvalt, maar wel bekend is.

Op dit moment is het goed mogelijk dat tweeters die wel in de lijst horen, er niet in staan. Dit wordt veroorzaakt door het feit dat steeds een steekproef wordt genomen, om te kijken wie er zoal gevolgd wordt. Het is derhalve mogelijk dat het even duurt voordat iemand geidentificeerd is. Het makkelijkste is het om dan deze persoon zelf te gaan volgen, en dan vervolgens de friendslist als basis te nemen, aangevuld met additionele informatie. Hoe meer mensen NL_twop_1000 gaan volgen, hoe makkelijker het wordt om ook zelf meer te volgen en zo een goed beeld te krijgen van Nederlandse tweeters. Een volledige lijst wordt dan ook mogelijk.

Als laatste nog wat opmerkingen over de ranking die tot discussie leidt. Het is onmogelijk om vanuit de beschikbare data te bepalen of iemand met massfollowing bezig is, of daadwerkelijk een groot aantal tweeters actief volgt. Automatisch terugvolgen leidt ook tot verstoringen die niet interpreteerbaar zijn. Er moet dus een middenweg worden gevonden die tot redelijke resultaten leidt. Aangenomen is dat een aantal van 1500 friends ongeveer het maximum is wat daadwerkelijk gevolgd kan worden. Daarboven worden toenemende correcties gemaakt om een balans te vinden tussen volgers en friends die vergelijkbaar is met andere tweeters. Voor sommigen zal deze grens van 1500 ruim voldoende zijn, voor sommigen veel te laag. De ervaring zal leren of aan de grenzen en correcties gesleuteld moet worden.

Tuesday, August 4, 2009

Location, location, location

Dat was het thema van vanavond. Het location veld van Twitter is een draak om mee te werken, zoals ik ook al eerder geschreven had. Hoe je het ook bouwt, je krijgt altijd fouten die erg storend zijn. Je kunt een search doen op Nederland en Nederlandse plaatsen, maar dat is erg tijdrovend. Bovendien krijg je dan ook veel tweeters die met een location in Nederland werken, maar weinig tot niets met Nederland of Nederlands te maken hebben. Kortom, het vergt erg veel rekenkracht en het leidt tot teveel storende fouten. Ik heb deze filter dan ook helemaal overhoop gegooid. Nu scan ik op taalgebruik in de tweets. Dat lijkt lastig en omslachtig, maar door slim te kwalificeren, hoef je niet al teveel tweeters te testen of er wel Nederlands getweet wordt. Het geeft veel betere resultaten, en het maakt de lijst ook veel mooier. Alles wat slechts in het Engels tweet, zonder binding met Nederland komt nu niet meer voor. Het is echter niet noodzakelijk alleen in het Nederlands te tweeten. Als er zo nu en dan Nederlandse tweets staan, kan de betreffende tweeter gewoon in de lijst komen. Leuk bijkomend voordeel is dat het nu ook mogelijk is dat Belgische weeters die in het Nederlands tweeten opgenomen worden. Ik verwacht morgen de nieuwe lijst te publiceren, en denk dat er zo'n 80 volledig Engelstalige tweeters zullen verdwijnen.

Monday, August 3, 2009

De lijst van maandag 3 augustus

Deze ochtend weer een lijst samengesteld, en het blijft een uitdaging om goed te filteren, zeker in de lagere regionen. De complexiteit zit met name in de location. Het is niet alleen zo dat Nederlandse tweeters , zonder of met buitenlandse locations tweeten, maar er zijn ook legio tweeters die met een Nederlandse location slechts buitenlands en op het buitenland gericht tweeten. Het is de bedoeling dat de lijst een behoorlijke Nederlandse component heeft, dus het is nog een redelijke klus om het goed te krijgen, en er zullen er ongetwijfeld nog wel wat doorheen geglipt zijn. De lijst staat weer hier op www.twopcharts.com, en je zult zien dat nog geen aandacht is besteed aan de uitstraling van de website, alhoewel dat wel in de planning zit.

Saturday, August 1, 2009

Hoe wordt de twop-1000 samengesteld?

De chart wordt in een aantal stappen samengesteld. Allereerst wordt er gekeken wie Nederlandse tweeters zoal volgen. Hiervoor is het uiterst nuttig dat het aantal volgers van NL-twop_1000 toeneemt, want hier kan een goede steekproef uit worden samengesteld. Het is dus niet zo dat de lijst wordt samengesteld uit de friends van nl_twop_1000. Vervolgens wordt bepaald of de tweeters die gevolgd worden wel regelmatig in het Nederlands tweeten.

De volgende stap is om inactieve accounts eruit te filteren, waarbij als uitgangspunt is genomen dat er een bepaalde minimale frequentie van tweets moet zijn sinds de twitter account geopend is. Hierdoor verdwijnen tweeters die gestopt zijn vanzelf. Ook tweeters die al een bepaalde tijd geen bericht meer hebben geplaatst verdwijnen uit de lijst. De criteria zijn op dit moment vrij ruim en uiteraard subjectief bepaald.

De laatste, en wellicht meest discutabele stap, is het bepalen van de ranking, waarbij er voor gekozen is om niet alleen op volgers te selecteren, maar ook het aantal gevolgden mee te nemen in de weging. Binnen Twitter komt het veel voor dat mensen die iemand gaan volgen automatisch teruggevolgd worden, veelal via een of andere tool. Hierdoor ontstaat een enorme inflatie van aantallen, zonder dat daadwerkelijk berichten gevolgd worden. Tweeters die automatisch volgen om gevolgd te worden zijn herkenbaar omdat zij, boven de 2000 friends, vaak de maximale ratio van 1.1 hebben die twitter toestaat, bijvoorbeeld 4400 friends en 4000 volgers.
Ook volgt men vaak terug, omdat er tools zijn die automatisch unfollowen, als binnen een bepaalde tijd geen succes behaald is. Deze zaken hebben natuurlijk niets te maken met het bewust volgen van iemand, omdat men geinteresseerd is in hetgeen getweet wordt.

Voor de ranking is uitgegaan van het pricipe dat je alleen iemand moet volgen als je echt geinteresseerd bent, en dat het onmogelijk is om meer dan 1500 tweeters bewust te volgen. Grofweg betekent dit dat indien iemand zelf 100 of 200 mensen volgt er geen correctie op het aantal volgers wordt toegepast, terwijl als men zelf duizenden mensen volgt, dit geheel op het aantal volgers wordt gecorrigeerd. Daar tussenin wordt via een rekenkundig model een correctie factor toegepast, waardoor bijvoorbeeld iemand met 1000 volgers en 100 friends hoger staat dan iemand met 1000 volgers en 1000 friends. Dit zal uiteraard niet in alle gevallen terecht zijn, maar er moeten nu eenmaal keuzes gemaakt worden.

Deze rekenmethode zal vooral vervelend zijn voor diegenen die inmiddels enorme aantallen friends en volgers hebben bereikt. Aan hen wil ik dan ook de suggestie geven om niet meer automatisch terug te volgen en het aantal friends te reducerern tot iets wat zinvol is. Vervolgens kan dan worden gezien wat er aan volgers overblijft.

Het is de bedoeling dat elke woensdagochtend een nieuwe twop-1000 wordt samengesteld en op twopcharts te zien is. In de tussenliggende periode zullen zoveel mogelijk de mutaties gevolgd worden. Als ik eraan toekom om de website een beter voorkomen en functionaliteit te geven, zullen deze mutatielijsten ook hier dagelijks verschijnen.