European Semantic Technology Conference 2009
From 1 till 4 december I’ll be in Vienna for the European Semantic Technology Conference 2009 http://www.estc2009.com
Movements outside the lab
From 1 till 4 december I’ll be in Vienna for the European Semantic Technology Conference 2009 http://www.estc2009.com

The Wolfsburg Ganzfeld Piece – as this work of art has been named – is the largest installation ever implemented by the American artist in a museum. Encompassing an area of 700 square metres and 12 meters in height, the installation comprises two rooms that merge into each other, called Viewing Space and Sensing Space, both completely empty and flooded with coloured light that keeps slowly changing. Zumtobel provided the LED luminaires and projectors used in this exhibition.
From 24 October, visitors entering these rooms will experience unique sensory perceptions in this homogeneous visual field. While the light manifests itself, referring to nothing but itself, an interplay between surfaces, colours and space is produced, creating an atmosphere that completely encloses the audience and their senses. Viewers plunge into a mysterious, yet scenic world made of pure light. The artist himself calls this experience “feeling with one’s eyes”.
The culmination of the life’s work of James Turrell, who was born in Los Angeles in 1943 and is today considered one of the most important contemporary artists, is the Roden Crater, an extinct volcano situated in the desert of Arizona, which he has been turning into an artistic observatory since 1974. The Wolfsburg Project installed at the Art Museum relates to this cosmic “light observatory”, virtually turning the Roden Crater – which opens up towards the sky – inside out, as it were, thus creating an infinite interior space. For this extravagant installation, state-of-the-art lighting technology is being used, and the artist makes full use of all opportunities the building offers, which are unprecedented in Germany’s museum landscape. The Wolfsburg Project incorporating the Ganzfeld Piece as well as supplemental installations and documentations is the US artist’s largest exhibition ever shown in Germany.
The installation will be on display in Wolfsburg until 5 April 2010. The exhibition at the Art Museum will be accompanied by a large number of side events such as discussions with architects, among others.

Via Twine van Nova Spivack stuitte ik op een interessant research project van Takahiro KAWAMURA werkzaam bij Toshiba: UbiComp, a Ubiquitous Metadata Scouter.
In de huidige wereld is het voor de gebruiker meer en meer wenselijk om de reële wereld instant te kunnen koppelen aan relevante informatie op het Internet (zie ook Ubiquitous computing), dit brengt echter nieuwe problemen met zich mee.
The ‘ubiquitous’ mobile web
Tijdens conventioneel surfen met een desktop computer kan een gebruiker eenvoudig door (zoek)resultaten bladeren totdat zijn informatievraag is beantwoord. Dit komt door de voordelen van een (groot) scherm, muis, toetsenbord en een snelle verbinding . De mobiele telefoon is echter een typisch ‘ubiquitous’ apparaat. Een mobiele telefoon kent meer drempels tijden het surfen: over het algemeen heeft deze een klein scherm, minder toetsen/functionaliteit en een minder snelle verbinding (+kosten dataroaming). Vandaar dat het voor een dergelijke manier van surfen belangrijk is om efficiënt te werk te kunnen gaan bij het zoeken naar informatie. De zoekpaden naar de benodigde informatie (metadata) dienen zo kort mogelijk te zijn. Dit kan bereikt worden door bepaalde stappen te preprocessen en relevante data aan de server kant al voor de gebruiker te extraheren en aggregeren. De Ubiquitos Metadata Scouter is een oplossing voor dit probleem en versimpelt het verkrijgen van relevante data door als eerste stap het scannen van de barcode van een product.
Na het scannen (fotograferen) van de barcode van een product met de mobiele telefoon ontvangt de gebruiker automatisch relevante informatie: meta info, reputatie (pos/neg), voorbeelden van andere soortgelijke producten binnen hetzelfde domein, achtergrond artikelen (blogpostings).
Voor een boek zou dit dus betekenen dat na het scannen van de barcode wordt getoond:
a. Meta info (schrijver,titel,uitgeverij) afkomstig van UPC/EAN/JAN of ISBN.
b. Achtergrond informatie: wat is er op blogs geschreven over dit boek? Filter en sorteer deze automatisch.
c. Reputatie (Word of Mouth) op basis van geselecteerde blogs, hoeveel mensen vonden dit een goed boek (Positive / Negative determination)
d. Soortgelijke boeken binnen dit genre / gerelateerd aan de schrijver waar veel over geschreven is (Hot Topic extraction).
Reputatie: Positieve en Negatieve bevindingen (Positive / Negative determination)
Er bestaan binnen de Natuurlijke Taal Verwerking meerdere oplossingen voor Positive/Negative determination . Een methode die tijdens dit project voorgesteld is, is om te werken met zogenaamde ‘triples’ <subject,atribute,value> voor bepaalde onderwerpen/woorden bijvoorbeeld: <boek,prijs,goedkoop> of <boek,genre,roman>.
In eerste instantie werden blog entries als losstaande corpora gezien en kan deze methode gebruikt worden, maar door de integratie van trackback technieken bij veel blogplatformen werd er voorbij gegaan aan het feit dat het aantal trackbacks een significante waarde bepaalt voor de waarde van een blog entry. Een blog mag dan ook niet als een dagboek worden gezien, ook niet als een platform voor een reclame uiting maar meer als een los-verbonden community. Een blogger die veel over een onderwerp schrijft heeft toch een andere psychologische impact voor de gebruiker dan een die incidenteel over een onderwerp schrijft.
Om deze feiten mee te laten wegen voor het bepalen van het gewicht van een mening zijn er 11 parameters opgesteld voor het het wegen van een mening:
1. Non-anomity: leg het gewicht op het aantal trackbacks van een blog entry en niet op de tekst zelf.
2. Widely acceptance: bekijk op basis van trackbacks naar aan het aantal verschillende bloggers die (positief) op de blog entry hebben gereageerd.
3. Expert: blogger die over meerdere gerelateerde producten schrijven krijgen een hoger gewicht.
4. The Brave: Leg het gewicht op een reactie waarbij ingestemd wordt met commentaar
5. Pioneer: Legt het gewicht op een entry die al lange tijd reacties ontvangt, en wellicht een van de eerste was die over het onderwerp berichtte.
6. High acceleration: leg het gewicht op opinies die binnen korte tijd veel reactie hebben ontvangen door het verschil in tijd van de eerste response en de laatste response te delen door het aantal reacties.
7. Opinion leader: bloggers die gemiddeld veel reacties plaatsen krijgen een hogere waarde.
8. No-ads: verlaag het gewicht van blogs die geen reacties ontvangen.
9. No-agency: verlaag het gewicht voor bloggers die veel blog entries hebben maar zeer weinig reacties.
10. Debate: Leg gewicht op meningen die frequent voorkomen tussen enkele bloggers voor gegeven product.
11. Negativism: 70% van de bloggers zijn eerder geneigd om iets positiefs dan negatieve aspecten naar voren te brengen. De intentie van een blogger die een negatief aspect naar voren brengt is hoger dan die van een positief.

Om de juiste waarde te bepalen van elke parameter is finetuning nodig dmv publieke experimenten. Verder moet er op basis van de opgestelde ontologie goed gekeken naar de waarde van een uitdrukking. Als er überhaupt al direct een waarde oordeel uit voort kan komen. Als er niet direct een positieve of negatieve waarde oordeel bepaald kan worden kan er gekeken worden naar de relatie waar de expressie deel van uit maakt.
Hot topic extraction
Hot topic extraction is een methode om, op basis van product ontologie en suggesties in blog entries, suggesties voor soortgelijke producten te verkrijgen. Aangezien er in de huidige wereld veel blogs vol zitten met spam (keyword spamming) en ads functioneert een simplistische statistische methode als keyword frequency niet meer. Om de juiste Hot Topics te kunnen verkrijgen geldt er wederom dat er ook naar de trackback reputatie van een blog gekeken dient te worden . Dit lijkt de meest effectieve manier om naar Hot Topic extraction te kijken. Ubicomp werkt door eerst een lijst met voor het product gerelateerde blog entries op te halen, en dan enkele blog entries te selecteren op basis van hun trackbacks
De mate van relatie en populariteit wordt op basis van de volgende heuristiek bepaald
1. Popularity: een product besproken in de eerste entry van een blog thread heeft een hoge populariteit
2. Popularity: een product genoemd in een blog thread met veel trackbacks en reacties kent een hoge populariteit.
3. Relationship: andere producten genoemd in de entries van een blog thread hebben een relatie met het eerst genoemde product.
4. Popularity: als verschillende blog threads bestaan en elk meerdere gebruikers reacties hebben, kent het product een hoge populariteit.
Sorteren and Filteren
Uiteindelijk wil de gebruiker naast repuatie en suggestie ook gerelateerde blogpostings kunnen lezen. Op basis van de eerdere berekeningen en spam bepalingen vindt er een ranking van de blogs plaats.

Search Time
Het duurt zo’n 10 tot 30 seconden om alle data te verwerken en de resultaten aan de gebruiker te tonen op zijn telefoon (Pentium 4, 3.2 GHz met 1GB geheugen).
I’ll be attending the Le Web 08 conference in Paris
Een van de eerste essays die ik graag wilde lezen in ‘Collective Intelligence: Creating a Prosperous World at Peace‘, was de essay van Nova Spivack. Ik heb Nova ontmoet tijdens The Next Web Conference 2008 in Amsterdam, nadat ik een inspirerende presentatie over het Semantische Web van hem had bijgewoond. Nova is de man achter het bedrijf Radar Networks en wordt gezien als een van de pioniers en visionairs op het gebied van het Semantische Web.

Een samenvatting van zijn essay.
Harnassing the collective intelligence of the World-Wide Web, Nova Spivack
Het derde decennium van het Web, Web 3.0, begint ‘officieel’ pas in 2010. Maar langzaam beginnen we ons richting Web 3.0 te begeven.
Het eerste decennium van het Web, Web 1.0 (1990-2000), was vooral gefocust op de technologie en infrastructuur van het Web zelf. Technologieën als HTML, HTTP, Web servers, zoekmachines, ecommerce en de basis architectuur en business modellen voor Web applicaties. De meeste (innovatie) Dollars werden uitgegeven aan ontwikkeling die alleen software ontwikkelaars konden zien.
In het tweede decennium, Web 2.0 (2000-2010), ligt de focus met name op de frontend van het Web. Veel innovatie vindt niet plaats in de daadwerkelijke ontwikkeling van technologie maar in de ontwikkeling van design patterns en user interfaces om de user experience van het Web te verbeteren (AJAX).
Een van de focus punten van web 2.0 is user-generated content, en het taggen van objecten. Dit taggen heeft er voor gezorgd dat het concept om objecten te annoteren middels tags: collaborative tagging (folksonomy) een vlucht heeft genomen.
In het derde decennium, Web 3.0 (2010-2020), gaan we terug naar de backend. De infrastructuur van het Web wordt geuprade en de content van het Web wordt verrijkt zodat het meer en meer als een database kan functioneren.

Momenteel bestaat het Web uit ongestructureerde en semigestructureerde data. De huidige zoekmachines zijn keyword based en bieden alleen rudimentaire zoek resultaten op basis van eenvoudige queries. Als we deze mogelijkheden vergelijken met de zoekmogelijkheden van een database dan zien we al snel het verschil. Echter dit gaat veranderen.
Het Semantische Web biedt een mogelijkheid om ongestructureerde en gestructureerde data dermate te verrijken dat deze doorzocht kunnen worden met de precisie zoals we die bij databases kennen.
Het Semantische Web is geen nieuw Web maar slechts een laag over het huidige Web heen. De semantische meta data die het Semantisch Web mogelijk maakt zal in de webdata zelf zitten, dit is mogelijk door gebruik te maken van nieuwe markup talen als RDF en OWL. Deze markup is voor de gebruikers niet zichtbaar (in de browser), echter applicaties die compatibel zijn met deze markup taal kunnen de metadata wel lezen. Zoekmachines kunnen deze meta data gebruiken om de content van webpagina’s beter te kunnen interpreteren. Dit maakt het Web op de lange termijn ‘intelligenter’.
Domein specifieke kennis die momenteel nog in het hoofd van een mens zit of in specifieke vertical applicaties wordt universeel toegankelijk en leesbaar door het semantische web. Dit maakt het eenvoudiger om intelligente en domeinspecifieke applicaties te ontwikkelen aangezien de intelligentie niet meer in de applicatie zelf hoeft te zitten maar deze van de data op het Web haalt.
Een persoon begint met kennis delen over het domein reizen, vervolgens voegt iemand kennis toe over het domein geografie en een derde over het domein hotels. Door het klassieke netwerkeffect ontstaat er een superset aan kennis, aangezien deze kennis domeinen verbonden kunnen worden.
Het semantische web kan dan ook gezien worden als een volgende stap van de collectieve intelligentie van de mensheid. Het semantische web heeft meer begrip over je daadwerkelijk zoekvraag en kan derhalve de juiste antwoorden bieden, zonder dat er nog gestruikeld wordt over ambiguïteits problemen. Het semantisch web kan als een soort van nieuwe metataal gezien worden die uitdrukt wat je een persoon nu daadwerkelijk bedoelt.
Ondanks dat het Semantisch Web nog amper van het lab naar mainstream Internet is verplaatst. Is de technologie hiervoor toch al verder dan meeste mensen denken. Er bestaan al (semantische) applicaties die o.a. automatisch informatie kunnen ordenen en suggesties kunnen geven op basis van de veranderende interesses van een gebruiker (Spivack doelt hiermee op zijn eigen applicatie Twine.com ). Deze applicaties (agents) moeten oplossingen gaan bieden voor de enorm groeiende hoeveelheid informatie, en de relaties hiertussen, die we als mens moeten verwerken. Het Semantische Web zal uitaard niet de mens vervangen , het biedt echter oplossingen voor de informatie overload die wel als mens zullen gaan ondervinden.
Momenteel bestaan er enkele barrières voor (de menselijke) collectieve intelligentie die bepaald worden door de grenzen van het menselijke brein. De mens en groepen mensen kunnen slechts tot een bepaald niveau informatie verwerken en verbinden. Als een groep individuen groeit, dan dan wordt het moeilijker om de efficiëntie van de collectieve intelligentie te vergroten. Er is zelfs sprake van hoe groter de groep wordt, hoe dommer deze wordt. Dit probleem maakt het vak van management consultant mogelijk. Het Semantische Web moet op dit probleem een antwoord gaan bieden door het mogelijk te maken dat groepen beter hun kennis kunnen beheren en verbinden, waardoor groepen uiteindelijk collectief slimmer in plaats van dommer worden.
Als het Web zich daadwerkelijk gaat ontwikkelen als hier beschreven is, dan is het mogelijk dat de gehele menselijke kennis binnen 20 jaar op het Web beschreven staat en door ‘machines’ begrepen kan worden. Wikipedia is een begin van het in kaart brengen van de menselijke kennis, DBpedia gaat hierin verder door een semantische web variant van Wikipedia te maken.
Meer en meer applicaties genereren al semantische metadata die middels een API service toegankelijk is. Zo begint een dergelijke applicatie dus als een eiland van kennis, maar middels de API connecties kunnen deze kennis eilanden verbonden worden. Uiteindelijk zal er een groot associatief netwerk ontstaan.
Kon de eerste generatie van het Web nog gezien worden als een medium voor ‘hypertext’ zo kan het Semantische Web gezien worden als een medium voor ‘hyperdata’.
Het Semantische Web toont overeenkomsten met de werking van het menselijke brein. Het menselijke brein is een parallel functionerende collectie van collectieve intelligentie engines. Engines die elk kennis verwerken en genereren.
Echter de collectieve intelligentie van het Semantische Web zal nooit centraal gestuurd worden en kent het geen zelfbewustzijn. Vandaar dat het een andersoortige intelligentie is dan wij momenteel als mens kennen.
Hoe innoveert Google? Gisel Hiscock (Director New Business Development - Europe Middle East & Africa bij Google) sprak tijdens Picnic 2008 over hoe Google als bedrijf innoveert. De grootste uitdaging voor Google is om mondiaal te innoveren en innovaties de tand des tijds te laten doorstaan. Hoe doet Google dit? Google heeft 9 basisprincipes voor hun innovatiebeleid.
Dit artikel verscheen tevens op Sprout