Hartman Gids

Google Search Appliance (GSA)

Bedrijfsgegevens

Naam

Google

Jaar van oprichting

1998

Adres

Claude Debussylaan 34
Toren B, 15e verdieping
1082 MD Amsterdam, Nederland

Etterbeeksesteenweg 176-180
1040 Brussel, België

Telefoon

+31 (0)20 504 51 00

Telefax

+31 (0)20 524 81 50

Website

www.google.nl

Contact

Erick de Muinck Keizer, erikdmk@google.com +31 (0)20 504 53 47

Oorsprong

Verenigde Staten

Grootte organisatie

Google heeft wereldwijd meer dan 10.000 medewerkers.

Omzet

Google heeft een jaarlijkse omzet van zo’n 1,5 miljard Amerikaanse dollar, waarvan meer dan 90% uit advertentie-opbrengsten.

Diensten

productontwikkeling

Implementatie­partners

IPROFS, Claus Sluterweg 125, 2012 WS Haarlem
+31 (0)23 547 63 69, info@iprofs.nl

Sourcesense, VLC

Positionering

Het doel van Google is om alle informatie wereldwijd toegankelijk en bruikbaar te maken. Duizenden adverteerders gebruiken het Google AdWords-programma om hun producten en services met gerichte advertenties op het web te promoten.

Productgegevens

Naam

Google Search Appliance (GSA)

Versie en release

Versie 6.2: GB-7007 (tot 10 miljoen documenten), GB-9009 (> 10 miljoen documenten)
Licentietype Hardwarematige appliance. Closed source met diverse open API’s en een open source community.
Beschrijving De GSA doorzoekt vrijwel elke gegevensbron en maakt een index van documenten die met behulp van de zoektechnologie van Google direct kunnen worden teruggevonden als een gebruiker een zoekopdracht intypt. De GSA kan miljoenen documenten indexeren. Dankzij de beveiligingsfuncties krijgen gebruikers alleen toegang tot de gegevens die zij mogen zien, waarbij de bestaande toegangsrechten door de GSA worden gerespecteerd. Dankzij de geïntegreerde hardware en software is de toepassing eenvoudig te installeren en te onderhouden.

Releasebeheer

Google brengt enkele malen per jaar een update uit.

Aantal installaties

Wereldwijd heeft GSA meer dan 20.000 installaties

Roadmap 2010/2011

Google maakt gegevens over de product roadmap niet publiekelijk beschikbaar. Nieuwe ontwikkelingen zijn te vinden op Google Enterprise Labs (www.google.com/enterprise/labs). Veel van deze labs komen uiteindelijk in een nieuwe versie van de GSA terecht.

Referenties

Apple, www.apple.com, publieke website van Apple voor productinformatie, support en catalogus.

Boeing, www.boeing.com, publieke internationale website van Boeing met datasheets, corporate info, et cetera.

Reuters, Volkswagen, ANWB en vele anderen.

Documentatie

Alle documentatie is online beschikbaar: deels publiekelijk (http://code.google.com/apis/searchappliance/documentation/62/index.html), deels alleen toegankelijk met een support contract.

Zoek

Samenvatting

Standaard wordt een zoekresultaat op dezelfde wijze als op google.nl getoond. Dit is aan te passen via een wizard of een XSLT. Daarnaast is een XML-uitvoer mogelijk.

Aantal en relevantie

Het totaal aantal gevonden resultaten wordt automatisch getoond. Standaard worden 10 resultaten per resultaatpagina weergegeven. Deze instelling is aan te passen.

Stemming

De GSA biedt standaard voor de talen Engels, Frans, Italiaans, Duits, Spaans, Portugees en Nederlands ondersteuning voor stemming en stopwoorden. De woordenlijst hiervoor kan handmatig of via language bundles worden uitgebreid. Verder biedt GSA:

  • automatische spelcorrectie (“Did you mean?”),

  • stemming (query expansion),

  • dynamic clustering,

  • stopwoorden,

  • blacklisting,

  • vertalen van de zoekterm zodat in meerdere talen kan worden gezocht (in combinatie met Google Translate).

Spelling en synoniemen

De GSA biedt de volgende functionaliteit:

  • automatische spelcorrectie (“Did you mean?”);

  • synoniemen (een- en tweezijdig);

  • gerelateerde zoekvragen.

Zoekresultaat

Het zoekresultaat wordt niet geanalyseed door de GSA.

Verfijning

De GSA kent meerdere methoden om het zoekresultaat te verfijnen:

  • op basis van metadata;

  • dynamic clustering, waarbij op basis van de actuele zoekresultaten een lijst met termen wordt getoond (clusters) die relevant zijn voor de zoekvraag. De gebruiker kan uit deze lijst een keuze maken om de resultaten te verkleinen of uit te breiden;

  • collecties die een deel van de content bevatten;

  • bestandtypen;

  • keymatches waarbij een vooraf gegeven tekst en url bij een specifiek zoekwoord worden getoond.

Sortering

Het meest relevante document staat het hoogst (vergelijk met google.nl). Verder is het mogelijk de resultaten op datum te sorteren. Dit is voor gebruikers een standaardkeuze in de resultaten.

Operatoren

De GSA kent een uitgebreide query syntax, inclusief boolean operatoren en ranges.

Metadata

Alle mogelijke metadata wordt geïndexeerd en metadata kan worden getoond in het zoekresultaat. Het is mogelijk om de samenvatting van de content (description/summary in metadata) additioneel te tonen of als vervanging van het door de GSA gevonden resultaat. Metadata kan worden gebruikt voor filtering, om de relevantie van een document te beinvloeden en te worden getoond bij het resultaat.

Bestandstypen

Meer dan 220 bestandstypen, zie http://code.google.com/apis/searchappliance/documentation/62/reference/formats.html. Alle typen kunnen als HTML-document worden getoond.

Markering

Vergelijkbaar met google.nl.

Contentvergaring

In principe kent de GSA geen beperkingen in het vergaren van content. Hierbij worden de volgende methoden ondersteund:

  • crawler (voor web content en bestandssystemen);

  • connectoren (standaard aanwezig voor MS Sharepoint, EMC Documentum, LiveLink en FileNet);

  • database (door middel van SQL-query);

  • feed-methode (XML push);

  • real-time data via de OneBox API

  • connector framework (open source framework voor het ontwikkelen van eigen connectoren);

  • 3rd party connectoren.

Nederlandstalig

Ja, zowel voor eindgebruikers, beheersomgeving en online help.

Beheer

Indexeerproces

De GSA kan continu of gescheduled crawlen, waarbij vaakgewijzigde content ook vaker crawlt. Ook kunnen via een feed de laatste wijzigingen worden gepushed. Voor database feeds is een incremental crawl beschikbaar.

Aansluitingen

Alle onder ‘contentvergaring’ genoemde systemen kunnen worden geïndexeerd en afzonderlijk worden doorzocht. Het maximaal te indexeren items is afhankelijk van de licentie.

Omgevingen

Alle onder ‘contentvergaring’ genoemde systemen kunnen worden aangesloten en afzonderlijk worden doorzocht.

Hosting

De GSA is een hardwarematige oplossing. De data wordt op een intern RAID-array opgeslagen. Daarnaast is er standaard ondersteuning voor clustering, replicatie en failover.

Configuratie

Met de webgebaseerde admin console kan de GSA worden beheerd.

Optimalisatie

De GSA kan gescheduled crawlen en ook zo ingesteld worden dat het geen grote last op de te indexeren databronnen zet.

Thesaurus

De GSA biedt een standaard thesaurus voor de talen Engels, Frans, Italiaans, Duits, Spaans, Portugees en Nederlands. Dit kan door middel van language packs worden uitgebreid.

Recall/precision

De recall is groot, zoals we dat van google.nl gewend zijn. De precision kan worden getuned door biasing op bron, metadata of datum. Tevens kunnen individuele documenten worden ‘rescored’.

Nieuw in 6.2 is een automatische zelflerende scoring waardoor gedrag van gebruikers de precision beinvloedt.

Indexeerlogs

De beheersomgeving biedt de mogelijkheid om door de index te lopen, de crawl-status op te vragen en de crawl-queue en algemene logfiles te bekijken

Faceted search

Vanuit de community zijn er faceted search implementaties beschikbaar.

Rapportage

Standaard mogelijk per uur of dag. Of een rapport per zoekopdrachten, inclusief zoekopdrachten zonder resultaat en keymatches. Daarnaast is een koppeling met Google Analytics mogelijk.

Technieken en standaarden

Besturings­systeem

De GSA is een appliance. Dit houdt in dat het een combinatie is van hardware/software (inclusief besturingssysteem) en service (support/upgrades en recht op vervanging) in een contract en is daarmee platformonafhankelijk.

Browser

IE 6 en hoger, Firefox 1.5 en hoger, Google Chrome

Architectuur

De GSA host de resultaten zelf en is voorzien van een uitgebreide wizard voor het resultatenscherm. Er is dus geen specifieke programmeerkennis nodig. Het is uiteraard ook mogelijk om basis van de xml-output en een XSLT stylesheet de resultaten geheel in eigen huisstijl te definiëren.

Databases

Standaard worden Oracle, Sybase, DB2, MySQL en MS SQL Server ondersteund. Andere database systemen kunnen door middel van de Feed-methode (op basis van XML) worden geïndexeerd.

SDK, API

Standaard beschikbare API’s:

  • feed API – voor het indexeren van iedere bron op -basis van XML;

  • connector framework – voor het ontwikkelen van eigen connectoren (ook voor 3rd party) voor niet standaard bronnen (CMS, ECM, legacy systemen, et cetera);

  • onebox API – voor tonen van real-time of zeer gestructureerde resultaten met een zoekopdracht (employee informatie, CRM contact info, et cetera);

  • beheer API – voor automatisch uitvoeren van beheertaken.

Integratie

Security: SAML, Kerberos, NTLM, SSL, X.509, LDAP

Beheer: SNMP, SMTP, Beheer API (REST).

Automatisch genereren Google Sitemap.

Investering

Licentiemodel

Het licentiemodel is gebaseerd op het aantal documenten. De instaplicentie gaat tot 500.000 documenten en is stapsgewijs te upgraden. Het start bij € 26.000,- voor de complete oplossing met twee jaar support.

Saas/ASP

GSA wordt niet als ASP of SaaS aangeboden.

Toelichting leverancier

De GSA is een innovatieve oplossing die specifiek is ontwikkeld met het oog op eenvoud in gebruik en beheer. De oplossing bestaat uit een appliance met daarop alle benodigde software en alle bijbehorende services (support, updates, et cetera). Dit maakt het voor een organisatie laagdrempelig om een zoekoplossingbeschikbaar te maken voor de eigen medewerkers of voor zoeken op het internet.

Voor de productontwikkeling en innovatie wordt gebruik gemaakt van alle kennis en ervaring die Google opdoet op het internet en de meer dan 10.000 Google ontwikkelaars die zich dagelijks bezighouden met zoektechnologie.

Alle genoemde functionaliteit maakt onderdeel uit van één licentie, zoals connectoren voor het indexeren van content (onder andere MS Sharepoint en EMC Documentum), Google OneBox, secure zoeken, et cetera.

Van GSA is  een live demo beschikbaar via http://www.google.nl/enterprise/gsa/live_demos.html.

Evaluatie Hartman Communicatie

Wanneer men aan Search denkt, denkt men aan Google. Google is een bekende naam en de Google Search Appliance (GSA) is een prijsvriendelijk apparaat voor de basale website-search wensen.

De GSA wordt geleverd als apparaat en is in een paar uur up-and-running. De GSA is gebaseerd op Linux.

Wanneer Google Search Appliance in een veeleisende webomgeving wordt ingezet, kan de prijs flink oplopen. Ook kunnen de mogelijkheden van de GSA in dat geval tekort schieten.

Schermafbeeldingen

Crawlsatus

Google Search Appliance Clipboard

Reacties

Geplaatst door Erik M. Hartman op 07-06-2009

Wie heeft er ervaring met Google Search Appliance (GSA) en wil daar over worden geïnterviewd door mij?

Geplaatst door Remco Nabuurs op 22-07-2009

Erik, zoals je weet heb ik wel enige ervaring met de GSA; dus wellicht kan ik je helpen om deze pagina verder aan te vullen. Groet, Remco

Geplaatst door Arthur Winailan op 23-07-2009

Ik heb diverse GSA geimplementeerd o.a. voor de ANWB. PZH, Allianz, Inspectieloket enz. Wellicht kan ik jullie helpen mijn ervaringen met de GSA te delen.

Reactieformulier

Naam
E-mail adres (wordt niet gepubliceerd)
Website
Reactie

Bestel de HartmanGIDS MobileMojo Xillio Sitecore EPiServer Kentico Q42 IPROFS SDL Tridion Xopus Waxtrapp Erik Hartman Communicatie Allesovercontentmanagement.nl

Erik Hartman Communicatie

voor al uw advies over een optimale communicatie- en informatiestrategie :: www.hartman-communicatie.nl

Alles over Content Management

de bron voor nieuws en achtergronden over online communicatie en informatiemanagement :: http://www.allesovercontentmanagement.nl

HartmanEVENT

leer alles over succesvol content management van de experts en de praktijkcases :: www.hartmanevent.nl

Web Analytics