Dé specialist in content management

Twitter Facebook Flickr Youtube

hartmanGIDS.nl, hét instrument voor elke content management toolselectie

GX Software - Download de laatste ontwikkelingen in WCM: White Papers en Case Studies
English
Logo Apache Solr

Apache Solr

Toolcategorie: Search

Licentietype: Open Source

Aantal installaties: > 10.000

Prijs vanaf: gratis

Bedrijfsgegevens

Naam Apache Software Foundation
Jaar van oprichting 1999
Adres Verendigde Staten
Telefoon niet van toepassing
Website http://www.apache.org/foundation
Contact Doug Cutting, Chairman
Herkomst Verenigde Staten
Omzet Niet van toepassing
Diensten
  • Productontwikkeling

Productgegevens

Naam Apache Solr
Versie 3.5
Omschrijving

Apache Solr (http://lucene.apache.org/solr) is een open source zoekoplossing, gebouwd bovenop Apache Lucene. Het stelt een uitgebreide set van zoekfunctionaliteiten beschikbaar  via een REST-achtige webservice. Solr is in staat om kleine, maar ook heel grote documentcollecties doorzoekbaar te maken en is geschikt om in een  geclusterde omgeving te draaien. Naast de standaard Lucene-functionaliteit biedt Solr veel meer ondersteuning (bijvoorbeeld faceted navigation, autosuggest en verbeterde zoekopdrachten).

Releasebeheer

Gemiddeld verschijnt er elke vier maanden een minor / major release. Meestal worden nieuwe releases voorgesteld en bepaald door de project committers.

Aantal installaties > 10.000
Installaties
  • België
  • Canada
  • Denemarken
  • Duitsland
  • Frankrijk
  • Luxemburg
  • Nederland
  • Noorwegen
  • Oostenrijk
  • Verenigd Koninkrijk
  • Verenigde Staten
  • IJsland
  • Zweden
  • Zwitserland
  • anders
Roadmap 2012

Er wordt hard gewerkt aan Solr versie 4.0, die verwacht wordt in de Q2 / Q3 van 2012. Voor deze release ligt de focus op het verbeteren van de performance en bestaande functionaliteit. Daarnaast zullen er nieuwe features worden toegevoegd. Een aantal nieuwe features:

 

  • SolrCloud - hiermee kan op eenvoudige wijze grote installaties worden opgezet ook wel bekend als distributed installaties (waarbij de data wordt verdeeld over meerdere machines). SolrCloud is verantwoordelijk voor distributed searching en distributed indexing.
  • Query time join - maakt het mogelijk om te zoeken door data die niet direct aan elkaar is gekoppeld.
  • Pivot facets - ook wel bekend als 'matrix facets', die het mogelijk maken om facets weer te geven die een combinatie zijn uit andere facets.

 

Standaardmodules
  • zoeken, indexeren en tekstanalyse
  • gedistribueerd zoeken - sharing en replicatie
  • markering van zoekwoorden
  • spellingcontrole
  • "More like this ..."
  • zoekresultaten groeperen
  • gefaceteerd zoeken
  • taaldetectie van content
  • extractie van binary bestanden, zoals Office-documenten, PDF-bestanden en meer.
Implementatiepartners

Orange 11 - http://www.orange11.nl, info@orange11.nl, contactpersoon: Bram Smeets (CTO)

 

Lucid Imagination - http://www.lucidimagination.com, info@lucidimagination.com

Referenties

ILocal (2008), http://www.ilocal.nl - online op geo-lokatie gebaseerde bedrijvengids

 

Europeana (2009), http://www.europeana.eu, Europese online zoekmachine voor cultureel erfgoedinformatie

 

CNet (2005), http://www.cnet.com, gebruikt Solr voor het zoeken van producten en facetgebaseerd browsen (Solr is origineel ontwikkeld door CNet)

 

Netflix, http://www.netflix.com - gebruikt Solr voor het doorzoeken van hun website

 

NASA, http://nebula.nasa.gov/services - gebruikt Solr als de enterprise zoekcomponent in hun NEBULA cloud computing platform

Scenario A ** = geschikt
Scenario B *** = zeer geschikt
Scenario C ** = geschikt
Documentatie

Getting started guide - http://lucene.apache.org/solr/tutorial.html

Official Wiki - http://wiki.apache.org/solr

Reference Guide - http://www.lucidimagination.com/devzone/references/solr-guide

Boek - Solr 1.4 Enterprise Search Server, http://www.amazon.com/exec/obidos/tg/detail/-/1847195881, ISBN 1847195881


Zoeken

Samenvatting

Solr’s belangrijkste zoekinterface is een webservice API. Zoekresultaten (en samenvattingen) worden geretourneerd in de vorm van XML. Solr biedt daarnaast ook een aanpasbare zoekinterface. Er bestaan ook andere tools die een rijkere interface bieden bovenop Solr (zie: http://www.jteam.nl/news/solrexplorer.html)

Aantal en relevantie

Solr retourneert het totaal aantal gevonden resultaten (gepagineerd). Voor elk gevonden resultaat wordt ook de relevantie aangegeven.

Stemming

Solr biedt standaard vele tekstanalyse-componenten voor stemming (de meeste talen worden ondersteund). De meestgebruikte methode is gebaseerd op het Porter-algoritme.

 

Zoekresultaat

Solr retourneert de zoekresultaten samen met de uitgevoerde zoekopdracht. Typisch wordt dit geretourneerd in een machine-begrijpbaar formaat (bijvoorbeeld XML, JSON, et cetera). Het is eenvoudig om te bepalen wat er per zoekopdracht aan informatie wordt teruggegeven.

Verfijning

Solr biedt verschillende mechanismen voor het verfijnen van zoekresultaten:

 

  • Uitgebreide ondersteuning voor verschillende en complexe zoekopdrachten (uitgebreider dan wat Apache Lucene biedt;
  • Relevantiebepaling op basis van functies op basis van documentattributen;
  • Aanpasbaar en uitbreidbaar scoring-algoritme;
  • Ondersteuning voor ‘boosts’ van velden en termen (zowel tijdens het indexeren als tijdens het zoeken);
  • Relevantiebepaling op basis van relevante termen en de onderlinge afstand daarvan.
Sortering

Het is mogelijk om te sorteren op relevantie en elk ander veld binnen de geïndexeerde documenten. Daarnaast is het ook mogelijk om te sorteren op meerdere velden (‘nested sorting’). Er wordt gewerkt aan de mogelijkheid om te sorteren op basis van functies over documentattributen.

Operatoren

Solr biedt ondersteuning voor verschillende zoekoperatoren:

  • Terms (specifieke waarde per attribuut);
  • Boolean (AND, OR, NOT);
  • Wildcards;
  • Range;
  • Fuzzy;
  • Proximity;
  • Functions (gebruikt om functies toe te passen op attribuutwaarden en gebruikt om de scoring te beïnvloeden).
Metadata

Solr biedt standaardintegratie met Apache Tika, wat het mogelijk maakt om metadata te extraheren uit verschillende documentformaten.

Bestandstypen

Alle bestandsformaten die worden ondersteund door Apache Tika (zie: http://lucene.apache.org/tika/0.6/formats.html).

Markering

Solr ondersteunt markering ('highlighting').

Contentvergaring

Solr biedt standaard een Data Import Handler module (DIH) die kan worden gebruikt voor het vergaren van content uit een RDBMS en uit XML-gebaseerde feeds van het web. Om websites of intranets te crawlen en het vergaren van content uit andere systemen zie: Apache Nutch and Lucene Connectors Framework (LCF). Het is ook mogelijk om content van buitenaf naar Solr te sturen (push-mechanisme).

Ondersteunde talen
  • Engels

Beheer

Indexeerproces

Solr’s Data Import Handler (DIH)-module ondersteunt zowel incrementeel als volledig indexeren.

Aansluitingen

Documenten uit verschillende subsystemen kunnen worden opgeslagen in dezelfde index. Er kan dan vervolgens worden gefilterd op basis van vooraf gedefinieerde attributen tijdens het uitvoeren van een zoekopdracht. Solr ondersteunt ook het gebruik van verschillende indexen per subsysteem en het apart doorzoeken van elke index.

Omgevingen

Solr biedt standaard een Data Import Handler module (DIH) die kan worden gebruikt voor het vergaren van content uit een RDBMS en uit XML-gebaseerde feeds van het web. Om websites of intranets te crawlen en het vergaren van content uit andere systemen, zie: Apache Nutch and Lucene Connectors Framework (LCF).

Hosting

Solr kan worden geïnstalleerd als een stand-alone server. Dit kan zowel in een enkele instantie, als ook als onderdeel van een geclusterde omgeving. In dit laatste geval kunnen sommige instanties dienen als replica’s (voor load-balancing en failover).

Configuratie

Configuratie van Solr gebeurt met een verzameling XML-bestanden.

Optimalisatie

Het is mogelijk om Solr’s index en zoekproces te configureren en verfijnen op verschillende niveaus:

 

  • Low level via Apache Lucene;
  • Configuratie van verschillende componenten die de zoekopdrachten afhandelen, die elk hun eigen configuratie hebben.
Thesaurus

Solr biedt standaard ondersteuning voor synoniemen. Verder biedt Solr ook ondersteuning voor spellingscontrole gebaseerd op dictionaries. WordNet is een online dictionary die standaard wordt ondersteund, maar het is ook mogelijk een dictionary te gebruiken die is gebaseerd op de geïndexeerde termen zelf.

Recall/precision

Solr ondersteunt het verfijnen van de recall / precision door het gebruik van verschillende query types.

Indexeerlogs

Solr’s web-interface voor administratie biedt hulpmiddelen voor het geven van inzicht in de index en het inzichtelijk maken van het tekstanalyseproces (zowel tijdens het indexeren als tijdens het zoeken).

 

Faceted search

Solr biedt standaard ondersteuning voor faceted search.

Rapportage

Solr ondersteunt de analyse van het zoekproces door inzichtelijk te maken hoe en waarom documenten worden gevonden voor een gegeven zoekopdracht. Solr biedt ook extra informatie en statistieken over de structuur van de index (zowel via de administratie interface als direct via de webservice).


Technieken en standaarden

Besturingssysteem
  • Windows XP
  • Windows Vista
  • Windows 7
  • Mac OSX
  • Linux
  • Unix
  • Netware
  • anders
  • Windows Server 20xx
Browser
  • Chrome 10.x
  • Firefox 3.x
  • IE 6
  • IE 7
  • IE 8 en hoger
  • Safari 4.x
  • Firefox 2.x
  • Safari 5.x
Architectuur
  • Java
  • anders
Databases
  • anders
SDK, API

Aangezien de functionaliteit die Solr biedt beschikbaar is via het HTTP-protocol, kan met Solr worden gecommuniceerd vanuit elke taal en omgeving waar het HTTP-protocol beschikbaar is. Er bestaan vele client libraries om specifiek met Solr te communiceren, geschreven in verschillende talen (zoals Java, PHP, Ruby, Python, .NET, C#, Perl, Javascript, et cetera).

Integratie

De webservice die Solr aanbiedt ondersteunt een aantal formaten voor het uitwisselen van data, zoals: XML, JSON, Ruby en Python.


Investering

Licentiemodel
  • Open source, Apache
Licentieprijs gratis
Saas geen SaaS

Toelichting leverancier

Solr is vanaf het begin ontwikkeld met een helder doel voor ogen: het beschikbaar maken van open source enterprise search voor iedereen. Solr is gebouwd bovenop Apache Lucene, de defacto standaard open source Information Retrieval Library.

 

In tegenstelling tot Lucene, schermt Solr de gebruiker af van de complexiteit van een schaalbare en rijke zoekoplossing. De grote hoeveelheid functionaliteiten en de eenvoud in het gebruik (installatie, uitbreiding en interactie) maken Solr tot de ideale zoekoplossing voor veel verschillende domeinen.

 

Solr wordt vaak gebruikt als backbone voor e-commerce websites (vanwege de efficiënte en uitgebreide ondersteuning voor facetten). Maar daarnaast is Solr inmiddels ook een goed open source alternatief voor de Enterprise Search oplossingen die worden aangeboden door commerciële leveranciers (zoals Autonomy, Microsoft Fast, Google applicances, et cetera).

 

De laatste jaren implementeren en/of migreren steeds meer organisaties hun zoekoplossingen op basis van Solr in plaats van een commerciële, closed source oplossing of een eigen oplossing op basis van Lucene.

 

Apache Solr zou voor elk zoekproject overwogen moeten worden, aangezien de open source Apache 2 licentie kan zorgen voor een grote ROI zonder functionaliteit op te offeren.


Afbeeldingen


Expertevaluatie

Het door CNet ontwikkelde Apache Solr is een open source zoekoplossing die veel 'out-of-the-box' biedt, zoals faceted search. Wie geen ontwikkelcapaciteit heeft om Apache Lucene zelf door te ontwikkelen, heeft in Apache Solr een prima alternatief.

 

Apache Solr is geschikt als zoekmachine voor middelgrote tot grote webomgevingen.


Reacties

Er zijn nog geen reacties op dit bericht.

Plaats uw reactie

Uw naam:
Bericht: