Dé specialist in content management

Twitter Facebook Flickr Youtube

hartmanGIDS.nl, hét instrument voor elke content management toolselectie

GX Software - Download de laatste ontwikkelingen in WCM: White Papers en Case Studies
English
Logo Apache Lucene

Apache Lucene

Toolcategorie: Search

Licentietype: Open Source

Aantal installaties: > 10.000

Prijs vanaf: gratis

Bedrijfsgegevens

Naam Apache Software Foundation
Jaar van oprichting 1999
Adres Verendigde Staten
Telefoon niet van toepassing
Website http://www.apache.org/foundation
Contact Doug Cutting, Chairman
Herkomst Verenigde Staten
Omzet Niet van toepassing
Diensten
  • Productontwikkeling

Productgegevens

Naam Apache Lucene
Versie 3.5
Omschrijving

Lucene (http://lucene.apache.org/) is een ‘library’ voor Information Retrieval (IR) geschreven in Java. Lucene biedt functionaliteit voor het indexeren en doorzoeken van documenten. Verder biedt Lucene een geavanceerd mechanisme voor tekstanalyse, waarmee synoniemen, meertaligheid en controle over relevantie worden ondersteund.

 

Lucene is de defacto standaard open source IR library en dient als de onderliggende technologie voor de zoekfunctionaliteit van vele websites en andere zoekoplossingen.

Releasebeheer

Gemiddeld verschijnt er elke drie maanden een minor release en bugfix releases komen continu uit. Meestal worden nieuwe releases voorgesteld en bepaald door de project committers.

Aantal installaties > 10.000
Installaties
  • België
  • Canada
  • Denemarken
  • Duitsland
  • Frankrijk
  • Luxemburg
  • Nederland
  • Noorwegen
  • Oostenrijk
  • Verenigd Koninkrijk
  • Verenigde Staten
  • IJsland
  • Zweden
  • Zwitserland
  • anders
Roadmap 2012

De volgende versie van Lucene (4.0) komt naar verwachting in Q2 / Q3 van 2012 uit.  Lucene 4.0 is qua performance en flexibiliteit op veel punten verbeterd ten op zichte van van de vorige versies van Lucene (3.x). 

 

  • wildcard en fuzzy queries zijn vele malen sneller geworden;
  • geheugengebruik van Lucene is gehalveerd;
  • data toevoegen is vele malen sneller geworden; 
  • een index opbouwen is vele malen sneller geworden;
  • scoringformules zijn 'pluggable' geworden, wat inhoudt dat het nu vrij eenvoudig is om een compeet andere scoringformule toe te passen;
  • Lucene heeft een ecosysteem aan modules. Voor het analyseren van Japanse teksten tot zoekfunctionaliteiten zoals faceting, grouperen en joining.

 

Voor een actueel overzicht van de nieuwe eigenschappen kan de 'change list' worden bekeken op https://builds.apache.org//job/Lucene-trunk/lastSuccessfulBuild/artifact/artifacts/changes/Changes.html.

Standaardmodules
  • query-infrastructuur;
  • ondexeren en indexopslag;
  • mechanisme voor tekstanalyse;
  • markering (‘hightlighting’);
  • spellingscontrole;
  • auto-complete.
Implementatiepartners

Orange 11 - http://www.orange11.nl, info@orange11.nl, contactpersoon: Bram Smeets (CTO)

 

Lucid Imagination http://www.lucidimagination.com, info@lucidimagination.com

Referenties
Scenario A ** = geschikt
Scenario B *** = zeer geschikt
Scenario C *** = zeer geschikt
Documentatie

Official Wiki - http://wiki.apache.org/lucene-java/

 

Lucene in Action (ISBN: 1932394281) - http://www.amazon.com/Lucene-Action-Otis-Gospodnetic/dp/1932394281

 

Online tutorials - http://lucenetutorial.com


Zoeken

Samenvatting

Lucene is een ‘library’ voor ontwikkelaars om zoekresultaten op te vragen en weer te geven. Lucene zelf bevat geen componenten voor presentatie van de resultaten. Andere, op Lucene gebaseerde oplossingen, zoals Apache Nutch en Apache Solr] bieden wel de presentatie van zoekresultaten.

Aantal en relevantie

Lucene retourneert het totaal aantal gevonden resultaten (gepagineerd). Voor elk gevonden resultaat wordt ook de relevantie aangegeven.

Stemming

Lucene biedt standaard vele componenten voor tekstanalyse als stemming (de meeste talen worden ondersteund). De meestgebruikte methode is gebaseerd op het Porter-algoritme.

Zoekresultaat

Lucene is een ‘library’ voor ontwikkelaars om zoekresultaten op te vragen en weer te geven. Lucene zelf bevat geen componenten voor presentatie van de resultaten. Andere, op Lucene gebaseerde oplossingen, zoals Apache Nutch en Apache Solr bieden wel de presentatie van zoekresultaten.

Verfijning

Lucene biedt verschillende mechanismen voor het verfijnen van zoekresultaten:

  • uitgebreide ondersteuning voor verschillende en complexe zoekopdrachten;
  • aanpasbaar en uitbreidbaar scoring-algoritme;
  • ondersteuning voor ‘boosts’ van velden en termen (zowel tijdens het indexeren als tijdens het zoeken).
Sortering

Het is mogelijk om te sorteren op relevantie en elk ander veld binnen de geïndexeerde documenten. Daarnaast is het ook mogelijk om te sorteren op meerdere velden (‘nested sorting’).

Operatoren

Lucene biedt ondersteuning voor boolean, wildcard, range, fuzzy, phrase en proximity zoekvragen.

Metadata

 

 

Bestandstypen

 

 

Markering

Lucene ondersteunt het markeren van zoektermen in de zoekresultaten (‘highlighting’).

Ondersteunde talen
  • Engels

Beheer

Indexeerproces

Lucene maakt het mogelijk om documenten toe te voegen, te wijzigen en te verwijderen. Het is daarom mogelijk om een volledig alsmede een incrementeel indexeerproces te implementeren met Lucene.

Aansluitingen

Lucene biedt zelf standaard geen aansluitingen. Deze functionaliteit wordt geboden door Apache Nutch, Apache Solr en Lucene Connectors Framework (LCF). Lucene maakt het wel mogelijk om zoekopdrachten te beperken tot een enkel subsysteem.

Omgevingen

Lucene biedt zelf standaard geen aansluitingen. Deze functionaliteit wordt geboden door Apache Nutch, Apache Solr en Lucene Connectors Framework (LCF).

Hosting

Lucene is een ‘library’ en dient als zodanig niet geïnstalleerd te worden. Zie Apache Solr voor een installeerbare zoekoplossing op basis van Lucene.

Configuratie

Lucene biedt geen gebruikersinterface voor configuratie. Alle configuratie wordt programmatisch gedaan.

Optimalisatie

Lucene biedt verscheidene configuratie-mechanismes voor het optimaliseren van zowel het indexeerproces als het afhandelen van zoekopdrachten.

Thesaurus

Lucene biedt standaard ondersteuning voor synoniemen. Een aparte module, die met Lucene wordt geleverd, biedt ook ondersteuning voor spelilngscontrole gebaseerd op dictionaries. WordNet is een online dictionary die standaard wordt ondersteund.

Recall/precision

Lucene ondersteunt het verfijnen van de recall/precision door het gebruik van verschillende query-types.

Indexeerlogs

Lucene biedt standaard geen ondersteuning voor het analyseren van het indexeerproces.

Faceted search

Lucene biedt standaard geen ondersteuning voor faceted navigatie. Zie Apache Solr voor dergelijke functionaliteit.

Rapportage

Lucene ondersteunt de analyse van het zoekproces door inzicht te bieden in hoe en waarom documenten worden worden op basis van de zoekopdracht. Daarnaast zijn er ook enkele hulpmiddelen beschikbaar voor het analyseren van de structuur van de index, bijvoorbeeld Luke.


Technieken en standaarden

Besturingssysteem
  • Windows XP
  • Windows Vista
  • Windows 7
  • Mac OSX
  • Linux
  • Unix
  • Netware
  • anders
  • Windows Server 20xx
Browser
  • anders
Architectuur
  • .NET
  • Java
  • Perl
  • PHP
  • Python
  • anders
SDK, API

Lucene is een library en biedt dus een API. Afhankelijk van de gekozen Lucene-implementatie is de API in de bijbehorende programmeertaal. De meest gebruikte is in Java.


Investering

Licentiemodel
  • Open source, Apache
Licentieprijs gratis
Saas geen SaaS

Toelichting leverancier

Apache Lucene(TM) is een geheel in Java ontwikkelde 'high-performance' en uitgebreide tekstgebaseerde zoekmachine-library. Deze technologie is geschikt voor bijna elke toepassing waarbij full-text search is vereist, met name over verschillende platforms.

 

Apache Lucene is bij uitstek geschikt voor ontwikkelaars die zelf zoekfunctionaliteit willen inbouwen. Tot vrij recent was dit de meest bekende manier waarop Lucene werd gebruikt (en het wordt dan ook in vele bekende websystemen teruggevonden).

 

Tegenwoordig is het steeds eenvoudiger om het ook als losstaand zoeksysteem in te zetten, als een op Apache Lucene gebaseerd product wordt gekozen. Zo is Nutch een volledige webzoekmachine, en Solr biedt geavanceerde functionaliteit zoals zoekverfijningen, facetted navigatie en webservices.

 

Daarnaast is IBM Omnifind Yahoo! Edition een complete zoekmachine die vergelijkbaar is met een Google Mini (maar daardoor minder flexibel dan de andere op Lucene gebaseerde systemen). Ook is het nu mogelijk een op Lucene gebaseerd commercieel product aan te schaffen (Attivio AIE).

 

Kortom, Apache Lucene is meestal niet een simpel ‘out-of-the-box’ te installeren systeem, maar in zoveel varianten beschikbaar dat eigenlijk in elk project overwogen zou moeten worden of het een geschikt alternatief is. In het geval dat er gezocht wordt naar een completere, meer ‘out-of-the-box’ zoekoplossing, is Solr wellicht een betere alternatief.


Afbeeldingen


Expertevaluatie

Veel CMS-leveranciers bieden Apache Lucene aan als 'standaard' zoekmachine. Daarmee heeft het product een fors marktaandeel. 

 

Apache Lucene is een zeer krachtige zoek-'library' en geen ‘out-of-the-box’ te installeren zoekmachine. Wie zelf voldoende kennis in huis heeft om deze toolkit in te richten, heeft en zeer krachtig zoekinstrument in handen. Voor wie behoefte heeft aan een completere, meer ‘out-of-the-box’ zoekoplossing, is Apache Solr wellicht een beter alternatief.


Reacties

Er zijn nog geen reacties op dit bericht.

Plaats uw reactie

Uw naam:
Bericht: