Skip to content

Commit

Permalink
use only one indexsolr.flux file and control the behaviour via key/va…
Browse files Browse the repository at this point in the history
…lue pairs
  • Loading branch information
guenter hipler committed Sep 25, 2018
1 parent 5a2b3a3 commit d5b711f
Show file tree
Hide file tree
Showing 3 changed files with 40 additions and 20 deletions.
49 changes: 38 additions & 11 deletions app.properties
Original file line number Diff line number Diff line change
@@ -1,21 +1,48 @@

urlStreamUpdateRequest=/update
collection=green##green

#die Property filesBasePath benötigte ich für den IndexerClient ohne MF
#neu werde ich wohl nur noch IndexerMFClient verwenden. Wenn ich die alte version nicht mehr brauche,
#kann sie gelöscht werden
#filesBasePath=/swissbib_index/solrDocumentProcessing/MarcToSolr/data/outputfilesFrequent
filesBasePath=/swissbib_index/solrDocumentProcessing/MarcToSolr/data/outputfilesFrequent
#filesBasePath=/swissbib_index/solrDocumentProcessing/MarcToSolr/data/outputfilesFrequentProcess
solrURL=http://localhost:8080/solr##http://localhost:8081/solr
#solrURL=http://sb-us15.swissbib.unibas.ch:8080/solr
debugParsingDelete=false
debugParsingUpdate=false

commitAfterNumberOfFiles=20
#solrURL=http://localhost:8080/solr##http://localhost:8081/solr
solrURL=http://localhost:8080/solr
#wie steuern wir, ob wir den cluster über "eine" URL ansprechen (und damit auch nur einen node des clusters für das Indexieren
#benützen oder ob wir auf den gesamten cluster indexieren und damit die Last verteilen
#Ist die Property zkHost=localhost:2181##localhost:8181 auskommentiert oder hat als Wert nur einen leeren String
#wird die (oder mehrere URLs im Falle wir gleichzeitig auf cluster parallel indexieren wollen) genommen
#ansonsten nutzt der client das angegebene Zookeeper ensemble und kann damit mehrere nodes des clusters zum Indexieren nutzen



#SolrjClient properties
zkHost=localhost:2181##localhost:8181
zkChRoot=/solr##/solr
#wie bei der einzelnen URL (s. oben) kann ich durch das pattern ## mehrere
#zkHost=localhost:2181##localhost:8181
#zkChRoot=/solr##/solr



#diese properties werden sowohl vom Zookeeper- als auch URL client verwendet
connectionTimeout=200000
socketTimeout=600000
urlStreamUpdateRequest=/update
#wenn ich auf mehreren cluster gleichzeitig indexieren möchte muss ich für jeden die collection angeben
#collection=green##green
collection=bb
#steuert, nach wie vielen Files, die vom client geparsed wurden, auf dem SOLR server ein commit ausgeführt werden soll
#angestossen durch den solrj client
#hier nicht berücksicht (und auch noch nicht getestet bzw. bisher zuwenig Erfahrung): es gibt auch noch sog. autocommits
#auf dem server. Welches Verfahren für uns das bessere wäre bisher nicht entschieden
commitAfterNumberOfFiles=20


#Anhand dieser Pattern erkennt der indexerClient, ob IDs (und damit Dokumente) gelöscht oder ob für die Dokumente
#in dem File auf SOLR ein update ausgeführt werden soll
#Es geht um die Namen der Files, es wird nicht nach einem Pattern im gesamten path gesucht
patternDeleteFiles=.*WeededDocumentsToDelete.*##.*idsToDelete.*


#mit diesen properties steuere ich, wie aufwendig gelogged werden soll (evtl. könnte man das aber auch schon ausschliesslich
#über log4j Konfigurationen machen (später verbesseren)
debugParsingDelete=false
debugParsingUpdate=false
Original file line number Diff line number Diff line change
@@ -1,4 +1,6 @@

//this is the default value for initial indexing;
//you should always overwrite it when starting the flux-script with a key/value pair for dir2read
default dir2read = "/swissbib_index/solrDocumentProcessing/MarcToSolr/data/outputfiles";
default appPropPath = FLUX_DIR + "../app.properties";

Expand Down
9 changes: 0 additions & 9 deletions fluxscripts/indexsolr.frequent.flux

This file was deleted.

0 comments on commit d5b711f

Please sign in to comment.