use only one indexsolr.flux file and control the behaviour via key/va…

…lue pairs
swissbib · Sep 25, 2018 · d5b711f · d5b711f
1 parent 5a2b3a3
commit d5b711f
Show file tree

Hide file tree

Showing 3 changed files with 40 additions and 20 deletions.
diff --git a/app.properties b/app.properties
@@ -1,21 +1,48 @@
 
-urlStreamUpdateRequest=/update
-collection=green##green
+
+#die Property filesBasePath benötigte ich für den IndexerClient ohne MF
+#neu werde ich wohl nur noch IndexerMFClient verwenden. Wenn ich die alte version nicht mehr brauche,
+#kann sie gelöscht werden
 #filesBasePath=/swissbib_index/solrDocumentProcessing/MarcToSolr/data/outputfilesFrequent
-filesBasePath=/swissbib_index/solrDocumentProcessing/MarcToSolr/data/outputfilesFrequent
-#filesBasePath=/swissbib_index/solrDocumentProcessing/MarcToSolr/data/outputfilesFrequentProcess
-solrURL=http://localhost:8080/solr##http://localhost:8081/solr
-#solrURL=http://sb-us15.swissbib.unibas.ch:8080/solr
-debugParsingDelete=false
-debugParsingUpdate=false
 
-commitAfterNumberOfFiles=20
+#solrURL=http://localhost:8080/solr##http://localhost:8081/solr
+solrURL=http://localhost:8080/solr
+#wie steuern wir, ob wir den cluster über "eine" URL ansprechen (und damit auch nur einen node des clusters für das Indexieren
+#benützen oder ob wir auf den gesamten cluster indexieren und damit die Last verteilen
+#Ist die Property zkHost=localhost:2181##localhost:8181 auskommentiert oder hat als Wert nur einen leeren String
+#wird die (oder mehrere URLs im Falle wir gleichzeitig auf cluster parallel indexieren wollen) genommen
+#ansonsten nutzt der client das angegebene Zookeeper ensemble und kann damit mehrere nodes des clusters zum Indexieren nutzen
+
 
 
 #SolrjClient properties
-zkHost=localhost:2181##localhost:8181
-zkChRoot=/solr##/solr
+#wie bei der einzelnen URL (s. oben) kann ich durch das pattern ## mehrere
+#zkHost=localhost:2181##localhost:8181
+#zkChRoot=/solr##/solr
+
+
 
+#diese properties werden sowohl vom Zookeeper- als auch URL client verwendet
 connectionTimeout=200000
 socketTimeout=600000
+urlStreamUpdateRequest=/update
+#wenn ich auf mehreren cluster gleichzeitig indexieren möchte muss ich für jeden die collection angeben
+#collection=green##green
+collection=bb
+#steuert, nach wie vielen Files, die vom client geparsed wurden, auf dem SOLR server ein commit ausgeführt werden soll
+#angestossen durch den solrj client
+#hier nicht berücksicht (und auch noch nicht getestet bzw. bisher zuwenig Erfahrung): es gibt auch noch sog. autocommits
+#auf dem server. Welches Verfahren für uns das bessere wäre bisher nicht entschieden
+commitAfterNumberOfFiles=20
+
+
+#Anhand dieser Pattern erkennt der indexerClient, ob IDs (und damit Dokumente) gelöscht oder ob für die Dokumente
+#in dem File auf SOLR ein update ausgeführt werden soll
+#Es geht um die Namen der Files, es wird nicht nach einem Pattern im gesamten path gesucht
+patternDeleteFiles=.*WeededDocumentsToDelete.*##.*idsToDelete.*
 
+
+#mit diesen properties steuere ich, wie aufwendig gelogged werden soll (evtl. könnte man das aber auch schon ausschliesslich
+#über log4j Konfigurationen machen (später verbesseren)
+debugParsingDelete=false
+debugParsingUpdate=false
diff --git a/fluxscripts/indexsolr.initial.flux → fluxscripts/indexsolr.flux b/fluxscripts/indexsolr.initial.flux → fluxscripts/indexsolr.flux
@@ -1,4 +1,6 @@
 
+//this is the default value for initial indexing;
+//you should always overwrite it when starting the flux-script with a key/value pair for dir2read
 default dir2read = "/swissbib_index/solrDocumentProcessing/MarcToSolr/data/outputfiles";
 default appPropPath = FLUX_DIR + "../app.properties";
 

diff --git a/fluxscripts/indexsolr.frequent.flux b/fluxscripts/indexsolr.frequent.flux