bloom filter occupied 90 % of memory on server with 836Gb available ram #99

ethany21 · 2024-11-27T17:38:03Z

I have 12Tb of text file for dedup
(with size of each file is 4Gb, about 652050487 tokens within)
and for bff, I configured exepected-ngram-count to be 2001794995090 , fp-rate to be 0.01

And when I started bff, bloom filter occupied 90% of ram and soon system nearly crashed.
Is it better way to divide files into smaller groups and run each group sequentially?

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

bloom filter occupied 90 % of memory on server with 836Gb available ram #99

bloom filter occupied 90 % of memory on server with 836Gb available ram #99

ethany21 commented Nov 27, 2024

bloom filter occupied 90 % of memory on server with 836Gb available ram #99

bloom filter occupied 90 % of memory on server with 836Gb available ram #99

Comments

ethany21 commented Nov 27, 2024