-
Notifications
You must be signed in to change notification settings - Fork 0
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Switch from classification to "pure" compositional problem #31
Comments
Es wäre mucho fantastisch, wenn du vor unserem Meeting folgendes machen könntest:
Ist jetzt relativ spontan, also kein Stress, falls das nicht mehr klappt! |
Moin! Count-HistogrammePlot 1 zeigt die übereinander gelegten Histogramme der log-Sequenz-Counts je Klasse (BL, FU, HD). Dunkelblau = Sequenzen mit mehr als 1k Counts, Es gibt 26 470 unique Sequenzen bzw. 17 408 die in mehr als einem Sample vorkommen.
scCODAImplementieren hat soweit geklappt bis auf folgendes: scCODA/issues/40.
Durchgelaufen ist es trotzdem und für 8, 20, 200 Cluster habe ich Ergebnisse. Soll ich das ganze als .csv hochladen, oder eine Verteilung der fold-changes erstellen? FragenIm Paper steht, dass scCODA eine log-linear relationship zwischen Covariates und den Cell abundancies erwartet und ich bin mir nicht sicher, ob das bei uns gegeben ist. Ich habe jetzt erstmal trial-and-error gemacht und mir nicht zu viele Gedanken über die Mathematik gemacht. Falls du da nicht einen smarten Einfall hast, werde ich die Tage da mal etwas tiefer einsteigen. Weiter steht im Paper, dass sich möglicherweise ein "joint modeling of different resolutions" für Daten lohnen kann, bei denen man keine ground truth hat. Also quasi was wir mit den Feature-Vektoren in der BA gemacht haben. Das werde ich ggf. auch mal ausprobieren, es sei denn du legst ein Veto ein 😝 Schließende Anmerkung Das ist jetzt sehr viel. Ich habe die Woche immer wieder weiter gemacht, ohne was zu pushen bzw. hochzuladen, sorry für diese Wall of Text! LG und frohe Ostern! |
Ahoi,
das soll erstmal nur ein kleiner Pitch für unser Meeting morgen sein. Hatte gerade die Überlegung, ob wir das grundsätzlich betrachtete Problem umformulieren. Bisher gehen wir ja den "Umweg" über den Klassifikator, der auf den Daten trainiert werden soll. Alternativ könnten wir auch alle Daten clustern und dann darauf die Analysen machte. Statistisch wäre dann die Frage, wie sich Cluster-Kompositionen zwischen Kohorten unterscheiden. Also quasi: welche Cluster sind signifikant verschieden abundant, wenn Kohorten verglichen werden. Anbei eine Grafik, um die Idee zu verdeutlichen.
Details besprechen wir morgen, freue mich auf deine Einschätzung !✌🏻
The text was updated successfully, but these errors were encountered: