NB1_alina.Rmd

---
title: "Alina Data Analysis Notebook"
output:
  html_document: 
    toc: yes
    fig_caption: yes
---

```{r}
library(tidyverse)
library(EnhancedVolcano)
library(data.table)
```

## Importing the Datasets


```{r}
t476 <- read.csv("D:/R/Rtuts/Data/WG__Discussion_Alina's_EPEC_project/csv/C57BL6_476_vs_C57BL6_ctl.csv")

t754 <- read.csv("D:/R/Rtuts/Data/WG__Discussion_Alina's_EPEC_project/csv/C57BL6_754_vs_C57BL6_ctl.csv")

t755 <- read.csv("D:/R/Rtuts/Data/WG__Discussion_Alina's_EPEC_project/csv/C57BL6_755_vs_C57BL6_ctl.csv")

t757 <- read.csv("D:/R/Rtuts/Data/WG__Discussion_Alina's_EPEC_project/csv/C57BL6_757_vs_C57BL6_ctl.csv")

t758 <- read.csv("D:/R/Rtuts/Data/WG__Discussion_Alina's_EPEC_project/csv/C57BL6_758_vs_C57BL6_ctl.csv")

t760 <- read.csv("D:/R/Rtuts/Data/WG__Discussion_Alina's_EPEC_project/csv/C57BL6_760_vs_C57BL6_ctl.csv")

t761 <- read.csv("D:/R/Rtuts/Data/WG__Discussion_Alina's_EPEC_project/csv/C57BL6_761_vs_C57BL6_ctl.csv")

t762 <- read.csv("D:/R/Rtuts/Data/WG__Discussion_Alina's_EPEC_project/csv/C57BL6_762_vs_C57BL6_ctl.csv")

t763 <- read.csv("D:/R/Rtuts/Data/WG__Discussion_Alina's_EPEC_project/csv/C57BL6_763_vs_C57BL6_ctl.csv")

t764 <- read.csv("D:/R/Rtuts/Data/WG__Discussion_Alina's_EPEC_project/csv/C57BL6_764_vs_C57BL6_ctl.csv")

t765 <- read.csv("D:/R/Rtuts/Data/WG__Discussion_Alina's_EPEC_project/csv/C57BL6_765_vs_C57BL6_ctl.csv")

t766 <- read.csv("D:/R/Rtuts/Data/WG__Discussion_Alina's_EPEC_project/csv/C57BL6_766_vs_C57BL6_ctl.csv")

t768 <- read.csv("D:/R/Rtuts/Data/WG__Discussion_Alina's_EPEC_project/csv/C57BL6_768_vs_C57BL6_ctl.csv")

t769 <- read.csv("D:/R/Rtuts/Data/WG__Discussion_Alina's_EPEC_project/csv/C57BL6_769_vs_C57BL6_ctl.csv")

```

```{r}
head(t766)
```

## Adding the table number and Number of replicates as addtional columns

```{r}
t476$Strain_name <- "S476"
t476$N_infected_Replicates <- "Double"

t754$Strain_name <- "S754"
t754$CPM_infected_R2 <- "0"
t754$N_infected_Replicates <- "Single"

t757$Strain_name <- "S757"
t757$N_infected_Replicates <- "Double"

t755$Strain_name <- "S755"
t755$CPM_infected_R2 <- "0"
t755$N_infected_Replicates <- "Single"

t758$Strain_name <- "S758"
t758$CPM_infected_R2 <- "0"
t758$N_infected_Replicates <- "Single"

t760$Strain_name <- "S760"
t760$CPM_infected_R2 <- "0"
t760$N_infected_Replicates <- "Single"

t761$Strain_name <- "S761"
t761$CPM_infected_R2 <- "0"
t761$N_infected_Replicates <- "Single"

t762$Strain_name <- "S762"
t762$CPM_infected_R2 <- "0"
t762$N_infected_Replicates <- "Single"

t763$Strain_name <- "S763"
t763$CPM_infected_R2 <- "0"
t763$N_infected_Replicates <- "Single"

t764$Strain_name <- "S764"
t764$CPM_infected_R2 <- "0"
t764$N_infected_Replicates <- "Single"

t765$Strain_name <- "S765"
t765$CPM_infected_R2 <- "0"
t765$N_infected_Replicates <- "Single"

t766$Strain_name <- "S766"
t766$N_infected_Replicates <- "Double"

t768$Strain_name <- "S768"
t768$N_infected_Replicates <- "Double"

t769$Strain_name <- "S769"
t769$CPM_infected_R2 <- "0"
t769$N_infected_Replicates <- "Single"
```

## Renaming Column names to more consistent ones

```{r}

t476 <- t476 %>% rename(CPM_infected_R1 = CPM_.C57BL6_476_R1.) %>% rename(CPM_infected_R2 = CPM_.C57BL6_476_R2.) %>% rename(CPM_ctl_R1 = CPM_.C57BL6_ctl_R1.)  %>% rename(CPM_ctl_R2 = CPM_.C57BL6_ctl_R2.)

t754 <- t754 %>% rename(CPM_infected_R1 = CPM..C57BL6_754_R1.) %>% rename(CPM_ctl_R1 = CPM..C57BL6_ctl_R1.)  %>% rename(CPM_ctl_R2 = CPM..C57BL6_ctl_R2.)

t755 <- t755 %>% rename(CPM_infected_R1 = CPM..C57BL6_755_R1.) %>% rename(CPM_ctl_R1 = CPM..C57BL6_ctl_R1.)  %>% rename(CPM_ctl_R2 = CPM..C57BL6_ctl_R2.)

t757 <- t757 %>% rename(CPM_infected_R1 = CPM..C57BL6_757_R1.) %>% rename(CPM_infected_R2 = CPM..C57BL6_757_R2.) %>% rename(CPM_ctl_R1 = CPM..C57BL6_ctl_R1.)  %>% rename(CPM_ctl_R2 = CPM..C57BL6_ctl_R2.)

t758 <- t758 %>% rename(CPM_infected_R1 = CPM..C57BL6_758_R1.) %>% rename(CPM_ctl_R1 = CPM..C57BL6_ctl_R1.)  %>% rename(CPM_ctl_R2 = CPM..C57BL6_ctl_R2.)

t760 <- t760 %>% rename(CPM_infected_R1 = CPM..C57BL6_760_R1.) %>% rename(CPM_ctl_R1 = CPM..C57BL6_ctl_R1.)  %>% rename(CPM_ctl_R2 = CPM..C57BL6_ctl_R2.)

t761 <- t761 %>% rename(CPM_infected_R1 = CPM..C57BL6_761_R1.) %>% rename(CPM_ctl_R1 = CPM..C57BL6_ctl_R1.)  %>% rename(CPM_ctl_R2 = CPM..C57BL6_ctl_R2.)

t762 <- t762 %>% rename(CPM_infected_R1 = CPM..C57BL6_762_R1.) %>% rename(CPM_ctl_R1 = CPM..C57BL6_ctl_R1.)  %>% rename(CPM_ctl_R2 = CPM..C57BL6_ctl_R2.)

t763 <- t763 %>% rename(CPM_infected_R1 = CPM..C57BL6_763_R1.) %>% rename(CPM_ctl_R1 = CPM..C57BL6_ctl_R1.)  %>% rename(CPM_ctl_R2 = CPM..C57BL6_ctl_R2.)

t764 <- t764 %>% rename(CPM_infected_R1 = CPM..C57BL6_764_R1.) %>% rename(CPM_ctl_R1 = CPM..C57BL6_ctl_R1.)  %>% rename(CPM_ctl_R2 = CPM..C57BL6_ctl_R2.)

t765 <- t765 %>% rename(CPM_infected_R1 = CPM..C57BL6_765_R1.) %>% rename(CPM_ctl_R1 = CPM..C57BL6_ctl_R1.)  %>% rename(CPM_ctl_R2 = CPM..C57BL6_ctl_R2.)

t766 <- t766 %>% rename(CPM_infected_R1 = CPM..C57BL6_766_R1.) %>% rename(CPM_infected_R2 = CPM..C57BL6_766_R2.) %>% rename(CPM_ctl_R1 = CPM..C57BL6_ctl_R1.)  %>% rename(CPM_ctl_R2 = CPM..C57BL6_ctl_R2.)

t768 <- t768 %>% rename(CPM_infected_R1 = CPM..C57BL6_768_R1.) %>% rename(CPM_infected_R2 = CPM..C57BL6_768_R2.) %>% rename(CPM_ctl_R1 = CPM..C57BL6_ctl_R1.)  %>% rename(CPM_ctl_R2 = CPM..C57BL6_ctl_R2.)

t769 <- t769 %>% rename(CPM_infected_R1 = CPM..C57BL6_769_R1.) %>% rename(CPM_ctl_R1 = CPM..C57BL6_ctl_R1.)  %>% rename(CPM_ctl_R2 = CPM..C57BL6_ctl_R2.)

```

```{r}

head(t769)
```

```{r}
head(t766)
```

## Reordering Columns to be or correct order

```{r}
#t769 <- t769[, c(1, 2, 3, 4, 5, 6,  7, 8, 9, 14,  12, 13, 10, 11)]
#head(t769)
```

## Binding all tables into a single Master Table

```{r}
#rbind two data frames into one data frame
binded_frame <- rbind(t476,t754,t755,t757,t758,t760,t761,t762,t763,t764,t765,t766, t768, t769)
write.csv(binded_frame,"D:/R/Rtuts/Data/WG__Discussion_Alina's_EPEC_project/csv/Data_Alina_MasterTable_13strains.csv")

dim(binded_frame)
```

```{r echo=TRUE, message=TRUE, warning=TRUE}
str(binded_frame)
```
# 15th March, 2022:

### Meeting with Johannes on Friday:

1. With Regard to Colors: Cant do selective overlaying in ggplot. His plots were feature plots in Seurat. Can work with distinctive colors and opacity. More on this next week. Also, consider splitting the strains in 2 or 3 groups!

2. Parameter Values : pvalue = 0.05, lo2FC = -1 to +1

3. Working with enhanaced Volcano plots


       
       
### CPM infected and Control - Mean Values

```{r}
head(binded_frame)
```
```{r}
# Convert CPM_infected_R2 into numeric from chr
binded_frame[, c(9:10)] <- sapply(binded_frame[, c(9:10)], as.numeric)
str(binded_frame)
```
```{r}
binded_frame$CPM_ctl_Mean <- rowMeans(binded_frame[,11:12])
binded_frame$CPM_Infected_Mean <- rowMeans(binded_frame[,9:10])
```

### Tables for Aline:

```{r}
head(binded_frame)
```
```{r}
#s1 <- filter(binded_frame, Strain_name == "S476", CPM_infected_R2)
#nrow(s1)
```


```{r}
CPM_mean_table <- select(binded_frame, ensembl_gene_id, symbol, Strain_name, CPM_ctl_Mean, CPM_Infected_Mean)
head(CPM_mean_table)
```

```{r}
log2FC_table <- select(binded_frame, ensembl_gene_id, symbol, Strain_name, log2FoldChange)
head(log2FC_table)
```

# Tables with padj and log2FC thresholds imposed, to obtain a list of genes.


The Plan for doing so:

1. The parameters are : padj < 0.05, log2FC = +1 or -1. This needs to be imposed and two different tables be imposed.
2. The gender specific genes be removed.
3. Obtain the number of genes being contributed for respective strains.
4. Obtain upgenelist and downgenelist.
5. Determine core90 and Core50 for Up/Down regulation.
6. For these set of genes, in up/down regulation, create a separate table. Then, from this table, determine the zscore for the log2FC variable and create a heatmap. 
7. Read Matt's Thesis and move onto Go term and pathway analysis.
8. Mathias Plots for duplicates of all strains. 
9. PCA plots and further more

## Gender Specific genes - Removed!

```{r}
gender_genes_list <- c("Xist","Jpx","Ftx","Tsx", "Cnbp2")
gender_genes <- filter(binded_frame, symbol %in% gender_genes_list)
nrow(gender_genes)
```
```{r}
head(gender_genes)
```

### Gender Genes Removed from Master Table
```{r}
binded_frame <- filter(binded_frame, symbol != "Xist", symbol !="Jpx", symbol !="Ftx", symbol !="Tsx", symbol != "Cnbp2" )
```


### Number of genes in play - from each strain!


```{r}
f1 <- binded_frame
f1$Strain_name <- as.factor(f1$Strain_name)
table(f1$Strain_name)
```


## A table with padj<0.05 imposed!
```{r}
f2 <- filter(f1, padj<0.05)
head(f2)
```

```{r}
write.csv(f2,"D:/R/Rtuts/Data/WG__Discussion_Alina's_EPEC_project/csv/Data_Alina_listofgenes_ with_padj_threshold.csv")
```


## A table with padj<0.05 and log2FC>1 imposed!
```{r}
f3 <- filter(f1, padj<0.05, log2FoldChange>1)
str(f3)
```

```{r}
write.csv(f3,"D:/R/Rtuts/Data/WG__Discussion_Alina's_EPEC_project/csv/Data_Alina_listofgenes_ with_padjANDlog2FCgreaterthan1_threshold.csv")
```

## A table with padj<0.05 and log2FC<-1 imposed!
```{r}
f5 <- filter(f1, padj<0.05, log2FoldChange< -1, log2FoldChange>1)
str(f5)
write.csv(f5 ,"D:/R/Rtuts/Data/WG__Discussion_Alina's_EPEC_project/csv/Data_Alina_listofgenes_ with_padjANDlog2FClesserthan1_threshold.csv")
```

```{r}

```

## Number of Genes from different strains that are contributing to Up/Down regulation.


### Down Regulation - Most Relevant strains
```{r}
f4$Strain_name <- as.factor(f4$Strain_name)
t1 <- data.frame(f4$Strain_name)
summary(t1)
```
```{r}
t1_table <- table(f4$Strain_name)
print(t1_table)
```


### Up Regulation - Most Relevant strains
```{r}
f3$Strain_name <- as.factor(f3$Strain_name)

t2 <- data.frame(f3$Strain_name)
summary(t2)
```
```{r}
t2_table <- table(f3$Strain_name)
#t2_table

Ngenes_fromStrains <- data.frame(rbind(t2_table))      # Converting the table into Data Frame

#row.names(Ngenes_fromStrains) <- 1:nrow(Ngenes_fromStrains)  # change row names to list of numbers
Ngenes_fromStrains <- as.data.frame(t(Ngenes_fromStrains))    # flip the rows and columns into each other
Ngenes_fromStrains <- rownames_to_column(Ngenes_fromStrains)
names(Ngenes_fromStrains)[1] <- 'Strain_ID '                  # Change names of columns 
names(Ngenes_fromStrains)[2] <- ' Counts'

Ngenes_fromStrains

```

```{r}
#ggplot(data = Ngenes_fromStrains) + geom_bar(mapping = aes(x = Strain_ID, y = Counts, fill = Strain_ID))
#str(Ngenes_fromStrains)
#ggplot(data = Ngenes_fromStrains) + geom_histogram(mapping = aes(x = Counts))
```


## Genes List and Gene Counts

### List of Down regulating genes and respective counts

```{r}
f4$symbol <- as.factor(f4$symbol)
downgene_list <- data.frame(f4$symbol)
#downgene_list <- rownames_to_column(downgene_list)
names(downgene_list)[1] <- 'DOWN_Genes'
summary(downgene_list, maxsum = 20)
```
```{r}
head(downgene_list)
```


```{r}
count(downgene_list)
```
 

### List of Up-regulating genes and respective counts

```{r}
f3$symbol <- as.factor(f3$symbol)
upgene_list <- data.frame(f3$symbol)
setnames(upgene_list, "Gene_names")
summary(upgene_list, maxsum = 30)
```


### Number of Upregulating Genes
```{r}
count(upgene_list)
```


### Common genes between both tables -  Interesting?

```{r}
#intersecting_genes<- fintersect(setDT(downgene_list), setDT(upgene_list), all = F)
#print(intersecting_genes)
```

# 29th March, 2022:

# Aline Tables: 

Put this section into a separate script for later use!

## CPMR1 and CPMR2 value stable - per Gene :

Plan is to create individual tables per strain, grouped by each gene with two CPM values and then do this for each strain. then merge the different data frames into row-wise based on each gene.

### Sorting the genes as per strain_name and gene_name

```{r}
by_gene <- binded_frame %>% 
           group_by(symbol) %>% 
           summarise(Strain_name, CPM_infected_R1, CPM_infected_R2) %>% ungroup()
head(by_gene)
```
# Collecting the CPMr1 and CPMr23 values , gene by gene

### bygene_476

```{r}
bygene_476 <- by_gene %>% 
           group_by(symbol, Strain_name) %>% 
           filter(Strain_name == "S476") %>%
           summarise(cpm_476_r1 = paste0(CPM_infected_R1, collapse = ","),
                     cpm_476_r2 = paste0(CPM_infected_R2, collapse = ","))%>% 
           select(-Strain_name) 

bygene_755 <- by_gene %>% 
           group_by(symbol, Strain_name) %>% 
           filter(Strain_name == "S755") %>%
           summarise(cpm_755_r1 = paste0(CPM_infected_R1, collapse = ","),
                     cpm_755_r2 = paste0(CPM_infected_R2, collapse = ",")) %>% 
           select(-Strain_name)

bygene_754 <- by_gene %>% 
           group_by(symbol, Strain_name) %>% 
           filter(Strain_name == "S754") %>%
           summarise(cpm_754_r1 = paste0(CPM_infected_R1, collapse = ","),
                     cpm_754_r2 = paste0(CPM_infected_R2, collapse = ",")) %>% 
           select(-Strain_name)

bygene_757 <- by_gene %>% 
           group_by(symbol, Strain_name) %>% 
           filter(Strain_name == "S757") %>%
           summarise(cpm_757_r1 = paste0(CPM_infected_R1, collapse = ","),
                     cpm_757_r2 = paste0(CPM_infected_R2, collapse = ",")) %>% 
           select(-Strain_name)

bygene_758 <- by_gene %>% 
           group_by(symbol, Strain_name) %>% 
           filter(Strain_name == "S758") %>%
           summarise(cpm_758_r1 = paste0(CPM_infected_R1, collapse = ","),
                     cpm_758_r2 = paste0(CPM_infected_R2, collapse = ",")) %>% 
           select(-Strain_name)

bygene_760 <- by_gene %>% 
           group_by(symbol, Strain_name) %>% 
           filter(Strain_name == "S760") %>%
           summarise(cpm_760_r1 = paste0(CPM_infected_R1, collapse = ","),
                     cpm_760_r2 = paste0(CPM_infected_R2, collapse = ",")) %>% 
           select(-Strain_name)

bygene_761 <- by_gene %>% 
           group_by(symbol, Strain_name) %>% 
           filter(Strain_name == "S761") %>%
           summarise(cpm_761_r1 = paste0(CPM_infected_R1, collapse = ","),
                     cpm_761_r2 = paste0(CPM_infected_R2, collapse = ",")) %>% 
           select(-Strain_name)

bygene_762 <- by_gene %>% 
           group_by(symbol, Strain_name) %>% 
           filter(Strain_name == "S762") %>%
           summarise(cpm_762_r1 = paste0(CPM_infected_R1, collapse = ","),
                     cpm_762_r2 = paste0(CPM_infected_R2, collapse = ",")) %>% 
           select(-Strain_name)

bygene_763 <- by_gene %>% 
           group_by(symbol, Strain_name) %>% 
           filter(Strain_name == "S763") %>%
           summarise(cpm_763_r1 = paste0(CPM_infected_R1, collapse = ","),
                     cpm_763_r2 = paste0(CPM_infected_R2, collapse = ",")) %>% 
           select(-Strain_name)

bygene_764 <- by_gene %>% 
           group_by(symbol, Strain_name) %>% 
           filter(Strain_name == "S764") %>%
           summarise(cpm_764_r1 = paste0(CPM_infected_R1, collapse = ","),
                     cpm_764_r2 = paste0(CPM_infected_R2, collapse = ",")) %>% 
           select(-Strain_name)

bygene_765 <- by_gene %>% 
           group_by(symbol, Strain_name) %>% 
           filter(Strain_name == "S765") %>%
           summarise(cpm_765_r1 = paste0(CPM_infected_R1, collapse = ","),
                     cpm_765_r2 = paste0(CPM_infected_R2, collapse = ",")) %>% 
           select(-Strain_name)

bygene_766 <- by_gene %>% 
           group_by(symbol, Strain_name) %>% 
           filter(Strain_name == "S766") %>%
           summarise(cpm_766_r1 = paste0(CPM_infected_R1, collapse = ","),
                     cpm_766_r2 = paste0(CPM_infected_R2, collapse = ",")) %>% 
           select(-Strain_name)

bygene_768 <- by_gene %>% 
           group_by(symbol, Strain_name) %>% 
           filter(Strain_name == "S768") %>%
           summarise(cpm_768_r1 = paste0(CPM_infected_R1, collapse = ","),
                     cpm_768_r2 = paste0(CPM_infected_R2, collapse = ",")) %>% 
           select(-Strain_name)

bygene_769 <- by_gene %>% 
           group_by(symbol, Strain_name) %>% 
           filter(Strain_name == "S769") %>%
           summarise(cpm_769_r1 = paste0(CPM_infected_R1, collapse = ","),
                     cpm_769_r2 = paste0(CPM_infected_R2, collapse = ",")) %>% 
           select(-Strain_name)

```

Now lets try to merge the dataframe for respective genes, row-wise

```{r}
# Merging two df at a time.
merged_df1 <- merge(data.frame(bygene_476, row.names=NULL), data.frame(bygene_754, row.names=NULL), by = 1, all = TRUE)
merged_df2 <- merge(data.frame(bygene_755, row.names=NULL), data.frame(bygene_757, row.names=NULL), by = 1, all = TRUE)
```

```{r}
merged_df3 <- merge(data.frame(bygene_758, row.names=NULL), data.frame(bygene_760, row.names=NULL), by = 1, all = TRUE)
merged_df4 <- merge(data.frame(bygene_761, row.names=NULL), data.frame(bygene_762, row.names=NULL), by = 1, all = TRUE)
```


```{r}
merged_df5 <- merge(data.frame(bygene_763, row.names=NULL), data.frame(bygene_764, row.names=NULL), by = 1, all = TRUE)
merged_df6 <- merge(data.frame(bygene_765, row.names=NULL), data.frame(bygene_766, row.names=NULL), by = 1, all = TRUE)
```


```{r}
merged_df7 <- merge(data.frame(bygene_768, row.names=NULL), data.frame(bygene_769, row.names=NULL), by = 1, all = TRUE)
```

```{r}
CPM_Merged12 <- merge(
                   data.frame(merged_df1, row.names=NULL), 
                   data.frame(merged_df2, row.names=NULL), all = TRUE)
```


```{r}
CPM_Merged34 <- merge(
                   data.frame(merged_df3, row.names=NULL), 
                   data.frame(merged_df4, row.names=NULL), all = TRUE)
```

```{r}
CPM_Merged56 <- merge(
                   data.frame(merged_df5, row.names=NULL), 
                   data.frame(merged_df6, row.names=NULL), all = TRUE)
```


```{r}
CPM_Merged567 <- merge(
                   data.frame(CPM_Merged56, row.names=NULL), 
                   data.frame(merged_df7, row.names=NULL), all = TRUE)
```

```{r}
CPM_MergedTable_1234 <- merge(
                   data.frame(CPM_Merged12, row.names=NULL), 
                   data.frame(CPM_Merged34, row.names=NULL), all = TRUE)
head(CPM_MergedTable_1234)
```

Finally open the complete merged table
```{r}
CPM_MergedTable_ByGene <- merge(
                   data.frame(CPM_MergedTable_1234, row.names=NULL), 
                   data.frame(CPM_Merged567, row.names=NULL), all = TRUE)
head(CPM_MergedTable_ByGene)
```


```{r}
write.csv(CPM_MergedTable_ByGene,"D:/R/Rtuts/Data/WG__Discussion_Alina's_EPEC_project/csv/CPM_MergedTable_ByGene.csv")
```

# Creating UpGeneTable and DownGeneTable

```{r}
DownGene_DECore50 <- c("Calcoco1",  "Gm22634", "Gm25939", "Gm24265", "Gm22513",
                 "Gm23804", "Gsta2", "Snca", "Afp", "Col1a2", "Gm22068", 
                 "Gm24305", "Gm25813", "Nt5e", "Reg4", "Sgk2")
length(DownGene_DECore50)
```

```{r}
DownGeneFrame <- binded_frame %>% filter(symbol %in% DownGene_DECore50)
DownGeneFrame
write.csv(DownGeneFrame,"D:/R/Rtuts/Data/WG__Discussion_Alina's_EPEC_project/csv/DownGeneFrame_Core50.csv")
```



```{r}
UpGene_DECore50 <- c( "Reg3b", "Reg3g","Slc9a3", "Cd36", "Dmbt1", "Pigr", "Saa3", 
                      "Ubd ", "Aldh1l1", "Apol10a", "AY76118", "Defa3", "Dnase1",
                      "Duox2", " Gsdmc", "Gsdmc2", "Igtp", "Iigp1", "Il18", "Lyz1", 
                      "Mptx2", "Ncf2", "Prss30", "Ptk6", "Reg3a", "Saa1", "Slfn2")
length(UpGene_DECore50)
```


```{r}
UpGeneFrame <- binded_frame %>% filter(symbol %in% UpGene_DECore50)
UpGeneFrame
write.csv(UpGeneFrame,"D:/R/Rtuts/Data/WG__Discussion_Alina's_EPEC_project/csv/UpGeneFrame_Core50.csv")
```



```{r}
# Input the frame that needs to be worked on
UpGeneFrame_Core50 <- read.csv("D:/R/Rtuts/Data/WG__Discussion_Alina's_EPEC_project/csv/UpGeneFrame_Core50.csv")
#binded_frame <- read.csv("D:/R/Rtuts/Data/WG__Discussion_Alina's_EPEC_project/csv/Data_Alina_MasterTable_13strains.csv")

by_gene_forlog2FC <- UpGeneFrame_Core50 %>% group_by(symbol) %>% 
  summarise(log2FoldChange, Strain_name) %>% ungroup()
head(by_gene_forlog2FC)

log2FC_476 <- by_gene_forlog2FC %>% 
  group_by(symbol) %>% 
  filter(Strain_name == "S476") %>%
  summarise(log2FC_476 = paste0(log2FoldChange)) 
log2FC_754 <- by_gene_forlog2FC %>% 
  group_by(symbol) %>% 
  filter(Strain_name == "S754") %>%
  summarise(log2FC_754 = paste0(log2FoldChange))
log2FC_755 <- by_gene_forlog2FC %>% 
  group_by(symbol) %>% 
  filter(Strain_name == "S755") %>%
  summarise(log2FC_755 = paste0(log2FoldChange))
log2FC_757 <- by_gene_forlog2FC %>% 
  group_by(symbol) %>% 
  filter(Strain_name == "S757") %>%
  summarise(log2FC_757 = paste0(log2FoldChange))
log2FC_758 <- by_gene_forlog2FC %>% 
  group_by(symbol) %>% 
  filter(Strain_name == "S758") %>%
  summarise(log2FC_758 = paste0(log2FoldChange))
log2FC_760 <- by_gene_forlog2FC %>% 
  group_by(symbol) %>% 
  filter(Strain_name == "S760") %>%
  summarise(log2FC_760 = paste0(log2FoldChange))
log2FC_761 <- by_gene_forlog2FC %>% 
  group_by(symbol) %>% 
  filter(Strain_name == "S761") %>%
  summarise(log2FC_761 = paste0(log2FoldChange))
log2FC_762 <- by_gene_forlog2FC %>% 
  group_by(symbol) %>% 
  filter(Strain_name == "S762") %>%
  summarise(log2FC_762 = paste0(log2FoldChange))
log2FC_763 <- by_gene_forlog2FC %>% 
  group_by(symbol) %>% 
  filter(Strain_name == "S763") %>%
  summarise(log2FC_763 = paste0(log2FoldChange))
log2FC_764 <- by_gene_forlog2FC %>% 
  group_by(symbol) %>% 
  filter(Strain_name == "S764") %>%
  summarise(log2FC_764 = paste0(log2FoldChange))
log2FC_765 <- by_gene_forlog2FC %>% 
  group_by(symbol) %>% 
  filter(Strain_name == "S765") %>%
  summarise(log2FC_765 = paste0(log2FoldChange))
log2FC_766 <- by_gene_forlog2FC %>% 
  group_by(symbol) %>% 
  filter(Strain_name == "S766") %>%
  summarise(log2FC_766 = paste0(log2FoldChange))
log2FC_768 <- by_gene_forlog2FC %>% 
  group_by(symbol) %>% 
  filter(Strain_name == "S768") %>%
  summarise(log2FC_768 = paste0(log2FoldChange))
log2FC_769 <- by_gene_forlog2FC %>% 
  group_by(symbol) %>% 
  filter(Strain_name == "S769") %>%
  summarise(log2FC_769 = paste0(log2FoldChange))


merged_L2fc1 <- merge(data.frame(log2FC_476, row.names=NULL), data.frame(log2FC_754, row.names=NULL), by = 1, all = TRUE)
merged_L2fc2 <- merge(data.frame(log2FC_755, row.names=NULL), data.frame(log2FC_757, row.names=NULL), by = 1, all = TRUE)
merged_L2fc3 <- merge(data.frame(log2FC_758, row.names=NULL), data.frame(log2FC_760, row.names=NULL), by = 1, all = TRUE)
merged_L2fc4 <- merge(data.frame(log2FC_761, row.names=NULL), data.frame(log2FC_762, row.names=NULL), by = 1, all = TRUE)
merged_L2fc5 <- merge(data.frame(log2FC_763, row.names=NULL), data.frame(log2FC_764, row.names=NULL), by = 1, all = TRUE)
merged_L2fc6 <- merge(data.frame(log2FC_765, row.names=NULL), data.frame(log2FC_766, row.names=NULL), by = 1, all = TRUE)
merged_L2fc7 <- merge(data.frame(log2FC_768, row.names=NULL), data.frame(log2FC_769, row.names=NULL), by = 1, all = TRUE)


merged_L2fc_A1_U <- merge(data.frame(merged_L2fc1, row.names=NULL),
                        data.frame(merged_L2fc2, row.names=NULL),
                        by = 1, all = TRUE)
merged_L2fc_A2_U <- merge(data.frame(merged_L2fc3, row.names=NULL), 
                        data.frame(merged_L2fc4, row.names=NULL), 
                        by = 1, all = TRUE)
merged_L2fc_A3_U <- merge(data.frame(merged_L2fc5, row.names=NULL), 
                        data.frame(merged_L2fc6, row.names=NULL), 
                        by = 1, all = TRUE)
merged_L2fc_B1_U <- merge(data.frame(merged_L2fc_A1_U, row.names=NULL), 
                        data.frame(merged_L2fc_A2_U, row.names=NULL), 
                        by = 1, all = TRUE)
merged_L2fc_B2_U <- merge(data.frame(merged_L2fc_A3_U, row.names=NULL), 
                        data.frame(merged_L2fc7, row.names=NULL), 
                        by = 1, all = TRUE)
merged_L2FC_UP <- merge(data.frame(merged_L2fc_B1_U, row.names=NULL), 
                     data.frame(merged_L2fc_B2_U, row.names=NULL), 
                     by = 1, all = TRUE)


# change the type of rest of columns except for symbol from chr to double
merged_L2FC_UP <- merged_L2FC_UP %>% mutate_at(c(2:15), as.double)
# ensure that there are no duplicate rows
merged_L2FC_UP <- merged_L2FC_UP %>% distinct(symbol,.keep_all=TRUE)

# Determining the Zscore tables for UP Genes

zs_476 = scale(merged_L2FC$log2FC_476, center = TRUE, scale = TRUE)
zs_754 = scale(merged_L2FC$log2FC_754, center = TRUE, scale = TRUE)
zs_755 = scale(merged_L2FC$log2FC_755, center = TRUE, scale = TRUE)
zs_757 = scale(merged_L2FC$log2FC_757, center = TRUE, scale = TRUE)
zs_758 = scale(merged_L2FC$log2FC_758, center = TRUE, scale = TRUE)
zs_760 = scale(merged_L2FC$log2FC_760, center = TRUE, scale = TRUE)
zs_761 = scale(merged_L2FC$log2FC_761, center = TRUE, scale = TRUE)
zs_762 = scale(merged_L2FC$log2FC_762, center = TRUE, scale = TRUE)
zs_763 = scale(merged_L2FC$log2FC_763, center = TRUE, scale = TRUE)
zs_764 = scale(merged_L2FC$log2FC_764, center = TRUE, scale = TRUE)
zs_765 = scale(merged_L2FC$log2FC_765, center = TRUE, scale = TRUE)
zs_766 = scale(merged_L2FC$log2FC_766, center = TRUE, scale = TRUE)
zs_768 = scale(merged_L2FC$log2FC_768, center = TRUE, scale = TRUE)
zs_769 = scale(merged_L2FC$log2FC_769, center = TRUE, scale = TRUE)

GeneName <- merged_L2FC$symbol #obtaining genenames from earlier df
ZS_UPGenes_table <- data.frame(GeneName, zs_476,zs_754,zs_755,zs_757,zs_758,
                               zs_760, zs_761,zs_762,zs_763,zs_764,zs_765,
                               zs_766,zs_768,zs_769)

ZS_UPGenes_table <- data.frame(ZS_UPGenes_table, row.names = 1)

#write.csv(ZS_UPGenes_table,"D:/R/Rtuts/Data/WG__Discussion_Alina's_EPEC_project/csv/ZS_UPGenes_table.csv","w")

# MEAN OF MINIMUM WAS 1.1796611

#ZS_UPGenes_table <- ZS_UPGenes_table %>% replace(is.na(.), -1.1796611)

geneExp_matrix_DE_UpGene <- as.matrix(ZS_UPGenes_table)

heatmap(geneExp_matrix_DE_UpGene)
```


### DownGeneTable - Core 50 and heatmaps

```{r}
# Input the frame that needs to be worked on
DownGeneFrame_Core50 <- read.csv("D:/R/Rtuts/Data/WG__Discussion_Alina's_EPEC_project/csv/DownGeneFrame_Core50.csv")
#binded_frame <- read.csv("D:/R/Rtuts/Data/WG__Discussion_Alina's_EPEC_project/csv/Data_Alina_MasterTable_13strains.csv")

by_gene_forlog2FC <- DownGeneFrame_Core50 %>% group_by(symbol) %>% 
  summarise(log2FoldChange, Strain_name) %>% ungroup()
head(by_gene_forlog2FC)

log2FC_476 <- by_gene_forlog2FC %>% 
  group_by(symbol) %>% 
  filter(Strain_name == "S476") %>%
  summarise(log2FC_476 = paste0(log2FoldChange)) 
log2FC_754 <- by_gene_forlog2FC %>% 
  group_by(symbol) %>% 
  filter(Strain_name == "S754") %>%
  summarise(log2FC_754 = paste0(log2FoldChange))
log2FC_755 <- by_gene_forlog2FC %>% 
  group_by(symbol) %>% 
  filter(Strain_name == "S755") %>%
  summarise(log2FC_755 = paste0(log2FoldChange))
log2FC_757 <- by_gene_forlog2FC %>% 
  group_by(symbol) %>% 
  filter(Strain_name == "S757") %>%
  summarise(log2FC_757 = paste0(log2FoldChange))
log2FC_758 <- by_gene_forlog2FC %>% 
  group_by(symbol) %>% 
  filter(Strain_name == "S758") %>%
  summarise(log2FC_758 = paste0(log2FoldChange))
log2FC_760 <- by_gene_forlog2FC %>% 
  group_by(symbol) %>% 
  filter(Strain_name == "S760") %>%
  summarise(log2FC_760 = paste0(log2FoldChange))
log2FC_761 <- by_gene_forlog2FC %>% 
  group_by(symbol) %>% 
  filter(Strain_name == "S761") %>%
  summarise(log2FC_761 = paste0(log2FoldChange))
log2FC_762 <- by_gene_forlog2FC %>% 
  group_by(symbol) %>% 
  filter(Strain_name == "S762") %>%
  summarise(log2FC_762 = paste0(log2FoldChange))
log2FC_763 <- by_gene_forlog2FC %>% 
  group_by(symbol) %>% 
  filter(Strain_name == "S763") %>%
  summarise(log2FC_763 = paste0(log2FoldChange))
log2FC_764 <- by_gene_forlog2FC %>% 
  group_by(symbol) %>% 
  filter(Strain_name == "S764") %>%
  summarise(log2FC_764 = paste0(log2FoldChange))
log2FC_765 <- by_gene_forlog2FC %>% 
  group_by(symbol) %>% 
  filter(Strain_name == "S765") %>%
  summarise(log2FC_765 = paste0(log2FoldChange))
log2FC_766 <- by_gene_forlog2FC %>% 
  group_by(symbol) %>% 
  filter(Strain_name == "S766") %>%
  summarise(log2FC_766 = paste0(log2FoldChange))
log2FC_768 <- by_gene_forlog2FC %>% 
  group_by(symbol) %>% 
  filter(Strain_name == "S768") %>%
  summarise(log2FC_768 = paste0(log2FoldChange))
log2FC_769 <- by_gene_forlog2FC %>% 
  group_by(symbol) %>% 
  filter(Strain_name == "S769") %>%
  summarise(log2FC_769 = paste0(log2FoldChange))


merged_L2fc1 <- merge(data.frame(log2FC_476, row.names=NULL), data.frame(log2FC_754, row.names=NULL), by = 1, all = TRUE)
merged_L2fc2 <- merge(data.frame(log2FC_755, row.names=NULL), data.frame(log2FC_757, row.names=NULL), by = 1, all = TRUE)
merged_L2fc3 <- merge(data.frame(log2FC_758, row.names=NULL), data.frame(log2FC_760, row.names=NULL), by = 1, all = TRUE)
merged_L2fc4 <- merge(data.frame(log2FC_761, row.names=NULL), data.frame(log2FC_762, row.names=NULL), by = 1, all = TRUE)
merged_L2fc5 <- merge(data.frame(log2FC_763, row.names=NULL), data.frame(log2FC_764, row.names=NULL), by = 1, all = TRUE)
merged_L2fc6 <- merge(data.frame(log2FC_765, row.names=NULL), data.frame(log2FC_766, row.names=NULL), by = 1, all = TRUE)
merged_L2fc7 <- merge(data.frame(log2FC_768, row.names=NULL), data.frame(log2FC_769, row.names=NULL), by = 1, all = TRUE)


merged_L2fc_A1 <- merge(data.frame(merged_L2fc1, row.names=NULL),
                        data.frame(merged_L2fc2, row.names=NULL),
                        by = 1, all = TRUE)
merged_L2fc_A2 <- merge(data.frame(merged_L2fc3, row.names=NULL), 
                        data.frame(merged_L2fc4, row.names=NULL), 
                        by = 1, all = TRUE)
merged_L2fc_A3 <- merge(data.frame(merged_L2fc5, row.names=NULL), 
                        data.frame(merged_L2fc6, row.names=NULL), 
                        by = 1, all = TRUE)
merged_L2fc_B1 <- merge(data.frame(merged_L2fc_A1, row.names=NULL), 
                        data.frame(merged_L2fc_A2, row.names=NULL), 
                        by = 1, all = TRUE)
merged_L2fc_B2 <- merge(data.frame(merged_L2fc_A3, row.names=NULL), 
                        data.frame(merged_L2fc7, row.names=NULL), 
                        by = 1, all = TRUE)
merged_L2FC <- merge(data.frame(merged_L2fc_B1, row.names=NULL), 
                     data.frame(merged_L2fc_B2, row.names=NULL), 
                     by = 1, all = TRUE)


# change the type of rest of columns except for symbol from chr to double
merged_L2FC <- merged_L2FC %>% mutate_at(c(2:15), as.double)
# ensure that there are no duplicate rows
merged_L2FC <- merged_L2FC %>% distinct(symbol,.keep_all=TRUE)

# Determining the Zscore tables for UP Genes

zs_476 = scale(merged_L2FC$log2FC_476, center = TRUE, scale = TRUE)
zs_754 = scale(merged_L2FC$log2FC_754, center = TRUE, scale = TRUE)
zs_755 = scale(merged_L2FC$log2FC_755, center = TRUE, scale = TRUE)
zs_757 = scale(merged_L2FC$log2FC_757, center = TRUE, scale = TRUE)
zs_758 = scale(merged_L2FC$log2FC_758, center = TRUE, scale = TRUE)
zs_760 = scale(merged_L2FC$log2FC_760, center = TRUE, scale = TRUE)
zs_761 = scale(merged_L2FC$log2FC_761, center = TRUE, scale = TRUE)
zs_762 = scale(merged_L2FC$log2FC_762, center = TRUE, scale = TRUE)
zs_763 = scale(merged_L2FC$log2FC_763, center = TRUE, scale = TRUE)
zs_764 = scale(merged_L2FC$log2FC_764, center = TRUE, scale = TRUE)
zs_765 = scale(merged_L2FC$log2FC_765, center = TRUE, scale = TRUE)
zs_766 = scale(merged_L2FC$log2FC_766, center = TRUE, scale = TRUE)
zs_768 = scale(merged_L2FC$log2FC_768, center = TRUE, scale = TRUE)
zs_769 = scale(merged_L2FC$log2FC_769, center = TRUE, scale = TRUE)

GeneName <- merged_L2FC$symbol #obtaining genenames from earlier df
ZS_DownGenes_table <- data.frame(GeneName, zs_476,zs_754,zs_755,zs_757,zs_758,
                               zs_760, zs_761,zs_762,zs_763,zs_764,zs_765,
                               zs_766,zs_768,zs_769)

ZS_DownGenes_table <- data.frame(ZS_DownGenes_table, row.names = 1)

#write.csv(ZS_DownGenes_table,"D:/R/Rtuts/Data/WG__Discussion_Alina's_EPEC_project/csv/ZS_DownGenes_table.csv")

# MEAN OF MINIMUM WAS 1.1796611

#ZS_DownGenes_table <- ZS_DownGenes_table %>% replace(is.na(.), -1.1796611)

geneExp_matrix_DE_DownGene <- as.matrix(ZS_DownGenes_table)

heatmap(geneExp_matrix_DE_DownGene)
```