TCGA Breast Cancer Gene Expression Analysis Pipeline

This repository contains an R-based analysis pipeline for investigating differential gene expression in HER2/ERBB2+ breast cancer using TCGA RNA-seq data.

Prerequisites

Required R Packages

# Install BiocManager if not already installed
install.packages("BiocManager")

# Install required packages
BiocManager::install(c(
  "DESeq2",            # For differential expression analysis
  "clusterProfiler",   # For pathway analysis
  "pheatmap",          # For heatmap visualization
  "ComplexHeatmap",    # For advanced heatmap visualization
  "glmnet",           # For LASSO regression
  "org.Hs.eg.db"      # For gene annotation
))

# Additional CRAN packages
install.packages(c(
  "survival",        # For survival analysis
  "survminer",       # For survival visualization
  "ggplot2",         # For plotting
  "reshape2"         # For data manipulation
))

Data Requirements

The pipeline expects three input files from the TCGA breast cancer dataset:

RNA-seq data (data_mrna_seq_v2_rsem.txt)
Clinical data (data_clinical_patient.txt)
Copy Number Alteration (CNA) data (data_cna.txt)

Pipeline Components

1. Data Loading and Preprocessing

# Load data files
rna_seq <- read.delim("data_mrna_seq_v2_rsem.txt", sep="\t", header=TRUE)
clinical <- read.delim("data_clinical_patient.txt", sep="\t", header=TRUE)
cna <- read.delim("data_cna.txt", sep="\t", header=TRUE)

Key preprocessing steps:

ID standardization across datasets
Removal of metadata rows from clinical data
Handling of missing values
Sample matching across datasets

2. ERBB2 Status Classification

The pipeline classifies samples based on ERBB2 amplification status:

Amplified: CNA > 0
Not Amplified: CNA ≤ 0

3. Differential Expression Analysis

Using DESeq2 for:

Data normalization
Differential expression testing
Variance stabilizing transformation (VST)

4. Visualization Components

PCA Plot

# Generate PCA plot
pca_data <- plotPCA(vst, intgroup="ERBB2_Status", returnData=TRUE)
ggplot(pca_data, aes(PC1, PC2, color=ERBB2_Status)) +
  geom_point(size=3) +
  geom_density2d()

Heatmap Generation

# Generate heatmap of top DE genes
pheatmap(mat, 
         annotation_col=metadata_factors,
         scale="row",
         show_rownames=TRUE)

5. Pathway Analysis

Using clusterProfiler for:

GO enrichment analysis
GSEA analysis
Pathway visualization

6. Survival Analysis

Implements LASSO-regularized Cox regression:

Patient stratification
Survival curve generation
Risk score calculation

Function Descriptions

ID Standardization

standardize_ids_strict <- function(ids) {
  ids <- toupper(ids)                      
  ids <- gsub("[^A-Z0-9.]", ".", ids)     
  ids <- gsub("\\.\\d+$", "", ids)        
  ids <- gsub("\\.+", ".", ids)           
  ids <- sub("\\.$", "", ids)             
  return(ids)
}

Data Filtering

Removes low count genes (< 10 counts)
Handles missing values in survival data
Matches samples across datasets

Output Files

The pipeline generates:

Differential expression results
PCA plots
Heatmaps
Pathway enrichment results
Survival analysis plots
Risk stratification results

Validation

The pipeline includes validation steps:

Known ERBB2+ signature genes verification
Data quality checks
Sample matching verification
Survival data completeness checks

Usage Example

# Load required libraries
source("required_libraries.R")

# Run analysis pipeline
source("main_analysis.R")

# Generate visualizations
source("visualization.R")

# Perform survival analysis
source("survival_analysis.R")

Notes

Ensure all input files are in the correct format
Monitor memory usage with large datasets
Consider using parallel processing for large-scale analyses
Verify sample IDs match across all input files

Troubleshooting

Common issues and solutions:

Sample ID mismatches: Use the standardize_ids_strict function
Memory issues: Filter low-count genes early
Missing survival data: Check completeness of clinical data
Zero-variance genes: Remove before LASSO regression

Contributing

Feel free to submit issues and enhancement requests!

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
PCA_plot.pdf		PCA_plot.pdf
README.md		README.md
Structured code.R		Structured code.R
combined_plots.pdf		combined_plots.pdf
differential_expression_analysis.pdf		differential_expression_analysis.pdf
go_enrichment_dotplot.pdf		go_enrichment_dotplot.pdf
go_enrichment_gene_network.pdf		go_enrichment_gene_network.pdf
heatmap.pdf		heatmap.pdf
lasso_coefficients.pdf		lasso_coefficients.pdf
lasso_cv_plot.pdf		lasso_cv_plot.pdf
lasso_selected_genes.csv		lasso_selected_genes.csv
lasso_survival_analysis.pdf		lasso_survival_analysis.pdf
survival_analysis.pdf		survival_analysis.pdf
top_10_de_genes.pdf		top_10_de_genes.pdf
volcano_plot.pdf		volcano_plot.pdf

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

TCGA Breast Cancer Gene Expression Analysis Pipeline

Prerequisites

Required R Packages

Data Requirements

Pipeline Components

1. Data Loading and Preprocessing

2. ERBB2 Status Classification

3. Differential Expression Analysis

4. Visualization Components

PCA Plot

Heatmap Generation

5. Pathway Analysis

6. Survival Analysis

Function Descriptions

ID Standardization

Data Filtering

Output Files

Validation

Usage Example

Notes

Troubleshooting

Contributing

About

Releases

Packages

Languages

Mahendradoak/Breast-Cancer-Gene-Expression-Analysis

Folders and files

Latest commit

History

Repository files navigation

TCGA Breast Cancer Gene Expression Analysis Pipeline

Prerequisites

Required R Packages

Data Requirements

Pipeline Components

1. Data Loading and Preprocessing

2. ERBB2 Status Classification

3. Differential Expression Analysis

4. Visualization Components

PCA Plot

Heatmap Generation

5. Pathway Analysis

6. Survival Analysis

Function Descriptions

ID Standardization

Data Filtering

Output Files

Validation

Usage Example

Notes

Troubleshooting

Contributing

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages