otimização do espaço de armazenamento (output do modkit)
Atualmente o modkit parece consumir muito espaço quando gera o output, principalmente os arquivos .tsv
:
- Considerar a implementação do parâmetro [--bgzf] para comprimir o output; Referência no Modkit Docs
- Considerar realizar o step do modkit em outro local (como o servidor de armazenamento LSA).
INFO: No RStudio (IDE para a linguagem R) geralmente usamos o pacote NanoMethViz para gerar uma análise sobre os dados de modificações. Nesse sentido, o pacote requer um input em "tabix" através da função create_tabix_file()
que utiliza um arquivo .tsv
comprimido através do bgzip
como no exemplo abaixo retirado da documentação do NanoMethViz:
# create a temporary file to store the converted data
methy_tabix <- file.path(tempdir(), "methy_data.bgz")
samples <- c("sample1", "sample2")
# you should see messages when running this yourself
create_tabix_file(methy_calls, methy_tabix, samples)
# you don't need to do this with real data
# we have to use gzfile to tell R that we have a gzip compressed file
methy_data <- read.table(
gzfile(methy_tabix), col.names = methy_col_names(), nrows = 6)
methy_data
Talvez aqui seria importante considerar implementar o parâmetro --region
para as samples de sangue atuais dos humanos durante o modkit extract full
, conforme indicado na documentação. Isso por que seria possível extrair apenas os dados para o genoma mitocondrial (chrMT) o que reduziria imensamente o tamanho dos .tsv
, visto que o genoma mitocondrial tem apenas ~16,5KB enquanto o genoma humano inteiro possui ~3GB.