Data analysis report \ Звіт аналізу даних

An important part of “RO-UA Genomes” project is data analysis. This page is designated to report and track progress on the tasks and milestones completed.

Важливою частиною проекту «RO-UA Genomes» є аналіз даних. Ця сторінка призначена для звітування та відстеження прогресу виконання завдань та виконаних етапів.

Server procurement / Закупівля Серверу

A part of “RO-UA Genomes” project lies in infrastructure development in order to support genomic science in the Region. As a result, a server covering computational and data hosting tasks was procured.

Частиною проекту “RO-UA Genomes” є розвиток інфраструктури для підтримки геномної науки в регіоні. В результаті було закуплено сервер, який охоплює обчислювальні задачі та задачі розміщення даних.

General Progress report

This section reports on data analysis steps progress for samples collected in Ukraine and Romania.

У цьому розділі повідомляється про кроки аналізу даних для зразків, зібраних в Україні та Румунії.

Genomic analysis pipeline \ Послідовність аналізу геномних даних

In order to automate genome analysis and provide training in the workshops, we have adapted modern open-source analysis instruments and have developed an open-source analysis pipeline to streamline the analysis. The pipeline was successfully used to analyze 150 Ukrainian samples, and will be executed for merged 150 Ukrainian and 150 Romanian samples(300 total) as they become available.

Щоб автоматизувати аналіз геномів та забезпечити навчання на семінарах, ми адаптували сучасні інструменти аналізу з відкритим кодом і розробили пайплайн для оптимізації аналізу. Пайплайн був успішно використаний для аналізу 150 українських зразків, і буде виконано для об’єднаних 150 українських та 150 румунських зразків(300 разом) в майбутньому.

The pipeline employs the following analysis instruments using GrCH38 human genome reference/ Пайплайн застосовує наступні пакети аналізу використовуючи референтний геном людини GrCH38

– Trimmomatic
Burrow-Wheelers Aligner
Samtools
Picard
GATK
FastQC
MultiQC
Variant Effect Predictor
SnpEff

The last version of the pipeline is free to download and is published at link below.
Останню версія пайплайну можна безкоштовно завантажити за опублікованим посиланнями нижче.

https://github.com/ROUA-WWolfsberger/dna-seq-gatk-variant-calling

 

 

Population analysis toolkit \ Інструменти популяційного аналізу

In order to facilitate population genomics analysis of the populations of Ukraine and Romania we develop a software instrument to provide non-specialists with the results of genomics test on the population scale.

Щоб полегшити популяційно-геномний аналіз популяцій України та Румунії та забезпечити навчання на семінарах, ми розробили програмний інструмент для надання неспеціалістам результатів геномного тесту в популяційному масштабі.

The instrument employs the following analyses / Додаток впроваджує наступні тести\аналіз даних

1) Identification of novel, previously non reported alleles, utilizing version 3 of The Genome Aggregation Database (GnomAD – https://gnomad.broadinstitute.org/)
Ідентифікація нових алелей, про які раніше не повідомлялося, з використанням версії 3 бази даних агрегації геному
2) Identification and filtering of common medically relevant alleles for the population
Ідентифікація та фільтрація загальних медичних алелей для популяції
3) Organizing existing published populations for comparative analysis(Currently supports The International Genome Sample Resource, Human Genome Diversity Project, Simons Genome Diversity Project -https://www.internationalgenome.org/home)
Організація існуючих опублікованих популяцій для порівняльного аналізу
4) Phasing the datasets to obtain data ready for all the future analyses
Фейзинг даних для отримання даних, готових для всіх майбутніх досліджень
5) Principal Component Analysis and vizualization of selected populations
Аналіз основних компонентів і візуалізація вибраних популяцій
6) ADMIXTURE analysis and vizualization of investigated datasets
ADMIXTURE аналіз і візуалізація досліджуваних наборів даних
7) Comparative frequency analysis to identify Alleles unique to the population
Порівняльний частотний аналіз для ідентифікації алелів, унікальних для популяції

The last version of the data analysis toolkit is free to download and is published at link below.
Останню версія інструментарію популяційного аналізу можна безкоштовно завантажити за опублікованим посиланнями нижче.

https://github.com/ROUA-WWolfsberger/RO_UA_genomes_toolkit