Icons used in this figure were taken from online sources*
Welcome to AgeMeta, a meta-analysis-derived database of mammalian transcriptomic signatures of aging!
AgeMeta provides a systemic and quantitative description to the process of aging in mammals at the level of gene expression. The database contains transcriptomic patterns reflecting the general trends of gene expression change with aging in various tissues of humans, mice and rats, obtained by the meta-analysis of 122 publicly available gene expression datasets from 26 studies. AgeMeta provides an intuitive visual interface for the quantitative aspect of aging-associated transcriptomics at the level of individual genes and functional groups of genes, allowing easy comparison between different species and tissues. In addition, all of the data can be downloaded and analyzed independently. Overall, our project sheds light on the complex network of biological processes underlying mammalian aging and paves the way towards its complete understanding by the scientific community.
Our database is based upon 7 transcriptomic signatures of aging, 6 of which are specific to individual tissues or species, while the last one ("Global") provides an aggregated aging trajectory across all analyzed tissues and species. A summary table for all of the aforementioned signatures can be found below.
The database contains only the mouse genes or genes that have orthologs in mice (17,719 genes in total). The global signature is composed of data from humans, rats and mice, and comprises the following tissues: adipose tissue (some datasets are specifically from brown adipose tissue (BAT), mesenteric adipose tissue (MAT), gonadal adipose tissue (GAT) and subcutaneous adipose tissue (SCAT)), adrenal gland, blood vessel, bone and bone marrow, brain (some datasets are specifically from olfactory bulbs (OB), cerebellum and frontal cortex), esophagus, heart, kidney, liver, lung, muscle, nerve, pancreas, pituitary, prostate, salivary gland, skin, small intestine, spleen, testis, thyroid and whole blood (some datasets are specifically from white blood cells (WBC)). Each species signature contains a subset of these tissues.
For a detailed explanation of how to understand and work with the contents of the database, please proceed to the "Manual" page.
*The icon sources used for the figure are bioicons.com , smart.servier.com and svgrepo.com .
Данное изображение было создано с использованием онлайн ресурсов*
Добро пожаловать в базу данных транскриптомных паттернов старения млекопитающих AgeMeta!
AgeMeta представляет собой системное и количественное описание процесса старения у млекопитающих на уровне экспрессии генов. База данных содержит транскриптомные паттерны, отражающие общие тенденции изменения экспрессии генов с возрастом в различных тканях человека, мышей и крыс, полученные в результате метаанализа 122 общедоступных наборов данных по экспрессии генов из 26 исследований. AgeMeta предоставляет пользователю интуитивно понятный визуальный интерфейс для количественного аспекта связанной со старением транскриптомики на уровне отдельных генов и функциональных групп генов, что позволяет легко сравнивать различные виды и ткани. Кроме того, все данные можно скачать и анализировать независимо. В целом, наш проект проливает свет на сложную сеть биологических процессов, лежащих в основе старения млекопитающих, и является шагом на пути к ее полному пониманию научным сообществом.
Наша база данных основана на 7 транскриптомных сигнатурах старения, 6 из которых специфичны для отдельных тканей или видов, а последняя ("Глобальная") показывает агрегированную траекторию старения для всех проанализированных тканей и видов. Сводную таблицу для всех вышеупомянутых сигнатур можно найти ниже.
База данных содержит только гены мышей или гены, которые имеют ортологи в мышином геноме (всего 17 719 генов). Глобальная сигнатура состоит из данных по человеку, мыши и крысе, и включает в себя следующие ткани: жировая ткань (некоторые наборы данных взяты исключительно из бурой жировой ткани, брыжеечной жировой ткани, гонадной жировой ткани и подкожно-жировой клетчатки), надпочечник, кровеносные сосуды, кость и костный мозг, головной мозг (некоторые наборы данных взяты исключительно из обонятельных луковиц, мозжечка и лобной коры), пищевод, сердце, почки, печень, легкие, мышцы, нервы, поджелудочная железа, гипофиз, предстательная железа, слюнная железа, кожа, тонкая кишка, селезенка, семенник, щитовидная железа и кровь (некоторые наборы данных взяты исключительно из белых кровяных телец). Сигнатура каждого биологического вида содержит в себе подмножество этих тканей.
Для подробного объяснения того, как работать с содержимым базы данных, перейдите на страницу "Руководство".
*Использованные источники векторных изображений: bioicons.com , smart.servier.com и svgrepo.com .
To download the table with the quantitative differential expression data, click the button below:
Download gene expression dataTo download the table with the quantitative functional enrichment data, click the button below:
Download functional enrichment dataBoth tables are tab-separated and contain the differential expression data and the functional enrichment data, respectively, of all 7 signatures. From each signature there are three columns in gene expression data (logFC, p-value and adjusted p-value) and two columns in functional enrichment data (NES and adjusted p-value); the other columns are only present to make gene (or functional group) filtering easier. The complete breakdown of what each column means can be found in the Manual section.
To download dataset annotation table containing a list of all datasets used for the aging signatures (also tab-separated), click the button below:
Download dataset annotationThese data can be used freely for educational and research purposes, provided that the following publications are cited:
Скачать таблицу с количественными данными дифференциальной экспрессии генов:
Скачать данные экспрессии геновСкачать таблицу с количественными данными функционального обогащения:
Скачать данные функционального обогащенияОбе таблицы разделены табуляцией и содержат данные дифференциальной экспрессии генов и функционального обогашения, соответственно, для всех 7 сигнатур старения. От каждой сигнатуры есть три столбца в данных экспрессии генов (logFC, p-value и adjusted p-value (p-value с поправкой на множественное тестирование)) и два столбца в данных функционального обогашения (NES и adjusted p-value); остальные столбцы присутствуют только для облегчения фильтрации генов (функциональных групп генов). Полное объяснение значений каждого столбца можно найти в разделе "Руководство".
Скачать таблицу с аннотацией всех данных, использованных для получения сигнатур старения (таблица разделена табуляцией):
Скачать аннотацию наборов данныхДанные могут быть использованы свободно в образовательных и научных целях при условии, что будут процитированы следующие работы:
This website contains a graphical interface for 7 signatures of aging. Each signature represents a general pattern of age-related gene expression changes in the corresponding datasets. The datasets chosen for the signatures of species included different tissues and sexes of the same species. The tissue signatures represent the gene expression changes that are common across species but specific for the tissues. As for the global signature, it has been built on all of the data, including all 3 species (human, mouse, rat) and all tissues (brain, liver, muscle, lung, heart, etc.), which is 122 datasets (where one dataset contains information about the age-related differential expression of genes for a specific tissue of a specific species with a specific sex).
One can search for a particular gene within a signature in the corresponding signature tab. For each gene, there are two identifiers: Entrez ID and GeneSymbol (both correspond to mouse genes or mouse orthologs in all of the signatures). The logFC column represents how much the expression of a given gene increases (positive values) or decreases (negative values) with age. The values in this column are not just average logFCs accross the datasets of a signature, but rather the output of a mixed-effect model, which produces an average weighted by standard errors and takes into account possible batch effects (same study, same tissue, etc.). It is important to understand that each individual logFC value in a signature is of little use because the data was normalized and the timescale was distorted as a result. These values can only be compared with each other. The table also includes columns that display statistical significance of the logFCs (adjusted pvalue corresponds to BH adjustment).
Comparative signature interface can be found in the "Signature comparison" tab. Its main purpose is to show what genes are differentially expressed with age and how conservative the change of each gene is across signatures. The first columns that the user sees represent the differential expression of genes in the chosen signature (first selection menu at the left of the page). A gene's Entrez ID (clickable, is a link to NCBI for a specific gene), gene symbol (both Entrez ID and gene symbol are for mouse orthologs in all signatures), quantitative differential expression metric (logFC), it's significance before and after BH adjustment (pvalue and adjusted_pvalue) is what can be found for each gene in a selected signature.
One can filter out all the genes having less significance in the chosen signature than a threshold with the "threshold for adjusted pvalue" input. By default, all genes from the signature are shown. The presence filter is handy for filtering out the genes which are not present in a lot of signatures.
Now for the comparative part of the table. The green arrows represent that the gene is upregulated with age, and red arrows represent the downregulation of the gene. The numbers next to the arrows are the corresponding logFCs rounded to 2 decimal places (so 0 can actually be a very small up- or downregulation). Here, some cells are highlighted with green or red background. These cells correspond to a gene having a statistically significant up- or downregulation, respectively, in the corresponding signature. The user can specify two thresholds for adjusted p-value: the soft one for genes with moderate significance (default is 0.05) and the hard one for genes with high significance (default is 0.001). The genes that are more significant than the soft threshold will have lightly colored background, and those which are more significant than the hard threshold will have a brighter colored background. The genes can be filtered so that they satisfy the soft threshold in at least N signatures with a slider. One can also filter genes upregulated or downregulated in a set of signatures (selection menus at the bottom-left). These selection menus do not take into account significance, they only filter by logFC values. If several signatures are selected in them, only the intersection is displayed (genes satisfying all of the conditions).
Each cell in the right ("comparative") part of the table is clickable and will direct the user to the mixed effects model plot of the corresponding gene (table row) in the corresponding signature (table column). One can find more information on such plots in the "Gene plots" tab of the manual.
The "Gene plot" tab contains plots of mixed-effects models for genes within signatures. The horizontal red line on the plot is the mixed-effects model mean logFC for the chosen gene in the chosen signature (the number displayed in the signature comparison table). Each point of the scatter plot represents mean logFC from a specific dataset from the signature in which the gene was present, with error bars showing the standard error for this dataset. The gene and signature for the plot can be chosen manually in the menus at the left of the table, or they will be set automatically when the user clicks on a cell in the right part of the signature comparison table. On hover, dataset information and exact logFC values are displayed for each point on the plot.
The "Color by:" and "Shape by:" options allow the user to tailor the plot to their needs. The default setting is to color by tissue and shape by species.
Clicking on any point on the mixed-effects model plot will trigger the appearance of a dataset plot (at the bottom of the page). The dataset plot shows how the expression of the chosen gene changes across samples with different age in the dataset the clicked point corresponds to. By looking at this plot one can see where the logFC value and its standard error come from. The slope of the regression line corresponds to the logFC value, whereas the standard error (signified by the confidence interval around the line) arises from points (i.e. samples, these may be individual mice, rats or humans) being far away from the regression line. Please make note that when there are a lot of points, the confidence interval is always relatively small. On some plots there are just two ages, and in this case the horizontal lines denote the means (logFC arises from the difference of the means). On these plots the exact age of samples may not be available (e.g. they are denoted as "young" and "old").
In this section, the Gene Set Enrichment Analysis (GSEA) of the signatures of aging is shown. The table is equivalent to the signature comparison section, but instead of genes there are functional groups of genes coming from four databases: GO BP (biological process section of the gene ontology database), KEGG , Reactome and Biocarta . The quantitative metric of upregulation or downregulation with age here is NES (normalized enrichment score, see full explanation of its meaning here ). Positive NES means upregulation with age, and negative NES means downregulation with age. The metric of statistical significance is BH adjusted p-value. The filters at the left of the page are also equivalent to those in the signature comparison section (all significance filters are for adjusted p-value). Additionally, there is a filter for specific databases of functional terms ("Databases for functional terms").
In this table two sections are clickable. The first one is the first column with function names. Clicking on a name will leave a table containing only functions connected to the clicked one. A connection between functions, or functional groups of genes, is defined as one functional group of genes being a subset of the other. This feature is intended to make it easier to compare enrichment scores of bigger, or "maternal" functional groups, and smaller, or "daugther" functional groups, to the scores of the clicked function. When viewing the connected functions, all the filters from the left part of the page are retained. To exit the connection view mode, one must click the "Back to full table" button under the table. The second clickable section of the table is its right part. Clicking here will transfer the user to the functional enrichment plot of the corresponding function in the corresponding signature. This feature is designed to give an explanation for where the numbers in the table are coming from.
In this section, the user can view GSEA enrichment of functional groups of genes at the dataset level. Clicking the right section of the functional enrichment table will result in a plot for the clicked function (row of the table) in the clicked signature (column of the table). An example bar plot is displayed above. Green bars stand for statistically significant upregulation of a function with age in a particular dataset, red bars stand for statistically significant downregulation. Grey bars are not statistically significant based on the set threshold for adjusted p-value (can be changed in the left part of the page, default is 0.05). Dataset information can be found by hovering the mouse cursor over a bar in the plot. Only the datasets from the chosen signature will be displayed (signature and function can be changed in the left part of the page as well). The datasets with NA values are not displayed. The NES score in the functional enrichment table does not necessarily have to be the mean of NESes of the datasets, but the scores of the datasets can give a rough idea of what the signature NES should be.
This section contains 3 download buttons: the first one for the table with the gene expression data, the second one for the table with the functional enrichment data and the third one for the table with dataset annotation.
The first .csv file in the Downloads section contains one big table with all of the genes and differential expression data from all of the signatures (it's tab-separated). From each signature there are three columns: logFC, pvalue and adjusted_pvalue. These columns are the actual data, whereas the rest of the columns are all derived from it and their sole purpose is to make gene filtering easier. The presence columns represent in how many signatures the gene is present (so it's a value from 0 to 3 for presence_species and presence_tissues, a value from 1 to 7 for presence_all and a value from 0 to 1 for presence_global). If a gene is not present in a signature, it gets NAs in the corresponding 3 columns. The table also has columns containing geometric means of adjusted pvalues accross the signatures of species and the signatures of tissues.
The second .csv file is analogous to the first one, but it has to do with functional enrichment. Instead of gene IDs here there are names of functional groups of genes; the quantitative enrichment metric is NES, and the statistical significance metric is BH adjusted p-value. The filtering columns are also present, they filter by adjusted p-value.
The third file contains information such as the number of samples, the age range of samples, the full name of the RNA-Seq or microarray platform for every dataset used to construct the signatures of aging.
На данном сайте представлен графический интерфейс для 7 сигнатур старения. Каждая сигнатура отражает общие паттерны возрастных изменений экспрессии генов в соответствующих наборах данных. Наборы данных, выбранные для сигнатур видов, включали разные ткани и пол одного и того же вида. Сигнатуры тканей представляют собой изменения экспрессии генов, общие для разных видов, но специфичные для тканей. Что касается глобальной сигнатуры, она была построена на всех данных, включая все 3 вида (человек, мышь, крыса) и все ткани (мозг, печень, мышцы, легкие, сердце и пр.), что составило 122 набора данных (где один набор данных содержит информацию о возрастной дифференциальной экспрессии генов для конкретной ткани определенного вида с определенным полом).
Можно искать конкретный ген в сигнатуре на соответствующей вкладке сигнатуры. Для каждого гена существует два идентификатора: Entrez ID и GeneSymbol (оба соответствуют генам мыши или ортологам мыши во всех сигнатурах). Столбец logFC показывает, насколько экспрессия данного гена увеличивается (положительные значения) или уменьшается (отрицательные значения) с возрастом. Значения в этом столбце - это не просто средние logFC для наборов данных сигнатуры, а, скорее, результат модели со смешанными эффектами (англ. mixed-effect model), которая дает средневзвешенное значение по стандартным ошибкам и учитывает возможные эффекты партии (англ. batch effect)(то же исследование, та же ткань, так далее.). Важно понимать, что каждое отдельное значение logFC в сигнатуре несет мало пользы, потому что данные были нормализованы, и в результате была искажена шкала времени. Эти значения можно только сравнивать друг с другом. Таблица также включает столбцы, отображающие статистическую значимость logFC (adjusted p-value, или скорректированное p-value, соответствует поправке на множественное тестирование BH).
Интерфейс для сравнения сигнатур на уровне индивидуалных генов можно найти во вкладке "Сравнение сигнатур". Его основная цель - показать, какие гены дифференциально экспрессируются с возрастом и насколько консервативно изменение каждого гена по сигнатурам. Первые столбцы, которые видит пользователь, содержат информацию о дифференциальной экспрессии генов в выбранной сигнатуре (первое меню выбора слева на странице). Entrez ID гена (можно кликнуть, это ссылка на NCBI для конкретного гена), символ гена (и Entrez ID, и символ гена предназначены для ортологов мыши во всех сигнатурах), количественный показатель дифференциальной экспрессии (logFC), его значимость до и после поправки BH (pvalue и adjusted pvalue) представлены для каждого гена в выбранной сигнатуре.
Можно отфильтровать все гены, имеющие меньшую статистическую значимость в выбранной сигнатуре, чем порог, с вводом "порога для скорректированного pvalue". По умолчанию отображаются все гены из сигнатуры. Фильтр присутствия удобен для фильтрации генов, которых нет во многих сигнатурах.
Теперь о сравнительной части таблицы. Зеленые стрелки показывают, что экспрессия гена растет с возрастом, а красные стрелки означают возрастное снижение экспрессии гена. Цифры рядом со стрелками - это соответствующие logFC, округленные до 2 десятичных знаков (так что 0 на самом деле может быть очень маленьким положительным или отрицательным значением). Здесь некоторые ячейки выделены зеленым или красным фоном. Эти клетки соответствуют гену, имеющему статистически значимое увеличение или уменьшение экспрессии, соответственно, в соответствующей сигнатуре. Пользователь может указать два порога для adjusted p-value: мягкий для генов со средней значимостью (по умолчанию 0,05) и жесткий для генов с высокой значимостью (по умолчанию 0,001). Гены, которые более значимы, чем мягкий порог, будут иметь светлый фон, а те, которые более значимы, чем жесткий порог, будут иметь более яркий фон. Гены можно фильтровать так, чтобы они удовлетворяли мягкому порогу по крайней мере в N сигнатурах с помощью ползунка. Можно также фильтровать гены с возрастным увеличением или уменьшением экспрессии в наборе сигнатур (меню выбора в нижнем левом углу). Эти меню выбора не учитывают значимость, они фильтруют гены только по значениям logFC. Если в них выделено несколько сигнатур, отображается только пересечение (гены, удовлетворяющие всем условиям).
Каждая ячейка в правой (сравнительной) части таблицы является активной, и клик на нее направляет пользователя к графику модели смешанных эффектов соответствующего гена (строка таблицы) в соответствующей сигнатуре (столбец таблицы). Более подробную информацию о таких графиках можно найти во вкладке руководства "Графики для отдельных генов" .
Вкладка "Графики для отдельных генов" содержит график модели смешанных эффектов для генов в сигнатурах. Горизонтальная красная линия на графике показывает средневзвешенное значение logFC модели смешанных эффектов для выбранного гена в выбранной сигнатуре (число, отображаемое в таблице сравнения сигнатур). Каждая точка на графике показывает значение logFC из определенного набора данных, взятого для построения выбранной сигнатуры, с доверительным интервалом, показывающим одну стандартную ошибку для этого набора данных. Ген и сигнатуру для графика можно выбрать вручную в меню слева от таблицы, или они будут установлены автоматически, когда пользователь кликнет на ячейку в правой части таблицы сравнения сигнатур. При наведении указателя мыши информация о наборе данных и точные значения logFC отображаются для каждой точки на графике.
Параметры "Окраска:" и "Форма точек:" позволяют пользователю адаптировать график под свою задачу. По умолчанию используется окраска по тканям, а форма точек показывает биологический вид.
Клик по любой точке на графике модели смешанных эффектов вызовет появление графика для отдельного набора данных (внизу страницы). Данный график показывает, как изменяется экспрессия выбранного гена с возрастом в наборе данных, которому соответствует точка, на которую щелкнули мышью. Глядя на этот график, можно увидеть, откуда берутся значение logFC и его стандартная ошибка. Наклон линии регрессии соответствует значению logFC, тогда как стандартная ошибка (обозначенная доверительным интервалом вокруг линии) возникает из-за точек (т.е. образцов, это могут быть отдельные мыши, крысы или люди), находящихся далеко от линии регрессии. Обратите внимание, что при большом количестве точек доверительный интервал всегда относительно невелик. На некоторых графиках указано всего два возраста, и в этом случае горизонтальные линии обозначают средние значения (logFC возникает из разницы средних). На этих графиках точный возраст образцов может быть не указан (например, они могут быть обозначены как "молодые" и "старые").
В этом разделе показано функциональное обогащение (англ. Gene Set Enrichment Analysis, GSEA) сигнатур старения. Таблица эквивалентна разделу сравнения сигнатур, но вместо генов здесь представлены функциональные группы генов из четырех баз данных: GO BP (раздел "biological process" базы данных Gene Ontology), KEGG , Reactome и Biocarta . Количественным показателем усиления или подавления экспрессии с возрастом здесь является NES (нормализованная оценка обогащения, см. полное объяснение ее значения здесь ). Положительный NES означает усиление экспрессии с возрастом, а отрицательный NES означает подавление с возрастом. Показатель статистической значимости - BH adjusted p-value. Фильтры в левой части страницы также эквивалентны фильтрам в разделе сравнения сигнатур (все фильтры на статистическую значимость здесь применяются к adjusted p-value). В дополнение к ним здесь имеется фильтр баз данных для функциональных групп генов ("Базы данных функций генов").
Здесь можно кликнуть на две части таблицы. Первая из них - это первый столбец с названиями функций. Клик по названию возвращает таблицу, содержащую только функции, связанные с выбранной. Связь между функциями, или функциональными группами генов, присутствует, когда одна функциональная группа генов является подмножеством другой. Возможность подобной фильтрации предназначена для упрощения сравнения показателей обогащения более крупных, или "материнских", функциональных групп и меньших, или "дочерних", функциональных групп со значением функции, по которой щелкнули мышью. При просмотре материнских и дочерних функций все фильтры из левой части страницы сохраняются. Чтобы выйти из режима просмотра связанных функций, необходимо нажать кнопку "Вернуться к полной таблице" под таблицей. Второй раздел таблицы, на который можно кликнуть, - это ее правая часть. Щелчок мышью здесь переведет пользователя на график функционального обогащения соответствующей функции в соответствующей сигнатуре (вкладка "Графики для отдельных функций"). Эта возможность предназначена для объяснения того, откуда берутся значения NES в таблице.
В этом разделе пользователь может просмотреть обогащение GSEA для конкретной функциональной группы генов на уровне отдельных наборов данных. Клик по правой части таблицы функционального обогащения приведет к появлению графика для выбранной функции (строка таблицы) в сигнатуре, по которой кликнули (столбец таблицы). Пример столбчатой диаграммы показан выше. Зеленые столбцы обозначают статистически значимое повышение экспрессии с возрастом в конкретном наборе данных, красные столбцы обозначают статистически значимое понижение экспрессии. Серые полосы не являются статистически значимыми на основе установленного порога для скорректированного p-value (можно изменить в левой части страницы, по умолчанию 0,05). Информацию о наборе данных можно найти, наведя курсор мыши на столбец на графике. Будут отображаться только наборы данных из выбранной сигнатуры (сигнатуру и функцию также можно изменить в левой части страницы). Наборы данных со значениями NA не отображаются. Оценка NES в таблице функционального обогащения не обязательно должна быть средним значением NES соответствующих наборов данных, но оценки наборов данных могут дать приблизительное представление о том, какой должен быть NES в сигнатуре.
Этот раздел содержит 3 кнопки для скачивания: первая для таблицы с данными экспрессии генов, вторая для таблицы с данными функционального обогащения, а третья для таблицы с аннотацией всех использованных наборов данных.
Первый файл .csv в разделе "Скачать данные" содержит одну большую таблицу со всеми генами и данными дифференциальной экспрессии из всех сигнатур (они разделены табуляцией). Для каждой сигнатуры есть три столбца: logFC, pvalue и adjusted_pvalue. Эти столбцы представляют собой сами данные, тогда как остальные столбцы являются производными от них, и их единственная цель - упростить фильтрацию генов. Столбцы присутствия показывают, во скольких сигнатурах присутствует ген (таким образом, это значение от 0 до 3 для presence_species (виды) и presence_tissues (ткани), значение от 1 до 7 для presence_all (все сигнатуры) и значение от 0 до 1 для presence_global (глобальная сигнатура)). Если ген отсутствует в сигнатуре, он получает NA в соответствующих 3 столбцах с данными дифференциальной экспрессии. В таблице также есть столбцы, содержащие геометрические средние скорректированных p-value по сигнатурам видов и сигнатурам тканей.
Второй файл .csv аналогичен первому, но содержит данные по функциональному обогащению. Вместо идентификаторов генов здесь названия функциональных групп генов; количественная метрика обогащения - NES, и метрика статистической значимости - BH adjusted p-value. Столбцы фильтрации также присутствуют, они фильтруют по adjusted p-value.
Третий файл содержит информацию про каждый набор данных, который был использован для создания сигнатур старения: количество образцов, диапазон возрастов, полное название платформы секвенирования или микрочипа и пр.