Разрабатываемая система должна предоставлять возможность депонирования (размещения) авторами своих произведений различного вида. После процедуры рецензирования, в рамках которой отдельные пользователи проверяют произведение на соответствие минимальным требованиям системы, произведение попадает в общий доступ для пользователей системы. Данный функционал является основным для системы и позволяет осуществлять практически безбарьерную публикацию произведений, минуя посредников. Наличие систем рецензирования и рейтингования пользователей позволит создать саморегулирующуюся систему, в рамках которой лучшие произведения будут иметь лучшую видимость для читателей, а авторы таких произведений получат большее вознаграждение внутри системы. Новые произведения должны проходить автоматическую систему определения уникальности объекта и его частей, по крайней мере на основе произведений самой системы. Дополнительно должен быть предусмотрен механизм опционального подключения сторонних систем для проверки заимствований [1].
Целью исследования является анализ технологических подходов к процессу депонирования объектов авторского права.
Материалы и методы исследования: в процессе депонирования объектов используются технологии распределенного реестра.
Факты создания произведений, факты использования произведения (включение, ссылки) и факты изменения права собственности должны фиксироваться в распределённом реестре системы и (или) в стороннем распределённом реестре. Это позволит при необходимости проводить независимую проверку этих сведений.
Для эффективного доступа к произведениям и повышения надежности их хранения они должны храниться в децентрализованном (распределённом) виде в репозиториях участников проекта. Причем должно храниться не менее двух копий каждого произведения, а половина наиболее востребованных (по рейтингу) произведений должна храниться по крайней мере в трёх экземплярах.
В системе должен вестись учёт скачиваний (просмотров) произведений, их цитируемости и использования в составе других произведений.
Произведение, размещаемое в системе, должно пройти первоначальный минимальный этап проверки до того, как оно станет доступным всем читателям. Данная процедура включает следующие шаги.
1. Регистрация нового произведения автором. Данное действие включает: загрузку файлов, ввод базового метаописания, указание авторов и ссылок на включённые произведения (при наличии), прикрепление цифровой подписи автора (авторов). Произведение может быть создано коллективом авторов, поэтому следует реализовать методику указания всех авторов с долей их участия в работе, даже если авторы ещё не зарегистрированы в системе.
2. Автоматическая проверка корректности форматов и сведений. Проверяется корректность форматов метаданных и файлов, корректность заимствований и цитирований уже опубликованных в системе произведений. При несоблюдении подобных формальных правил произведение не принимается системой и на следующий этап не проходит.
3. Экспертиза (рецензирование) нового произведения рецензентами. Пользователи, желающие выступить рецензентами, могут разместить рецензию на произведение, которое дошло до этапа рецензирования. Рецензия включает текстовое сообщение и отметку отношения (положительно или отрицательно), которая означает мнение о возможности опубликования произведения в системе. Чтобы избежать рецензирования произведений автора одними и теми же рецензентами с целью фальсификации результатов, должен быть реализован механизм случайного выбора пула рецензентов для нового произведения.
4. Принятие или отклонение произведения рецензентами. Решение принимается автоматически при достижении определённого соотношения количества положительных и отрицательных голосов. Количество необходимых голосов рецензентов зависит от рейтинга автора, а также может зависеть от рейтинга рецензентов.
5. Публикация произведения. Произведение становится доступным читателям сразу после положительного решения на предыдущем этапе и считается опубликованным. Для улучшения метаописаний произведения после опубликования имеют флаг наличия непроверенного метаописания, чтобы соответствующие пользователи системы могли осуществить проверку таких произведений.
Жизненный цикл опубликованных произведений
После прохождения начального этапа депонирования произведения, т.е. после его опубликования, над произведением могут выполняться следующие операции:
– просмотр произведения читателем;
– голосование за произведение (положительно или отрицательно);
– исключение произведения из публичного обращения автором;
– размещение комментария к произве- дению;
– размещение рецензии к произведению. Рецензия уже не влияет на статус опубликованности, но может учитываться при расчёте рейтингов и приниматься во внимание авторами;
– возврат произведения на этап рецензирования автором или пользователем с достаточными правами в системе (например, при обнаружении некорректного цитирования);
– корректура метаописания автором или другим пользователем (после проверки изменений автором или же без такой проверки, при достаточных правах пользователя);
– загрузка новой версии произведения автором. Данная операция позволит избежать создания новых произведений при регулярных относительно небольших правках и развитии одного произведения;
– создание нового произведения на основе исходного произведения автором или другим пользователем (например, кардинально новая версия произведения, перевод, включение в другие произведения в исходном или переработанном виде).
В перспективе возможно введение этапа редактуры, заказа дополнительного рецензирования и корректуры метаописания и проч. Система должна быть расширяемой и позволять вносить подобные доработки позднее. Пользователи, участвующие в процессе депонирования, должны получать уведомления через интерфейс системы и, по желанию, по электронной почте [2].
Требования к распределённому реестру
Для обеспечения возможности независимой проверки действий, относящихся к процессу депонирования и дальнейшему жизненному циклу произведений, а также для избегания возможности фальсификации таких транзакций, основные виды транзакций должны быть сохранены в распределённом реестре (блокчейн) системы [3; 4]. При реализации работы с реестром необходимо учитывать следующие требования:
– помимо операции регистрации произведения, рецензирования и проч., в реестр должны помещаться все иные транзакции, влияющие на изменение рейтинга и псевдоденежных единиц (коинов) пользователей;
– ключевые транзакции должны быть подписаны цифровой подписью участников транзакции перед помещением их в реестр;
– дополнительно некоторые виды транзакций могут дублироваться во внешних распределенных реестрах. Например, в платформе управления объектами интеллектуальной собственности IPCHIAN могут быть зафиксированы те транзакции, которая она поддерживает.
Обобщенная структура объекта интеллектуальной собственности и операций над объектами
Под депонированием будем понимать действие по загрузке ОИС в среду, при котором в реестр вносится информация об авторе и об ОИС, а автор получает подтверждение (цифровой сертификат) своих прав на ОИС.
При депонировании осуществляется:
– загрузка в систему хранения экземпляра ОИС в электронном виде;
– загрузка в систему хранения информация об ОИС, включая время и место его создания;
– загрузка в систему хранения сведений об авторе (-ах);
– запись в реестр информации о депонировании (транзакция создания ОИС).
Депонировать ОИС в системе означает задать:
– элементы описательной структуры объекта;
– реализацию ОИС (экземпляр);
– отношения объекта с другими объек- тами.
Обобщенная структура ОИС задается кортежем:
Structure(ОИС) = {N, А, С, D, E, F, N, U, R, V}, (1)
где N = <N1, N2> – денотат ОИС, где N1 – уникальное имя ОИС, N2 – уникальный идентификатор объекта;
A = <А1 … Аn> – множество аннотаций объекта (предметно ориентированных, в т.ч. мультиязычных). Аннотация является словесно выраженным интенсионалом описания ОИС. Интенсионал определяет ОИС через существенные признаки (внутренняя гетерогенность), а также возможные реализации и отношения с другими объектами (внешняя гетерогенность);
C = <С1 … Сn> – множество типов объекта;
D = <D1 … Dn> – множество специфических свойств объекта;
Е = <Е1 … Еn> – множество выходных данных;
F = <F1 … Fn> – множество физических характеристик;
N = <N1 … Nn> – множество примечаний;
U = <U1 … Un> – множество сведений об ответственности;
R = <R1 … Rn> – множество сведений о верификации (дополнительном гарантировании формы и содержания ОИС);
V = <V1 … Vn> – множество сведений о валоризации объекта.
ОИС, у которых отсутствуют прообразы (не являются результатом отношения/отображения), будем считать условно атомарными.
Множество ОИС формируют среду обращения. Среда обращения ОИС задается следующими множествами:
Environment(ОИС) = {O, R, I, Ae,
Ac, L, C, F, D}, (2)
где O – множество атомарных ОИС;
R – множество n-арных (n-местных) отношений между объектами, а также между характеристиками объектов (в форме RDF-триплетов);
I – множество интерпретаций, заданных на описательных характеристиках объекта ОИС и/или отношений между различными ОИС;
Ae – множество атрибутов экземпляра ОИС;
Ac – множество атрибутов класса;
L – множество логических аксиом;
C – множество констант;
F – множество формул (включая функции принадлежности);
D – множество производных ОИС (в т.ч. производным в самого себя).
Множества отношений R, интерпретаций I являются расширяемыми с учетом специфики предметных областей научно-образовательной и инновационной сфер, в которых возникают и обращаются ОИС. Обобщенная структура ОИС также является расширяемой.
Тогда один оборот объекта задается:
Round(i) = Realisation (Structure(ОИС)) Х Х Eх(Environment(ОИС)), (3)
где Realisation (Structure(ОИС)) – реализация i-го ОИС с заданной структурой;
Eх(Environment(ОИС)) – подмножество Environment(ОИС), задающее реализацию процедуры оборота ОИС.
Результатом оборота является порождение нового ОИС или обновление характеристик существующего ОИС. Описанная структура ОИС будет лежать в основе модернизации работы со знаниями в цифровой среде и процессов депонирования ОИС [5].
Работа со знаниями в цифровой среде
Ключевой задачей проекта является обеспечение процесса депонирования объектов интеллектуальной собственности, включая их регистрацию и идентификацию с обязательным учётом правового статуса и условий доступа к ним. Сбор правовой информации и внесение информации в реестр должны производиться таким образом, чтобы максимально облегчить депонирование объектов интеллектуальной собственности, являющихся составной частью либо результатом интеллектуальной деятельности в репозиториях.
Обработка знаний базируется на метаданных, описывающих способы преобразования, вспомогательные закономерности, форматы ввода и хранения информации: «классический процесс обработки данных подразумевает, что вся логика работы фиксирована на уровне алгоритмов, и для ее изменения необходимо модифицировать исходный код программы. В такой схеме метаинформация отсутствует, однако всегда есть понятие формата данных, который играет ту же самую роль и дает исчерпывающее описание структуры обрабатываемой информации. Постановка задачи всегда включает в себя форматы входных и выходных данных» [6].
При обработке знаний метаданные хранятся отдельно от исходного кода и имеют свой формат представления. Соответственно, чем более гибкими оказываются возможности представления метаданных, тем сложнее их задание и тем меньше логики приходится реализовывать на уровне программы [6].
Мы можем сделать следующие выводы: существующие множества подходов к представлению информации могут быть более или менее гибкими, но используется на практике обычно комбинация разных подходов исходя из тех задач, которые необходимо решить. Более того, алгоритмы работы программного обеспечения нуждаются в корректировке или изменении в процессе использования.
Поскольку наращивание экспортного потенциала российской научной индустрии и международное признание российской науки являются важными задачами с точки зрения государственной политики, система и форматы ввода знаний, объектов и произведений должны быть разработаны на основе международных стандартов и лучших из доступных технологий в этой области. Минимальный необходимый набор метаданных:
[
{
"hash":{"none":["hash_сумма_загружаемого_объекта"]},
"identifier":{"название_банка_знаний":["id_объекта_в_репозитории"], "url":["ссылка_на_документ"]},
"title":{"none":["название_объекта"]},
"creator":{"none":["автор_объекта"]},
"subject":{"none":["тематика_объекта"]},
"description":{"none":["описание_или_аннотация_к_объекту"]},
"date":{"none":["дата_и_время_публикации_объекта_в_репозитории"],
"updated":["дата_и_время_последнего_обновления_объекта"]},
"type":{"none":["тип_объекта"]},
"format":{"none":["формат_объекта"]},
"source":{"none":["общая_ссылка_на_сайт_репозитория"]},
"language":{"none":["язык_объекта"]},
"rights":{"none":["текущий_правовой_статус_использования"]},
"rightsholder":{"none":["правообладатель_объекта"]}
}]
Наиболее используемые международные системы идентификации описаны в исследовании «Современные инструменты регистрации и идентификации в сети Интернет произведений в сфере науки, культуры и образования» [7]. Помимо общеизвестных международных идентификаторов, стоит обратить внимание на RAI (Russian Archive Identifier) – российский архивный идентификатор, введён для идентификации объектов в Федеральной резервной системе банков знания. В настоящее время выдаётся системой идентификации, используемой в реестре «Ноосфера» (noosphere.ru), который был создан Ассоциацией интернет-издателей в рамках проекта «Ноосфера.Запуск». Созданием реестра по заказу АИИ выступал консорциум НЭИКОН. Также основан на архитектуре DOA (Digital Object Architecture). Регистрация производится бесплатно. Этот идентификатор используется банками знаний, которые входят в ФРС.
Необходимость введения подобного идентификационного номера раскрыта в исследовании АИИ: «Cуть DOI предполагает идентификацию уже размещенного в сети результата интеллектуального труда, а также его описание с помощью метаданных. Работа с оцифрованным вариантом имеет свою специфику. Субъект способен получить доступ к метаданным оцифрованного варианта объекта, при помощи которых он может найти в реальном мире сам объект. Подобного рода стандарты идентификации позволяют не только свободно ориентироваться в многообразии интеллектуальных объектов, но и предотвращать споры, связанные с установлением авторства относительно каждого объекта. Идентификация оцифрованной версии предполагает указание на идентификационные данные результата умственного труда вне информационно-технологического пространства» [7].
Идентификаторы, построенные на технологии DOA (например, DOI или RAI), являются универсальными средствами идентификации предметов интеллектуального труда: «из-за того что при помощи такого идентификатора можно скомпилировать ссылку как на отдельную книгу или главу в ней, так и на целую серию, он используется в международных базах статей, например Web of Science или Scopus. Наиболее популярен этот стандарт идентификации среди англоязычных ученых для обмена информацией. Этот идентификатор также удобен и для электронных научных изданий нового типа с открытым рецензированием, в которых он позволяет фиксировать публикацию и отслеживать цитируемость с помощью уже используемых инструментов и распространённых в мире информационных систем» [7-10].
Функционирование системы депонирования
Схема функционирования системы депонирования представляется следующим образом:
– объект научной информации (контент) попадает в депозиторий;
– регистрация объекта;
– направление описания объекта в реестр,
– данные об объекте сохраняют ссылки как на депозиторий, в котором хранится контент, так и на другие депозитории, где хранятся его резервные копии.
Для идентификации объектов в системе может быть использован общепринятый в научной среде идентификатор DOI или российский идентификатор, также построенный на стандартной международной технологии DOA, – Russian Archive Identifier (RAI), оператором которого являются Ассоциация интернет-издателей и НП «НЭИКОН». Эта технология в полной мере отвечает описанным выше требованиям, предъявляемым к системе распределенного хранения:
– непрерывная динамическая идентификация, устойчивая к смене внешних атрибутов объектов (контента);
– твердая референция по отношению к агентам предметной деятельности, основанная на внутренних атрибутах объектов (месте, владельце, прочих атрибутах, которые не могут измениться без изменения референциального тождества);
– практически неограниченный потенциал гипертекстуальности – повышения связности цифровых объектов друг с другом;
– применимость для локализации как объектов материального мира в физическом пространстве, так и для локализации цифровых объектов в пространстве глобальной сети;
– независимость как от онтологического типа объекта (материальный, цифровой), так и его содержательного типа (текст, аудио, видео и т.п.) объекта;
– практически неограниченный потенциал нумерации;
– уникальность идентификаторов в пределах системы;
– способна отображаться на естественных языках;
– гибкость;
– масштабируемость;
– открытая архитектура [7].
При изменении метаданных или самого произведения сведения о правках отправляются в реестр, а сама система обеспечивает версионность метаданных и хранящихся объектов. Обмен данными в системе осуществляется в режиме реального времени.
Система позволяет автору создать личный кабинет и указать, после верификации цифровой идентичности, свое авторство в метаданных произведения, отредактировать информацию о себе, при необходимости – инициировать процесс оспаривания прав на объект (процедуру медиации), изменить правовой статус объекта или принять участие в корректировке информации в реестре. Для реализации этих функций используется система статусов пользователей, а также механизмы верификации личности. В системе распределенного хранения научной информации следует учитывать использование в научном мире различных видов идентификаторов – ISNI, ORCID, ResearcherID (Publons), ResearcherID, Scopus Author ID, – которые следует использовать для создания удобных механизмов работы с объектами в системе. Система идентификации авторов создаст основу для формирования метрики внутри системы, их дополнительной мотивации и обеспечения связи с вторичными пользователями объектов, а также с другими дополнительными сервисами.
К системе должны быть подключены другие депозитарии, банки знаний и хранилища научного контента, обслуживаемые научными и образовательными организациями.
Далее рассмотрим техническую структуру системы. Система распределенного хранения объектов научной информации может быть построена как система сбора данных от неограниченного количества поставщиков в различных форматах и распределенного хранения этих данных в целях регистрации авторских прав на данные и предоставления к ним доступа. Как таковая она должна состоять из следующих элементов:
– поставщик данных – репозиторий (организация или частное лицо), с которым налажен процесс передачи информации (конвертирования, формально-логического контроля и загрузки) от поставщика в систему;
– загрузчик – программное обеспечение для регулярного опроса серверов поставщиков данных, выгрузки оттуда данных, конвертирования, проведения формально-логического контроля их, распределения по репозиториям и записи метаданных в распределенный реестр;
– распределенное хранилище (электронный банк знаний) – программно-аппаратный комплекс, который размещается у хранителей данных, подключается по Интернету к системе и предназначается для хранения части данных системы;
– хранитель данных – организация, выделившая в своей ИТ-инфраструктуре вычислительные мощности для размещения части распределенного хранилища системы.
– распределенный реестр, хранящий загружаемые метаданные от поставщиков, и предоставляющий посредством API эти данные в пользовательский интерфейс. API для получения данных – реализуемый на стороне поставщика данных интерфейс для получения данных в системе. Это может быть JSON-API, у которого есть взаимно однозначное соответствие полей в JSON-объекте полям по стандарту Dublin Core. Распределенный реестр должен обеспечивать возможность поиска, добавления, обновления, версионности данных, связь с распределенным хранилищем;
– пользовательский интерфейс – web-интерфейс распределенного хранилища, посредством которого посетитель системы может провести поиск, прочитать хранящийся документ, создать личный кабинет читателя, создать личный кабинет автора, предложить изменения к метаданным, сообщить о своем авторстве данных, хранящихся в системе, и запросить справку об авторстве;
– регистратор RAI/DOI – система идентификации и регистрации объектов или произведений, основанная на программном обеспечении, с помощью которого всем объектам интеллектуальной собственности, поступающим в систему, выдается уникальный номер. Этот номер используется как идентификатор данных.
Система должна иметь следующую структуру:
загрузчики; импортер JSON; загрузчик в распределенное хранилище; хранилище данных; индексатор данных; подсистема полнотекстового поиска в данных; подсистема API на чтение; подсистема API на обновление и изменение данных; генератор идентификаторов и hash-сумм; база данных системы идентификации; подсистема редактирования схемы метаданных; подсистема на запись и проверку распределенного реестра; пользовательский интерфейс; сервер представления данных; подсистема взаимодействия с API хранилища и распределенным реестром; подсистема авторизации; подсистема редактирования элементов; подсистема модерации запросов.
При создании системы должен быть реализован следующий алгоритм передачи объекта от поставщика данных в хранилище:
поставщик реализует на своей стороне API; адрес поставщика добавляется в настройки загрузчика данных; при загрузке автоматически присваивается идентификатор объекта; данные закачиваются в хранилище, метаданные – в распределенный реестр; после загрузки данные становятся доступны через API.
Работа с метаданными. Одним из наиболее распространенных форматов описания метаданных является Dublin Core, который также достаточен (с определенными дополнениями) для описания объектов интеллектуальной собственности в соответствии с задачами депонирования. Минимальный рекомендуемый набор метаданных должен включать следующие атрибуты:
– Title – название;
– Creator – создатель;
– Subject – тема;
– Description – описание;
– Publisher – издатель;
– Contributor – внёсший вклад;
– Date – дата;
– Type – тип;
– Format – формат документа;
– Identifier – идентификатор;
– Source – источник;
– Language – язык;
– Relation – отношения;
– Coverage – покрытие;
– Rights – авторские права;
– Audience – аудитория;
– Provenance – происхождение;
– RightsHolder – правообладатель.
Дополнительные атрибуты метаданных:
– дополнительная информация об авторах;
– идентификатор ОИС;
– ссылка на репозиторий.
Наиболее важными в контексте решаемых задач являются поля «Авторские права» и «Правообладатель».
Поле «Авторские права» должно содержать следующие подполя:
– наименование;
– правовой статус/тип лицензии;
– тип прав;
– территория, на которую распространяются права;
– период действия прав.
Поле «Правообладатель» может быть как самостоятельным атрибутом, так и подполем поля «Авторские права». Рекомендуемые подполя:
– наименование;
– тип правообладателя;
– идентификатор;
– доля;
– основания для владения.
Таким образом, можно охарактеризовать политику функционирования системы депонирования объектов научной информации следующим образом [11; 12]:
– депонирование объектов в любых форматах исходных данных, при этом предусматривается проверка на соответствие отраслевым стандартам (например, текстовые файлы в формате EPUB можно проверять стандартной программой epubcheck на соответствие требованиям формата);
– одновременно с объектами система хранения должна требовать обязательного формирования метаданных, необходимых для однозначной идентификации цифрового объекта с точки зрения его целостности (hash-сумма файла), а также с точки зрения его учёта и использования в научной коммуникации (идентификация с использованием DOI/DOA);
– поскольку научное исследование часто носит продолженный характер, система должна учитывать версионность объектов, сохраняя данные о «привязке» новой версии к предыдущим;
– для нужд идентификации автора необходима привязка объекта к цифровой идентичности его автора (-ов), для которого могут использоваться существующие системы верификации личности, а также системы идентификации, принятые в научной среде (например, ORCID, ISNI, ResearcherID и пр.);
– внутренняя машиночитаемая адресация (в настоящее время практически не поддерживается цифровыми форматами), однако будущая практическая реализация Web Annotation Data Model может стать основой для включения механизма такой адресации. В случае автоматического добавления такого адреса к принятым в среде научных публикаций форматам библиографического описания это позволит вести учёт такого цитирования при размещении в системе других объектов научной информации;
– помимо информации об авторстве, система должна фиксировать, хранить и изменять информацию об условиях использования и реальном использовании объектов, хранящихся в системе. Каждое изменение метаданных (фактически – лог использования файла) может дополнительно храниться в открытом пополняемом реестре с децентрализованным контролем подлинности записей (блокчейне) [13; 14];
– поощрение пользователей системой необходимо использовать для публикации файлов в форматах, которые предполагают внутреннюю адресацию, то есть семейство форматов XML;
– поощрение пользователей публиковать материалы под свободными лицензиями.
Работа поддержана Министерством науки и высшего образования Российской Федерации (код темы исследования № ФСРЗ-2020-0011).