This site uses cookies.
Some of these cookies are essential to the operation of the site,
while others help to improve your experience by providing insights into how the site is being used.
For more information, please see the ProZ.com privacy policy.
This person has a SecurePRO™ card. Because this person is not a ProZ.com Plus subscriber, to view his or her SecurePRO™ card you must be a ProZ.com Business member or Plus subscriber.
Affiliations
This person is not affiliated with any business or Blue Board record at ProZ.com.
ABSTRACT
MinHash and HyperLogLog are sketching algorithms that have
become indispensable for set summaries in big data applications.
While HyperLogLog allows counting different elements with very
little space, MinHash is suitable for the fast comparison of sets as it
allows estimating the Jaccard similarity and other joint quantities.
This work presents a new data structure called SetSketch that is
able to continuously fill the gap between both use cases. Its com-
mutative and idempotent insert operation and its mergeable state
make it suitable for distributed environments. Robust and easy-to-
implement estimators for cardinality and joint quantities, as well
as the ability to use SetSketch for similarity search, enable versatile
applications. The developed methods can also be used for Hyper-
LogLog sketches and allow estimation of joint quantities such as
the intersection size with a smaller error compared to the common
estimation approach based on the inclusion-exclusion principle.
1 INTRODUCTION
Data sketches [16] that are able to represent sets of arbitrary size
using only a small, fixed amount of memory have become important
and widely used tools in big data applications. Although individual
elements can no longer be accessed after insertion, they are still
able to give approximate answers when querying the cardinality or
joint quantities which may include the intersection size, union size,
size of set differences, inclusion coefficients, or similarity measures
like the Jaccard and the cosine similarity.
Numerous such algorithms with different characteristics have
been developed and published over the last two decades. A per-
haps obvious requirement for set data structures, although not
supported by many, is idempotency. Multiple insertions of the same
value should not change the state further. It is also desirable that the
insert operation is commutative, so that different processing orders
yield the same result. For large-scale applications with distributed
data streams, mergeability is another essential property which al-
lows combining data sketches resulting from partial data streams to
get an overall result. In particular, this means that the data structure
must support the union set operation. Minwise hashing (MinHash)
[6] and HyperLogLog (HLL) [29] support idempotency, commuta-
tivity, and mergeability, which is probably one of the reasons why
they belong to the most popular sketching algorithms for sets.
1.1 MinHash
MinHash was originally developed for the deduplication of web doc-
uments [6]. It maps a set S to anm-dimensional vector (K1, . . . , Km)
using
Ki
:= min
d ∈S
hi(d).
Here hi are independent hash functions. The probability, that com-
ponents KAi and KBi of two different MinHash sketches for sets A
and B match, equals the Jaccard similarity J
P (KAi = KBi) =
|A ∩ B|
|A ∪ B|
= J .
This property makes MinHash very suitable for set comparisons,
because the Jaccard similarity can be directly and quickly esti-
mated from the fraction of equal components. This is very useful
for similarity search and together with indexing techniques like
locality-sensitive hashing (LSH) [2, 34, 42, 71] sublinear nearest
neighbor search can be realized. MinHash also allows the estima-
tion of cardinalities [12, 13] and intersection sizes [15].
Meanwhile, many improvements and variants have been pub-
lished that either improve the update speed or the memory effi-
ciency. One permutation hashing (OPH) [39] reduces the costs for
adding a new element from O (m) to O (1). However, there is a high
probability of uninitialized components for small sets leading to
large estimation errors. This can be remedied by applying a finaliza-
tion step called densification [43, 61, 62] which may be expensive
for small sets [27] and prevents further aggregations. Alternatively,
fast similarity sketching [17], SuperMinHash [25], or weighted min-
wise hashing algorithms like BagMinHash [26] and ProbMinHash
[27] specialized to unweighted sets can be used instead. Compared
to OPH with densification, they are mergeable, allow further ele-
ment insertions, and even give more accurate Jaccard similarity
estimates for small set sizes.
To shrink the memory footprint, b-bit minwise hashing [38] can
be used to reduce all MinHash components from typically 32 or
64 bits to only a few bits in a finalization step. Although this loss
of information must be compensated by increasing the number of
componentsm, the memory efficiency can be significantly improved
if precise estimates are needed only for high similarities. However,
the need of more components increases the computation time and
the sketch cannot be further aggregated or merged after finalization.
Besides the original application of finding similar websites [32],
MinHash is nowadays widely used for nearest neighbor search [34],
association-rule mining [14], machine learning [40], metagenomics
[3, 22, 45, 49], molecular fingerprinting [55], graph embeddings [7],
or malware detection [48, 58].
1.2 HyperLogLog
The HyperLogLog (HLL) data structure consists ofm integer-valued
registers K1, K2, . . . , Km similar to MinHash. While MinHash typi-
cally uses at least 32 bits per component, HLL only needs 5-bit or
6-bit registers to count up to billions of distinct elements [29, 33].
The state for a given set S is defined by
Ki
:= max
d ∈S
⌊1 − logb hi(d)⌋ with hi(d) ∼ Uniform(0, 1) (1)
where hi are m independent hash functions. Ki = 0 is used for ini-
tialization and the representation of empty sets. The original HLL uses the base b = 2, which makes the logarithm evaluation very
cheap.
Translation - Russian SetSketch: заполнение пробела между MinHash и HyperLogLog
Аннотация
MinHash и HyperLogLog — это алгоритмы
построения эскизов, которые стали
незаменимыми для составления сводок в
приложениях с большими данными. В то
время как HyperLogLog позволяет
подсчитывать различные элементы с очень
небольшим пространством, MinHash
подходит для быстрого сравнения наборов,
поскольку он позволяет оценивать сходство
по Жаккару и другие общие величины. В
этой работе представлена новая структура
данных под названием SetSketch, которая
способна постоянно заполнять пробелы
между обоими вариантами использования.
Её коммутативная и идемпотентная
операция вставки и её объединяемое
состояние делают систему пригодной для
распределенных сред. Надежные и простые в
реализации средства оценки мощности и
совокупных величин, а также возможность
использования SetSketch для поиска по
сходству позволяют использовать
универсальные приложения. Разработанные
методы также могут использоваться для
эскизов HyperLogLog и позволяют оценивать
совместные величины, такие как размер
пересечения, с меньшей ошибкой по
сравнению с обычным подходом к оценке,
основанным на принципе включения-
исключения.
1 Введение
Эскизы данных [16], которые могут
представлять наборы произвольного размера,
используя только небольшой фиксированный
объем памяти, стали важным и широко
используемым инструментом в приложениях
для работы с большими данными. Хотя к
отдельным элементам больше нельзя
получить доступ после вставки, они по-
прежнему могут дать приблизительные
ответы при запросе мощности или
совместные количества, которые могут
включать размер пересечения, размер
соединения, размер установленных различий,
коэффициенты включения или меры
сходства как сходство Жаккара и косинуса.
Многие подобные алгоритмы с разными
характеристиками были разработаны и
опубликованы за последние два десятилетия.
Наверняка очевидное требование для набора
структур данных, хотя и не
поддерживающееся многими, это
идемпотентность. Несколько вставок одного
и того же значения не должны изменять свое
состояние в дальнейшем. Также желательно,
чтобы
операция вставки являлась
коммутативной, чтобы разные порядки
обработки дают тот же результат. Для
крупномасштабных приложений с
распределенными потоками данных,
возможность слияния — еще одно важное
свойство, которое позволяет объединение
эскизов данных, полученных из частичных
потоков данных, чтобы получить общий
результат. В частности, это означает, что
структура данных должна поддерживать
операцию набора объединений. Минусовое
хеширование (MinHash) [6] и HyperLogLog
(HLL) [29] поддерживают идемпотентность,
коммутативность и возможность слияния,
что, вероятно, является одной из причин,
почему они принадлежат к наиболее
популярным алгоритмам построения эскизов
множеств.
1.1 Минусовое
хеширование (MinHash)
Изначально MinHash был разработан для
дедупликации веб-документов [6]. Оно
отображает множество S в m-мерный вектор
(K1, ..., Km) с использованием
K i := min h i (d).
d ∈S
Где h i — независимые хеш-функции.
Вероятность того, что со-компоненты K ai и
K Bi двух разных скетчей MinHash для наборов A
и В совпадают, равняется сходству Жаккара J
P (KAi = KBi) = J.
Это свойство делает MinHash очень
подходящим для сравнения наборов, потому
что сходство Жаккара можно прямо и быстро
оценить исходя из состыковки долей равных
компонентов. Это очень полезно для поиска
по сходству и вместе с такими методами
индексации, как локально-чувствительное
хеширование (LSH) [2, 34, 42, 71] может
быть реализован сублинейный ближайший
поиск соседей. MinHash также позволяет
оценивать
мощности [12, 13] и размеры пересечений
[15].
Тем временем, было опубликовано
множество улучшений и вариантов, которые
улучшают либо скорость обновления, либо
эффективность памяти. Хеширование с
одной перестановкой (OPH) [39] снижает
затраты на добавление нового элемента из O
(m) в O (1). Однако есть высокая вероятность
неинициализированных компонентов для
небольших наборов, приводящих к большим
ошибкам в оценке. Это можно исправить,
прибгнув к этапу завершения, называемый
уплотнением [43, 61, 62], что может быть
дорогостоящим для малых наборов [27] и
предотвратить дальнейшее агрегирование. В
качестве альтернативы, быстрое построение
эскизов подобия [17], SuperMinHash [25] или
взвешенные алгоритмы минусового
хеширования, такие как BagMinHash [26] и
ProbMinHash [27] можно использовать
специализированные для невзвешенных
множеств. По сравнению с OPH с
уплотнением, они могут слиться, допуская
дальнейшую вставку элементов, и даже дать
более точные оценки сходства Жаккара для
небольших наборов.
Чтобы уменьшить объем памяти,
минимальное хеширование b-бит [38] может
использоваться для сокращения всех
компонентов MinHash с 32 или 64 бит до
лишь нескольких бит на этапе завершения.
Хотя эта потеря информации должна быть
компенсирована увеличением количества
компонентов m, эффективность памяти
может быть значительно улучшена если
точные оценки нужны только для больших
сходств. Тем не менее, необходимость в
большем количестве компонентов
увеличивает время вычислений и скетч не
может быть далее агрегирован или
объединен после завершения.
Помимо оригинального приложения для
поиска похожих сайтов [32], MinHash в
настоящее время широко используется для
поиска ближайшего соседа [34], поиска
ассоциативных правил [14], машинного
обучения [40], метагеномики [3, 22, 45, 49],
молекулярного метода пептидных карт [55],
вложения графов [7] или обнаружения
вредоносных программ [48, 58].
1.2 HyperLogLog
Структура данных HyperLogLog (HLL)
состоит из m целочисленных значений
регистры К 1 , К 2 , . . ., К m аналогично MinHash.
В то время как MinHash обычно использует
не менее 32 бит на компонент, HLL
требуется только 5 битные или
6-битные регистры для подсчета до
миллиардов различных элементов [29, 33].
Состояние для данного множества S
определяется формулой
Ki: = max⌊1 – log b hi(d)⌋ with hi(d)
∼ Uniform(0, 1) (1)
d ∈S
где h i это m независимых хеш-функций. K i
= 0 используется для инициализации и
представления пустых множеств. Исходный
HLL использует базу b = 2, что делает
оценку логарифма крайне незатратной.
Russian to English: CHARACTERS’ ATTRIBUTES General field: Art/Literary
Source text - Russian Роджер, по прозвищу «Веселый Роджер» - владелец плавучей таверны «Веселый Роджер». Он интеллигентен, умен, образован. Носит очки. Играет на музыкальных инструментах. Волею судьбы, вынужден общаться, как с простыми моряками, так и с пиратами. Отлично стреляет. Владеет морским делом, он не только капитан своего судна, но и его создатель. Команда, состоящая из одних только девушек, считает его «гением»! Поскольку он создал аппарат, который опресняет морскую воду, которую продают посетителям с добавлением фруктовых сиропов, для утоления жажды. Но так же этот аппарат вырабатывает пар, с помощью которого и движется судно «Веселый Роджер». Простые моряки говорят, что « -Роджер настолько богат, что у него есть собственная морозильная камера!», которой может воспользоваться, за определенную плату, каждый посетитель, когда летний зной становиться совершенно невыносимым! Очень любит и ценит деньги, хотя расстается с ними легко. Тратит деньги на редкие книги, постоянно читает и делает заметки. Ведет «научную деятельность» в питейном заведении.
Джо, по прозвищу «Мерзавчик Джо» - хорошего человека, как известно «Мерзавчиком» не назовут. Бывший пират. Он хитер и коварен, невысокого роста. Склонен к предательству и авантюрам. Может выстрелить в спину, или поднять на корабле бунт. Готов на все ради своей выгоды. Отлично знает морское дело, опытный моряк. Был боцманом, но предал капитана «Черный Глаз», и постоянно скрывается от его мести.
Translation - English Rodger, nicknamed “Funny Rodger” — the owner of the floating tavern “Funny Rodger”. He is cultured, intelligent, well-educated. Wears glasses. Plays musical instruments. As fate would have it, he has to mix with both simple sailors and pirates. He is a great shot. Knows seamanship, he is not only the captain of his vessel, but its creator as well. The crew consisting of girls alone considers him a “genius”, because he has created a machine that desalts sea water which they sell to visitors with added fruit syrups for slaking thirst. Besides, this machine produces steam using which the vessel “Funny Rodger” sails. Simple sailors say that “Rodger is that rich that has his own freezer!”, which can be used for a fee by any visitor, when summer heat gets absolutely unbearable! He loves and values money, though parts with it easily. Spends money on rare books, constantly reads and takes notes. Undertakes “scientific work” in the tavern.
Joe, nicknamed “Git Joe” — as we know, a good person cannot be named “Git”. A former pirate. He is cunning and insidious, short. Inclined to treason and ventures. Can shoot in the back or start a riot on board. Would do anything for his own benefit. Knows seamanship perfectly, a skilled sailor. Used to be a boatswain, but betrayed captain “Blackeye” and is permanently hiding from his retaliation.
English to Russian: A sample of a technical translation General field: Tech/Engineering
Source text - English Efficient Estimation of Word Representations in
Vector Space
We propose two novel model architectures for computing continuous vector repre-
sentations of words from very large data sets. The quality of these representations
is measured in a word similarity task, and the results are compared to the previ-
ously best performing techniques based on different types of neural networks. We
observe large improvements in accuracy at much lower computational cost, i.e. it
takes less than a day to learn high quality word vectors from a 1.6 billion words
data set. Furthermore, we show that these vectors provide state-of-the-art perfor-
mance on our test set for measuring syntactic and semantic word similarities.
1 Introduction
Many current NLP systems and techniques treat words as atomic units - there is no notion of similar-
ity between words, as these are represented as indices in a vocabulary. This choice has several good
reasons - simplicity, robustness and the observation that simple models trained on huge amounts of
data outperform complex systems trained on less data. An example is the popular N-gram model
used for statistical language modeling - today, it is possible to train N-grams on virtually all available
data (trillions of words [3]).
However, the simple techniques are at their limits in many tasks. For example, the amount of
relevant in-domain data for automatic speech recognition is limited - the performance is usually
dominated by the size of high quality transcribed speech data (often just millions of words). In
machine translation, the existing corpora for many languages contain only a few billions of words
or less. Thus, there are situations where simple scaling up of the basic techniques will not result in
any significant progress, and we have to focus on more advanced techniques.
With progress of machine learning techniques in recent years, it has become possible to train more
complex models on much larger data set, and they typically outperform the simple models. Probably
the most successful concept is to use distributed representations of words [10]. For example, neural
network based language models significantly outperform N-gram models [1, 27, 17].
1.1 Goals of the Paper
The main goal of this paper is to introduce techniques that can be used for learning high-quality word
vectors from huge data sets with billions of words, and with millions of words in the vocabulary. As
far as we know, none of the previously proposed architectures has been successfully trained on more
1
arXiv:1301.3781v3 [cs.CL] 7 Sep 2013
than a few hundred of millions of words, with a modest dimensionality of the word vectors between
50 - 100.
We use recently proposed techniques for measuring the quality of the resulting vector representa-
tions, with the expectation that not only will similar words tend to be close to each other, but that
words can have multiple degrees of similarity [20]. This has been observed earlier in the context
of inflectional languages - for example, nouns can have multiple word endings, and if we search for
similar words in a subspace of the original vector space, it is possible to find words that have similar
endings [13, 14].
Somewhat surprisingly, it was found that similarity of word representations goes beyond simple
syntactic regularities. Using a word offset technique where simple algebraic operations are per-
formed on the word vectors, it was shown for example that vector(”King”) - vector(”Man”) + vec-
tor(”Woman”) results in a vector that is closest to the vector representation of the word Queen [20].
In this paper, we try to maximize accuracy of these vector operations by developing new model
architectures that preserve the linear regularities among words. We design a new comprehensive test
set for measuring both syntactic and semantic regularities1
, and show that many such regularities
can be learned with high accuracy. Moreover, we discuss how training time and accuracy depends
on the dimensionality of the word vectors and on the amount of the training data.
1.2 Previous Work
Representation of words as continuous vectors has a long history [10, 26, 8]. A very popular model
architecture for estimating neural network language model (NNLM) was proposed in [1], where a
feedforward neural network with a linear projection layer and a non-linear hidden layer was used to
learn jointly the word vector representation and a statistical language model. This work has been
followed by many others.
Another interesting architecture of NNLM was presented in [13, 14], where the word vectors are
first learned using neural network with a single hidden layer. The word vectors are then used to train
the NNLM. Thus, the word vectors are learned even without constructing the full NNLM. In this
work, we directly extend this architecture, and focus just on the first step where the word vectors are
learned using a simple model.
It was later shown that the word vectors can be used to significantly improve and simplify many
NLP applications [4, 5, 29]. Estimation of the word vectors itself was performed using different
model architectures and trained on various corpora [4, 29, 23, 19, 9], and some of the resulting word
vectors were made available for future research and comparison2
. However, as far as we know, these
architectures were significantly more computationally expensive for training than the one proposed
in [13], with the exception of certain version of log-bilinear model where diagonal weight matrices
are used [23].
2 Model Architectures
Many different types of models were proposed for estimating continuous representations of words,
including the well-known Latent Semantic Analysis (LSA) and Latent Dirichlet Allocation (LDA).
In this paper, we focus on distributed representations of words learned by neural networks, as it was
previously shown that they perform significantly better than LSA for preserving linear regularities
among words [20, 31]; LDA moreover becomes computationally very expensive on large data sets.
Similar to [18], to compare different model architectures we define first the computational complex-
ity of a model as the number of parameters that need to be accessed to fully train the model. Next,
we will try to maximize the accuracy, while minimizing the computational complexity.
1The test set is available at www.fit.vutbr.cz/ ̃imikolov/rnnlm/word-test.v1.txt
2http://ronan.collobert.com/senna/
http://metaoptimize.com/projects/wordreprs/
http://www.fit.vutbr.cz/ ̃imikolov/rnnlm/
http://ai.stanford.edu/ ̃ehhuang/
Translation - Russian Эффективный расчет представлений слов в векторном пространстве
Мы предлагаем две новых смоделированных архитектуры для вычисления
непрерывного вектора репрезентации слов из больших массивов данных. Качество
репрезентаций измерено задачей на сходство слов, результаты сопоставлены с ранними
успешными техниками, основанными на различных типах нейронных сетей. Нами были
отмечены значительные улучшения точности на намного более низких вычислительных
мощностях, например менее чем за день были выучены высококачественные вектора
слов из массивов данных, объемом от 1,6 миллиардов слов. Более того, данные векторы
обеспечивают современную производительность согласно нашим тестам на измерение
синтаксических и семантических сходств слов.
1 Введение
Многие существующие системы и техники обработки естественного языка рассматривают слово как
неделимую единицу — не существует понятия о похожести слов, так как они представлены в качестве
индексов в словаре. У этого выбора несколько хороших оснований — простота, устойчивость и наблюдение,
что простые модели систем, натренированные на огромных массивах данных, превосходят сложные
системы, обучавшиеся на малом количестве данных. Примером является популярная N-граммная модель,
использующаяся для статистического языкового моделирования — сегодня возможно обучить N-граммы с
помощью виртуально повсеместно доступных массивов данных (триллионы слов [3]).
Однако простые техники подошли к своему пределу во многих задачах. Например, количество релевантных
доменных данных для автоматического распознавания речи ограничено — производительность обычно
зависит от размера высококачественных транскрибированных языковых данных (часто миллионы слов).
Существующие корпусы для машинного перевода на многих языках содержат только несколько миллиардов
слов или меньше. Таким образом, есть ситуации, где одно только наращивание простых техник не приведет
к какому-либо значительному прогрессу, и мы вынуждены концентрироваться на более передовых методах.
Благодаря развитию методов машинного обучения за последние годы стало возможным обучать более
сложные модели, используя гораздо более масштабные базы данных, и обычно они превосходят простые
модели по результатам. Вероятно, самая успешная концепция — это использовать распределенное
представление слов [10]. Например, нейронная сеть, основанная на языковых моделях, значительно
превосходит N-граммные модели [1, 27, 17].
1.1 Цели статьи
Главная цель данной статьи — представить методы, которые смогут быть использованы в изучении
высококачественных векторов слов из огромных баз данных с миллиардами слов и миллионами слов
вокабуляра. Насколько нам известно, ни одна из ранее предложенных архитектур не была успешна обучена
на более сложной системе, чем несколько сотен миллионов слов со скромной размерностью векторов слов
от 50 до 100.
Мы использовали недавно предложенные методы измерения качества результирующих векторных
представлений, ожидая, что похожие слова не только будут находиться рядом, но и что у слов может быть
множество степеней схожести [20]. Это было выявлено ранее в контексте флективных языков — например,
существительные, у которых может быть множество окончаний, если мы поищем похожие слова в
подпространстве исходного вектора, есть вероятность найти слова с похожими окончаниями [13, 14].
Несколько неожиданно было обнаружено, что схожесть словесной репрезентации выходит за пределы
простых синтаксических закономерностей. Используя технику смещения слова, когда простые
алгебраические операции исполняются по вектору слова, было показано, к примеру, что вектор («Король»)
– вектор («Мужчина») + вектор («Женщина») имеют результатом вектор, который ближе всего к
векторной репрезентации слова Королева [20].
В данной статье мы попытаемся максимизировать точность этих векторных операций, развивая новые
модели архитектур, которые сохраняют линейные закономерности среди слов. Мы разработали новый
комплексный тест для измерения как синтаксических, так и семантических закономерностей и показали, что
многие подобные закономерности могут быть выучены с высокой точностью. Более того, мы обсуждаем как
время обучения и точность зависят от размерности вектора слова и от объема тренировочных данных.
1.2 Предыдущие работы
У репрезентации слов как непрерывных векторов длинная история [10, 26, 8]. Очень популярная модель
архитектуры для оценки нейронной сети языковая модель (Языковые Модели в Нейронной Сети) была
предложена в [1], где нейронная сеть прямого распространения с линейным слоем проекции и нелинейным
скрытым слоем была использована чтобы выучить совместно векторную представленность слов и
статистическую языковую модель. За этой работой последовали многие другие.
Другая интересная архитектура ЯМНН была представлена в [13, 14], где векторы слов сначала выучиваются
с помощью сети с одним скрытым слоем. Векторы слов затем используются для обучения ЯМНН. Таким
образом, векторы слов выучиваются даже без создания полной ЯМНН. В представленной работе мы
непосредственно расширяем данную архитектуру и сосредотачиваемся лишь на первой ступени, на которой
векторы слов изучаются посредством простой модели.
Позднее было продемонстрировано, что векторы слов могут быть использованы для значительного
улучшения и упрощения многих применений ОЕЯ [4, 5, 29]. Непосредственно расчет векторов слов был
выполнен с использованием различных моделей архитектур и обучен на материале разных корпусов [4, 29,
23, 19, 9], некоторые из итоговых векторов слов сделаны доступными для будущих исследований и
сравнений 2 . Однако, насколько нам известно, данные архитектуры были значительно более затратными для
обучения в вычислительном плане, чем та, что предложена в [13], за исключением определённой версии
логарифмическо-двухлинейной модели, где используются матрицы диагонального веса [23].
2 Архитектурные модели
Много разных типов моделей были предложены для расчета продолжительных репрезентаций слов, включая
хорошо известные: латентно-семантический анализ (ЛСА) и латентное размещение Дирихле (ЛРД). В
данной работе мы фокусируемся на распределенных представлениях слов, выученных нейросетями, так как
было ранее показано, что их производительность значительно выше, чем у ЛСА для сохранения линейных
закономерностей среди слов [20, 31]; а ЛРД становится еще более затратной для вычислений больших
объемов данных.
Аналогично [18], чтобы сравнить разные модели архитектур, для начала мы определим вычислительную
сложность модели в виде набора параметров, к которым нужно получить доступ, чтобы полностью обучить
модель. Затем мы попытаемся максимизировать точность и минимизировать вычислительную сложность.
1 Тест доступен на www.fit.vutbr.cz/ ̃imikolov/rnnlm/word-test.v1.txt
Russian to English: THE DETAILED OUTLINE OF THE MOVIE General field: Art/Literary
Source text - Russian 8. «Драка». Узнав у юного посетителя, что тот хочет попасть на остров «Банановой лихорадки» и захватить сокровища Черного Глаза, Мерзавчик Джо предлагает юному посетителю, которого он будет именовать не иначе, как Капитан «Золотой Дукат», набрать команду, нанять судно «Толстая черепаха», и отправиться за сокровищами. Юный посетитель соглашается. В таверне начинается спор между посетителями из-за игры в карты. Хозяин таверны «Веселый Роджер» требует идти драться на палубу. И просит оркестр сыграть «что-нибудь повеселее!».
9. Музыкальный номер (3) «ШТОРМИЛО НАС ЧАСТО». Во время драки на палубе Мерзавчик Джо знакомит «Золотого Дуката» с будущей командой. И рассказывает о владельце судна «Толстая черепаха» по прозвищу Обрубок Том. Как только моряки видят золотые монеты, драка прекращается и все отправляются на лодки, чтобы плыть на «Толстую черепаху».
10. «Долги». Моряки покидают таверну, но юный «Капитан Золотой Дукат» не успевает уйти. Его задерживает Контрабанда Грейс, которая охраняет порядок в таверне. Барменша требует оплатить долг Мерзавчика Джо. Выясняется, что Джо украл не только кошелек, но и карту сокровищ, которую ей передал через Билли Джонса ее отец. Когда в очередной раз юный посетитель пытается проскочить мимо Грейс, с его головы падает шляпа и всем становиться ясно, что это девушка Алиса. Расспросив ее, Роджер решает, что Алиса будет отрабатывать долги в качестве прислуги. И приказывает готовить плавучую таверну «Веселый Роджер» к отплытию, поскольку у Роджера накопились вопросы к Мерзавчику Джо, и он так же хочет его поймать.
11. «Толстая черепаха». Моряки приплывают на судно «Толстая черепаха», но Обрубок Том не очень рад видеть Мерзавчика Джо. Он соглашается плыть на остров Банановой Лихорадки, но карту и деньги оставляет себе. Мерзавчика Джо он отправляет на кухню в помощь повару. Кок - Бенджамин Кастрюля Третий рад видеть Джо у себя в услужении, и нагружает его работой. «Толстая черепаха» на всех парусах уходит в море.
Translation - English 8.“The fight”. After hearing from the Young visitor that he wants to get to “Banana Fever” island and grab Blackeye’s treasure, Git Joe suggests that the Young visitor, whom he would not call by any other name than Captain “Golden Ducat”, should get a crew, hire the vessel “Fat Turtle” and set off for the treasure. The Young visitor agrees. Two visitors begin to argue over the card game in the tavern. The owner of the tavern “Funny Rodger” demands to go on the deck to fight and asks the orchestra to play “something more upbeat!”
9. Musical number (3) “It was often stormy”. During the fight on the deck Git Joe introduces “Golden Ducat” to the future crew and tells about the owner of the vessel “Fat Turtle” nicknamed Stump Tom. As soon as the sailors see the golden coins the fight ends and everybody goes to the boats to sail to “Fat Turtle”.
10. “Debts”. The sailors leave the tavern, but young “Captain Golden Ducat” didn’t manage to go. He is stopped by Smuggling Grace, who keeps the order at the tavern. The barmaid requests to pay Git Joe’s debt. It turns out that Joe has stolen not only the purse, but the treasure map as well (which had been handed over to her through Billy Jones by her father). When once again the Young visitor tries to get past Grace, his hat falls from his head and everybody sees that this is a girl — Alice. Having questioned her, Rodger decides that Alice will work off the debts as a servant, and orders to prepare the floating tavern “Funny Rodger” for the departure because Rodger has got some questions for Git Joe and he wants to catch him as well.
11. “Fat Turtle”. The sailors sail up to the vessel “Fat Turtle”, but Stump Tom is not particularly happy to see Git Joe. He agrees to sail to “Banana Fever” island, but he will keep the map and the money. He sends Git Joe to the kitchen as an assistant for the cook. The cook — Benjamin Saucepan the Third — is happy to see Joe in his service and heaps him with work. “Fat Turtle” goes full sail in the sea.
More
Less
Translation education
Bachelor's degree - Moscow State Linguistic University
Experience
Years of experience: 4. Registered at ProZ.com: Jun 2021.