FLOPS | это... Что такое FLOPS? (original) (raw)
Производительность суперкомпьютеров | ||
---|---|---|
Название | год | FLOPS |
флопс | 1941 | 100 |
килофлопс | 1949 | 103 |
мегафлопс | 1964 | 106 |
гигафлопс | 1987 | 109 |
терафлопс | 1997 | 1012 |
петафлопс | 2008 | 1015 |
эксафлопс | ~2016 | 1018 |
зеттафлопс | − | 1021 |
йоттафлопс | − | 1024 |
FLOPS (также flops, flop/s, флопс или флоп/с) (акроним от англ. FLoating-point Operations Per Second, произносится как флопс) — внесистемная единица, используемая для измерения производительности компьютеров, показывающая, сколько операций с плавающей запятой в секунду выполняет данная вычислительная система. Существуют разногласия насчёт того, допустимо ли использовать слово FLOP, и что оно может означать. Некоторые считают, что FLOP и FLOPS — синонимы, другие же полагают, что FLOP (или flop или флоп, от англ. FLoating point OPeration) — это просто количество операций с плавающей запятой (например, требуемое для исполнения данной программы).
Поскольку современные компьютеры обладают высоким уровнем производительности, более распространены производные величины от FLOPS, образуемые путём использования кратных приставок системы СИ.
Содержание
- 1 Флопс как мера производительности
- 2 Обзор производительности реальных систем
- 3 См. также
- 4 Примечания
- 5 Ссылки
Флопс как мера производительности
Как и большинство других показателей производительности, данная величина определяется путём запуска на испытуемом компьютере тестовой программы, которая решает задачу с известным количеством операций и подсчитывает время, за которое она была решена. Наиболее популярным тестом производительности на сегодняшний день является программа Linpack, используемая, в том числе, при составлении рейтинга суперкомпьютеров TOP500.
Одним из важнейших достоинств показателя флопс является то, что он до некоторых пределов может быть истолкован как абсолютная величина и вычислен теоретически, в то время как большинство других популярных мер являются относительными и позволяют оценить испытуемую систему лишь в сравнении с рядом других. Эта особенность даёт возможность использовать для оценки результаты работы различных алгоритмов, а также оценить производительность вычислительных систем, которые ещё не существуют или находятся в разработке.
Границы применимости
Несмотря на кажущуюся однозначность, в реальности флопс является достаточно плохой мерой производительности, поскольку неоднозначным является уже само его определение. Под «операцией с плавающей запятой» может скрываться масса разных понятий, не говоря уже о том, что существенную роль в данных вычислениях играет разрядность операндов, которая также нигде не оговаривается. Кроме того, величина флопс подвержена влиянию очень многих факторов, напрямую не связанных с производительностью вычислительного модуля, таких как: пропускная способность каналов связи с окружением процессора, производительность основной памяти и синхронность работы кэш-памяти разных уровней.
Всё это, в конечном итоге, приводит к тому, что результаты, полученные на одном и том же компьютере при помощи разных программ, могут существенным образом отличаться, более того, с каждым новым испытанием разные результаты можно получить при использовании одного алгоритма. Отчасти эта проблема решается соглашением об использовании единообразных тестовых программ (той же LINPACK) с усреднением результатов, но со временем возможности компьютеров «перерастают» рамки принятого теста и он начинает давать искусственно заниженные результаты, поскольку не задействует новейшие возможности вычислительных устройств. А к некоторым системам общепринятые тесты вообще не могут быть применены, в результате чего вопрос об их производительности остаётся открытым.
Так, например, 24 июня 2006 года общественности был представлен суперкомпьютер MDGrape-3, разработанный в японском исследовательском институте RIKEN (Йокогама), с рекордной теоретической производительностью в 1 Пфлопс. Однако данный компьютер не является компьютером общего назначения и приспособлен для решения узкого спектра конкретных задач, в то время как стандартный тест LINPACK на нём выполнить невозможно в силу особенностей его архитектуры.
Также высокую производительность на специфичных задачах показывают графические процессоры современных видеокарт и игровые приставки. К примеру, заявленная производительность игровой приставки Xbox 360 составляет 1 Тфлопс, а приставки PlayStation 3 и вовсе 2 Тфлопс, что ставит их в один ряд с суперкомпьютерами начального уровня. Столь высокие показатели объясняются тем, что указана производительность над числами 32-битного формата[1][2], тогда как для суперкомпьютеров обычно указывают производительность на 64-разрядных данных[3][4]. Кроме того, данные приставки и видео-процессоры рассчитаны на операции с трёхмерной графикой, хорошо поддающиеся распараллеливанию, однако эти процессоры не в состоянии выполнять многие задачи общего назначения, и их производительность сложно оценить классическим тестом LINPACK[5] и тяжело сравнить с другими системами.
Причины широкого распространения
Несмотря на большое число существенных недостатков, показатель флопс продолжает с успехом использоваться для оценки производительности, базируясь на результатах теста LINPACK. Причины такой популярности обусловлены, во-первых, тем, что флопс, как говорилось выше, является абсолютной величиной. А во-вторых, очень многие задачи инженерной и научной практики в конечном итоге сводятся к решению систем линейных алгебраических уравнений, а тест LINPACK как раз и базируется на измерении скорости решения таких систем. Кроме того, подавляющее большинство компьютеров (включая суперкомпьютеры) построены по классической архитектуре с использованием стандартных процессоров, что позволяет использовать общепринятые тесты с большой достоверностью.
Для подсчета максимального количества FLOPS для процессора нужно учитывать, что современные процессоры в каждом своём ядре содержат несколько исполнительных блоков каждого типа (в том числе и для операций с плавающей точкой), работающих параллельно, и могут выполнять более одной инструкции за такт. Данная особенность архитектуры называется суперскалярность и впервые появилась ещё в самом первом процессоре Pentium в 1993 году. Современное ядро Intel Core 2 так же является суперскалярным и содержит 2 устройства вычислений над 64-битными числами с плавающей запятой, которые могут завершать по 2 связанные операции (умножение и последующее сложение, MAC) в каждый такт, теоретически позволяющих достичь пиковой производительности до 4-х операций за 1 такт в каждом ядре[6][7]. Таким образом, для процессора, имеющего в своём составе 4 ядра (Core 2 Quad) и работающего на частоте 3.5ГГц, теоретический предел производительности составляет 4х4х3.5=56 гигафлопс, а для процессора, имеющего 2 ядра (Core 2 Duo) и работающего на частоте 3ГГц — 2х4х3=24 гигафлопс, что хорошо согласуется с практическими результатами, полученными на тесте LINPACK. Типичная производительность теста LINPACK составляет 80-95 % от теоретического максимума.
Обзор производительности реальных систем
Из-за высокого разброса результатов теста LINPACK, приведены примерные величины, полученные путём усреднения показателей на основе информации из разных источников. Производительность игровых приставок и распределённых систем (имеющих узкую специализацию и не поддерживающих тест LINPACK) приведена в справочных целях в соответствии с числами, заявленными их разработчиками. Более точные результаты с указанием параметров конкретных систем можно получить, например, на сайте The Performance Database Server.
Суперкомпьютеры
- Компьютер ЭНИАК, построенный в 1946 году, при массе 27 т и энергопотреблении 150 кВт, обеспечивал производительность в 300 флопс
- IBM 709 (1957) — 5 Кфлопс
- БЭСМ-6 (1968) — 1 Мфлопс (операций деления)
- Cray-1 (1974) — 160 Мфлопс
- БЭСМ-6 на базе Эльбрус-1К2 (1980-х) — 6 Мфлопс (операций деления)
- Эльбрус-2 (1984) — 125 Мфлопс
- Cray-2 (1985) — 1,9 Гфлопс
- Cray Y-MP (1988) — 2,3 Гфлопс
- Электроника СС БИС (1991, двухмашинный вариант) — 500 Мфлопс
- ASCI Red (1993) — 1 Тфлопс
- Fujitsu FX-1 (2008) — 121 Tфлопс[8]
- IBM Blue Gene/L (2006) — 478,2 Тфлопс
- Cray Jaguar (2008) — 1,059 Пфлопс
- IBM Roadrunner (2008) — 1,042 Пфлопс[9]
- Ломоносов (2011) — 1,3 Пфлопс
- Jaguar Cray XT5-HE (2009) — 1,759 Пфлопс
- Fujitsu K (2010) — 11 Пфлопс[8]
- Тяньхэ-1А (2010) — 2,507 Пфлопс
- Fujitsu K computer (2011) — 10,51 Пфлопс[10]
- IBM Sequoia (2012) — 16,32 Пфлопс[11]
- Cray Titan (бывш. Cray Jaguar; 2012) — >17,59 пфлопс[12]
Планы:
- Fujitsu FX-10 (2012) — 23 Пфлопс
- Intel планирует к 2020 году создать суперкомпьютер производительностью 4 Эфлопс[13]
- По личному мнению Ректора МГУ Садовничего, высказанного в октябре 2011 года, в МГУ через пару лет (к 2014 году) может появиться суперкомпьютер производительностью до 10 Эфлопс[14] В декабре появилось сообщение о начале проектирования 10 ПФлопс компьютера для МГУ[15].
- К 2018—2020 годам планируется увеличить мощность суперкомпьютера Саровского ядерного центра до 1 эксафлопс[16].
Процессоры персональных компьютеров
- AMD Athlon 64 2,211 ГГц (2003) — 8 Гфлопс[17]
- AMD Athlon 64 X2 4200+ 2,2 ГГц (2006) — 13.2 Гфлопс
- Intel Core 2 Duo 2,4 ГГц (2006) — 19,2 Гфлопс[18]
- AMD Athlon II X4 640 (ADX640W) 3.0 ГГц (2010) — 37.39 Гфлопс
- Intel Core 2 Quad Q8300 2,5 ГГц — 40 Гфлопс[19]
- Intel Core i7-975 XE 3,33 ГГц (2009) — 53.328 Гфлопс[20]
- CPU AMD Phenom II X6 1075T (HDT75TFB) 3.0 ГГц/6core/ 3+6Мб/125 Вт/4000 МГц Socket AM3 — 55.6094 Гфлопс[21]
- Intel Core i5-2500K 3.3-3.7 ГГц (2011) — 105,6-118 Гфлопс[22]
- Intel Atom[_уточнить_] — 2,1 Гфлопс
Карманные компьютеры
- КПК на основе процессора Samsung S3C2440 400 МГц (архитектура ARM9) — 1,3 Мфлопс
- Intel XScale PXA270 520 МГц — 1,6 Мфлопс
- Intel XScale PXA270 624 МГц — 2 Мфлопс
- Samsung Exynos 4210 2х1600 МГц — 84 Мфлопс
Распределённые системы
Данные приведены по состоянию на 26 июля 2011 года
- Bitcoin — более 161.9 Пфлопс одинарной точности (оценочно, так как bitcoin не использует операций с плавающей точкой[23])[24]
- Folding@home — более 6,5 Пфлопс[25]
- BOINC — более 6,1 Пфлопс[26]
- SETI@home — более 549 Тфлопс[27]
- Einstein@Home — более 490 Тфлопс[28]
- Rosetta@home — более 105 Тфлопс[29]
Игровые приставки
Указаны операции с плавающей точкой над 32-разрядными данными
- Sega Dreamcast — 1,4 Гфлопс
- Microsoft Xbox — 5,8 Гфлопс
- Microsoft Xbox 360 — 115,2 Гфлопс
- Sony PlayStation 2 — 6,2 Гфлопс
- Sony PlayStation Portable — 2,6 Гфлопс[30]
- Sony PlayStation 3 — 218 Гфлопс[31]
- Nintendo Wii — 2,9 Гфлопс[32]
GPU-процессоры
Теоретическая производительность (FMA; гигафлопсы):
GPU | GFLOPS с точностью 32 бита | GFLOPS с точностью 64 бита | Источник |
---|---|---|---|
GeForce GTX 590 | 2x1253,4 = 2507.4 | 2x 156,7 = 313.4 | [33] |
GeForce GTX 580 | 1581,1 | 197,6 | [33] |
Radeon HD 7970 | 3789 | 947 | [34] |
Radeon HD 6990 | 2x2550 = 5100 | 2x 637 = 1274 | [34] |
Radeon HD 5970 (AIB vendors) | 2x 2320 = 4640 | 2x 464 = 928 | [34] |
Человек и калькулятор
Калькулятор не случайно попал в одну категорию вместе с человеком, поскольку хотя он и является электронным устройством, содержащим процессор, память и устройства ввода/вывода, режим его работы кардинально отличается от режима работы компьютера. Калькулятор выполняет одну операцию за другой с той скоростью, с какой их запрашивает человек-оператор. Время, проходящее между операциями, определяется возможностями человека и существенно превышает время, которое затрачивается непосредственно на вычисления. Можно сказать, что в среднем производительность обычного карманного калькулятора составляет 10 флопс.
Человек, пользуясь лишь ручкой и бумагой, выполняет операции с плавающей запятой очень медленно и часто с большой ошибкой. Говоря о производительности нашего вычислительного аппарата, придётся использовать такие единицы как миллифлопс и даже микрофлопс.
См. также
Примечания
- ↑ http://ixbtlabs.com/articles3/video/rv670-part1-page1.html floating-point ALUs .. support for FP32 precision
- ↑ http://insidehpc.com/2009/07/01/personal-gpu-supercomputer-for-the-contrarian-puts-4-tflops-in-1u/ these are single precision GPU peak numbers
- ↑ http://www.top500.org/faq/what_hpl_benchmark HPL is a software package that solves a dense linear system in double precision (64 bits)
- ↑ [1] [2] HPL Faq entries for precision
- ↑ Exploiting the Performance of 32 bit FP Arithmetic in Obtaining 64 bit Accuracy (Revisiting Iterative Refinement for Linear Systems)
- ↑ SSE, SSE2 & SSE3 max throughput: 4 Flop / cycle
- ↑ The net result is that you can now process 2 DP adds and 2 DP multiplies per clock, or 4 FLOPS per cycle. (DP)
- ↑ 1 2 [ http://24gadget.ru/gallery/index/slider/3128/12 Суперкомпьютер Fujitsu K] (рус.)
- ↑ IBM создала самый мощный суперкомпьютер в мире (рус.), Lenta.ru, 9 июня 2008 года
- ↑ Японский суперкомпьютер обогнал по производительности китайский (рус.)
- ↑ Lawrence Livermore’s Sequoia Supercomputer Towers above the Rest in Latest TOP500 List (англ.)
- ↑ Agam Shah (IDG News), Titan supercomputer hits 20 petaflops of processing power // PCWorld, Computers, Oct 29, 2012 (англ.)
- ↑ Intel планирует увеличить мощность суперкомпьютеров в 500 раз к 2020 г. (рус.)
- ↑ Сверхмощный суперкомпьютер может появиться в МГУ в ближайшие годы (рус.) «Я думаю, что в ближайшие год-два в Московском университете будет создан супервычислитель уже эксафлопсной скорости, до 10 эксафлопс (10 тысяч петафлопс).»
- ↑ Последователь Ломоносова
- ↑ Мощность суперкомпьютера в Сарове может достигнуть максимума к 2020 г. РИА Новости (23 февраля 2012). Архивировано из первоисточника 31 мая 2012. Проверено 24 февраля 2012.
- ↑ iXBT: Факты и предположения об архитектуре AMD Opteron и Athlon 64
- ↑ http://download.intel.com/support/processors/core2duo/sb/core_E6000.pdf (pdf) «E6600 2.40 GHz 19.20» GFlops
- ↑ http://download.intel.com/support/processors/core2quad/sb/core_Q8000.pdf (pdf) «Q8300 4 MB 1333 MHz 2.5 GHz 75833 40.00»
- ↑ http://download.intel.com/support/processors/corei7ee/sb/core_i7-900_d_x.pdf (pdf) «i7-975 Base 3.33 GHz, 101101 CTP, 53.328 GFLOPS»
- ↑ НИКС: Сводные таблицы тестирования Intel Linpack x64 Решение системы из 10000 уравнений
- ↑ [3] http://www.intel.com/support/processors/sb/CS-032815.htm
- ↑ bitcoin выполняет вычисления хеш функции sha256, каждое из которых оценивается в 6350 операций над целыми числами или в 12700 операций над 32-битными плавающими числами http://forum.bitcoin.org/index.php?topic=4689.0
- ↑ Bitcoin Watch
- ↑ Folding@Home
- ↑ BOINC
- ↑ BOINCstats:SETI@home
- ↑ BOINCstats:Einstein@Home
- ↑ BOINCstats:Rosetta@home
- ↑ PSP Specs Revealed Processing speed, polygon rate and lots more. // IGN Entertainment, 2003. «PSP CPU CORE…FPU, VFPU (Vector Unit) @ 2.6GFlops»
- ↑ SONY COMPUTER ENTERTAINMENT INC. TO LAUNCH ITS NEXT GENERATION COMPUTER ENTERTAINMENT SYSTEM, PLAYSTATION®3 IN SPRING 2006 (англ.)
- ↑ Update: How many FLOPS are in game consoles? | TG Daily
- ↑ 1 2 Сравнительная таблица графических карт NVIDIA GeForce
- ↑ 1 2 3 Сравнительные таблицы графических карт AMD (ATI) Radeon
Ссылки
- TOP500 Рейтинг суперкомпьютеров TOP500 (англ.)
- The Performance Database Server Большая база данных производительности вычислительных систем (англ.)
- Roy Longbottom’s PC Benchmark Collection Подборка тестовых программ для ПК (включая LINPACK) и результатов испытаний (англ.)
- История суперкомпьютеров (англ. яз; pdf)
- Top50 Опубликована очередная редакция рейтинга суперкомпьютеров Top50 (рус.)