Тесты: что это? Для чего это история, виды и советы

Тесты являются неотъемлемой частью нашего ежедневного анализа оборудования, они позволяют нам предлагать вам сопоставимые с научной точки зрения измерения между различными компонентами, такими как процессоры, графические карты, устройства хранения и т. Д. Сегодня мы собираемся посвятить некоторые строки его истории, ее типам, как они работают, что они измеряют, каковы наиболее распространенные меры, и мы также дадим вам несколько советов о том, как их выполнять и каким из них мы должны доверять.

То, что мы знаем сегодня в мире ПК или мобильных устройств в качестве эталонов, - это методы, унаследованные от промышленной среды, которые позволили с начала этой революции принимать решения на основе сопоставимых данных в контролируемой среде.

Мир современных вычислений применяет эти методы практически к любой из своих многочисленных областей, и домашние пользователи также используют их как надежный способ узнать о производительности и возможностях наших систем, а также как важный момент информации, когда принимать важные решения, такие как покупка нашего нового компьютера, мобильного телефона, видеокарты и т. д.

Сегодня мы поговорим об истории тестов ПК, типах тестов, которые существуют, и о том, какие компоненты нашей системы больше подходят для такого типа тестов, которые не только показывают производительность.

Указатель содержания

история

Система сравнения или измерения применяет контролируемую среду и узнаваемые меры, которые являются научно сопоставимыми и проверяемыми и сосуществовали с миром компьютеров с момента его появления. Эталон, как таковой, был демократизирован до такой степени, что часть его фундаментальной сущности была утрачена, а именно то, что он может быть проверен и проверен третьими сторонами. Теперь мы используем его скорее как быстрое сравнение производительности, но отслеживание его достоверности третьими сторонами, безусловно, в значительной степени потеряно.

Самые классические эталонные методы всегда относились к вычислительной мощности ЦП системы, хотя в последнее время она различалась между различными компонентами, поскольку они приобрели преобладание и важность в компьютере.

Двумя наиболее классическими единицами измерения, которые все еще применяются, являются Dhrystones и Whetstones. Оба стали в некотором роде основой всех синтетических ориентиров, которые мы знаем сегодня.

Самым старым из них является Уэсттонс (местность в Соединенном Королевстве, где находилось подразделение по атомной энергии государственной энергетической компании Соединенного Королевства), а позже появился Дристоун, играющий с именем первого (мокрый и сухой).

Первый был разработан в 70-х годах, а второй - в 80-х годах, и оба являются основой сравнительных результатов, которые мы имели в последующие годы. Упрощенно, Whetstones дал представление о вычислительной мощности процессора в операциях с плавающей запятой, операциях с большим количеством десятичных знаков.

Dhrystone является его аналогом, поскольку он посвящен базовым инструкциям без десятичных знаков, и оба дают четкое представление о производительности процессора из двух совершенно разных, но дополняющих друг друга подходов. Уитстоунс и Дристон основаны на двух концепциях, которые мы сегодня используем гораздо чаще: MIPS и FLOP.

После этих измерений появились другие, такие как FLOP (арифметика с плавающей точкой - арифметика с плавающей точкой), которая в значительной степени более важна сейчас в компьютере, чем когда-либо, потому что она является основой современных вычислений во многих современных методах. такие как алгоритмы искусственного интеллекта, медицинские алгоритмы, прогнозирование погоды, нечеткая логика, шифрование и т. д.

LINPACK был разработан инженером Джеком Донгаррой в 1980-х годах и продолжает использоваться сегодня для измерения вычислительной мощности с плавающей запятой всех типов систем. В настоящее время существуют версии, оптимизированные по архитектуре, производителю процессора и т. Д.

FLOPS наполняют наши статьи о графических картах (безусловно, одинаковая или двойная точность звучит знакомо), процессорах и являются основой для расчета требований к питанию и разработки аппаратного обеспечения для любого суперкомпьютера, который работает или разрабатывается.

FLOP является сегодня наиболее востребованной единицей измерения производительности в отрасли, но она всегда сочетается с MIPS (миллионы инструкций в секунду), что является интересной мерой измерения, поскольку дает нам количество инструкций Основная арифметика, которую процессор может выполнять в секунду, но это больше зависит от архитектуры процессора (ARM, RISC, x86 и т. Д.) И языка программирования, чем другие единицы измерения.

По мере повышения производительности множители произошли. Сейчас мы измеряем производительность домашних процессоров в GIPS и GFLOPS. База остается той же, классической арифметической операции. Sisoft Sandra продолжает предлагать нам этот тип измерения в некоторых синтетических тестах.

MIPS также в большей степени отнесен к центральному процессору как классическому элементу, а FLOP распространился и на другие процветающие области, такие как производственные мощности или общие вычисления бывших процессоров, очень ориентированные на конкретные задачи, такие как графические процессоры, которые мы все монтируем на наших процессорах или на наши специальные карты расширения.

К этим базовым концепциям время добавляет новые единицы измерения, столь же важные или более важные, чем в современном компьютере или суперкомпьютере. Транзит данных является одной из этих мер, которая стала очень важной и в настоящее время измеряется в IOP (операций ввода-вывода в секунду), а также в других формах, таких как меры хранения в МБ / ГБ / ТБ, по сравнению со временем, которое требуется для транзит из одной точки в другую (МБ / с - мегабайт в секунду).

AS-SSD может измерять производительность жесткого диска в Мбит / с или IOP.

В настоящее время мы также используем меру переноса в ее различных множителях как способ интерпретации скорости передачи информации между двумя точками, когда для передачи определенной информации нам фактически нужно было генерировать немного больше информации. Это зависит от протокола, используемого для передачи информации.

Яркий пример, который мы часто используем, - это интерфейс PCI Express. Согласно этому протоколу, для каждых 8 битов информации, которую мы хотим переместить (0 или 1 с), мы должны генерировать 10 битов информации, поскольку эта дополнительная информация предназначена для контроля связи, которая отправляется для исправления ошибок, целостности данных и т. Д.

Другими известными протоколами, которые также представляют эту «потерю» реальной информации, является IP-адрес, который вы используете для чтения этой статьи, и который делает ваше соединение со скоростью 300 МТ / с на самом деле обеспечивает скорость чуть менее 300 Мбит / с.

Поэтому мы используем Gigatransfer или перевод, когда мы ссылаемся на необработанную информацию, отправляемую интерфейсом, а не на информацию, которая фактически обрабатывается в приемнике. Шина PCI Express 3.0 со скоростью 8 Гбит / с фактически отправляет 6, 4 Гбит / с информации для каждой линии, соединенной между точками. Передача стала очень важной с интеграцией протокола PCI Express во все основные шины домашнего и профессионального компьютера.

В последнее время мы также начали комбинировать меры как способ связи вычислительной мощности с другими очень важными факторами в современных вычислениях, причем потребление является одной из этих мер, которая представлена в качестве сравнительной шкалы между производительностью двух систем. Энергоэффективность сегодня так же или более важна, чем мощность процесса, и поэтому легко увидеть эталоны, которые сравнивают мощность процесса в соответствии с потребляемой мощностью элемента при измерении.

Фактически, один из великих списков суперкомпьютеров не столько ссылается на общую мощность компьютера среди всех его вычислительных узлов, сколько на развитие этой мощности на основе ватт или энергии, потребляемой всей системой. Список Green500 (FLOPS на ватт - FLOPS на ватт) является ярким примером того, как потребление сейчас является базовым для любого уважающего себя эталона, хотя, без сомнения, мы все продолжаем внимательно присматриваться к списку TOP500, в котором этот фактор не является фактором, обусловливающим фактор.

Типы ориентиров

Хотя мы можем говорить о гораздо большем количестве семейств или типов тестов, я упросту список из двух наиболее распространенных классов из тех, которые наиболее близки всем нам как более или менее опытным пользователям.

С одной стороны, у нас есть синтетические ориентиры, которые в значительной степени предлагают нам меры, о которых мы говорили ранее. Синтетические тесты - это программы, которые выполняют контролируемые тесты с более или менее стабильным программным кодом, ориентированным на конкретную платформу и архитектуру. Это программы, которые выполняют очень специфические тесты, которые могут интегрировать один или несколько наших компонентов, но где всегда проводятся одни и те же тесты или тесты без изменений.

Рендеринг изображений всегда был хорошим способом узнать производительность процессора в современной системе, так как это сложная задача. Cinebench R15 также имеет несколько тестов, один для GPU и два для CPU, где мы можем узнать производительность систем с несколькими ядрами и процессными потоками.

Они предлагают контролируемую среду тестирования, в которой нет никаких изменений, кроме версий, и где эти изменения должным образом задокументированы, чтобы пользователь знал, какие версии можно сравнивать друг с другом. Эти типы программ могут тестировать различные подсистемы нашего компьютера отдельно, с другими частями кода или определенными тестами для выполнения определенного типа тестирования, или в сочетании, на которые может влиять производительность одного, двух или более компонентов системы. Интегрированный в игру тест или такие программы, как Cinebench, Sisoft Sandra, SuperPI, 3DMark,… являются яркими примерами синтетических тестов.

Другими синтетическими бенчмарками, которые мы не должны путать с реальными бенчмарками, являются те, которые имитируют выполнение реальных программ или которые выполняют сценарии действий в реальных программах, они также являются синтетическими, поскольку в тесте нет случайности, PC Mark является ярким примером синтетическая тестовая программа, которую мы можем спутать с реальным тестом.

Фактический бенчмарк - это совершенно другой метод тестирования, потому что он принимает случайность использования программы для измерения ее производительности. Игроки привыкли к такому типу тестов или тестов производительности, когда мы настраиваем параметры качества игры в соответствии с возможностями нашего оборудования.

Измерение производительности игры во время игры является настоящим эталоном.

Когда вы открываете FPS, который дает игра, и пытаетесь непрерывно достичь желаемого значения 60FPS, тогда они выполняют настоящий тест. То же самое можно экстраполировать на любой другой тип программы, и если вы являетесь разработчиком, когда вы оптимизируете код своей программы, вы также проводите реальные тесты производительности, где изменяются ваш код или способ его выполнения на платформе стабильное или переменное оборудование.

Оба типа тестов важны: первый позволяет нам сравнивать нашу систему с другими в контролируемой среде, а второй - способ оптимизировать нашу работу, где также добавляются два важных фактора: случайность выполнения и человеческий фактор. Оба фактора дают дополнительную точку зрения на производительность компонента или компонентов, которые мы хотим протестировать.

Соображения при тестировании

Чтобы эталон был полезным и эффективным, мы должны учитывать некоторые действительно важные факторы. Сравнение между различными платформами и архитектурами вносит важный фактор неопределенности, поэтому в этом типе тестов, которые дают вам возможность сравнивать мобильные телефоны iOS с компьютерами под управлением Windows x86, чтобы привести пример, вы должны взять их с помощью пинцета, поскольку он не только меняется ядро операционной системы, но архитектуры процессоров очень разные. Разработчики тестов этого типа (например, Geekbench) вводят поправочные коэффициенты между своими различными версиями, которые трудно контролировать.

Таким образом, первый ключ для сопоставления эталонного теста между различными аппаратными средствами заключается в том, что тестовая экосистема максимально похожа на эталонную платформу, операционную систему, драйверы и версию программного обеспечения. Здесь, безусловно, будут элементы, которые мы не сможем контролировать гомогенизацией, например, графический контроллер, если мы тестируем графику AMD на графике Nvidia, но остальное мы должны постараться сделать как можно более стабильной. В этом случае мы также включили бы аппаратное обеспечение, поскольку для сравнения видеокарт вам нужно использовать одну и ту же операционную систему, один и тот же процессор, те же самые памяти и все рабочие параметры, сохраняя их одинаковыми, включая параметры качества, разрешения и тестирования в тесте производительности. Чем более стабильна наша тестовая экосистема, тем более надежными и сопоставимыми будут наши результаты.

Рекомендуем прочитать Как узнать, есть ли в моем процессоре узкое место?

Еще одна вещь, которую мы должны принять во внимание, это то, что тесты производительности обычно имеют стресс-фактор для оборудования, которое мы собираемся протестировать, и обычно подвергают это оборудование ситуациям, которые обычно не возникают при нормальном использовании системы. Каждый бенчмарк, который мы берем с нашего жесткого диска, видеокарты или процессора, передает их в ситуации, которые могут быть опасными для аппаратного обеспечения, поэтому мы должны установить соответствующие меры, чтобы точка напряжения не стала точкой разрушения или также элемент снижения производительности, поскольку многие компоненты имеют системы защиты, с помощью которых они снижают свои характеристики, например, при температурах, выходящих за пределы диапазона их использования. Адекватное охлаждение, периоды отдыха между тестами, правильная подача тестируемых компонентов… все должно быть в идеальной ситуации, чтобы тест проходил гладко.

С другой стороны, мы также используем именно этот тип эталонных тестов, чтобы подвергнуть систему стрессу, чтобы увидеть ее стабильность в ситуации такого типа, это другой способ применения эталонного теста, поскольку он не только стремится узнать производительность, но и система стабильна и даже больше, если система работает так, как должна в этих стрессовых ситуациях.

заключение

Для тех из нас, кто занимается профессиональным тестированием компьютерного оборудования, этот тест является рабочим инструментом, и благодаря этому пользователи получают научный и проверяемый способ точного сравнения или знания производительности нашего следующего компьютера в каждой из его подсистем. сопоставимы с инструментами, используемыми на промышленном уровне.

Тестовая таблица, подобная той, что вы видите на рисунке, стремится точно стандартизировать метод тестирования, чтобы сравнительный эталон был максимально надежным и тестируемым при представлении вариаций, которые модифицируют результаты.

Но, как и любой «лабораторный» тест, чтобы он был надежным, должны быть созданы надлежащие условия, и тем более, чтобы он был сопоставим между различными системами.

Сегодня мы немного рассказали вам об истории этого типа программ, их различных типах, о том, как они работают и как получить от них достоверную информацию. Они полезны, но для меня это просто еще одна информация, о которой стоит помнить, и я бы всегда оставлял ее позади личного опыта и активного тестирования с реальными программами, которые мы будем использовать каждый день.

Тесты хороши для того, чтобы поместить минимальные данные о производительности в наш процесс принятия решений, но они не должны определять эти решения и, как последний совет, избегать синтетических тестов, которые утверждают, что могут сравнивать производительность между архитектурами, операционными системами и т. Д.

Оглавление:

история

Типы ориентиров

Соображения при тестировании

заключение

Выбор редактора