Признаки факторные и результативные: Факторные Результативные.
Факторные Результативные.
Статистика как наука.
Статистика– это самостоятельная общественная наука, изучающая количественную сторону массовых социально- экономических явлений и процессов в неразрывной связи с их качественной стороной.
(Выявление закономерностей в общественных процессов , с помощью анализа различных явлений, это и является объектом(совокупность явлений) изучения статистики.) – комментарий
Объект изучения — Статистическая совокупность
Множествоявлений, изучаемых статистикой, которые имеют один или несколько общих признаков и различаются между собой по другим признакам.
Предметом изучения статистики является количественная сторона массовых социально-экономических явлений, т.е. уровни, размеры, конкретные массы, объемы, площади и т.п.
Статистический показатель– это обобщающая количественная характеристика социально-экономических явлений и процессов в их качественной определенности в условиях конкретного времени и места.
Три элемента статистического показателя:
Место
Количество
Время
Статистический показатель
Экстенсивные(первичный показатель, получаем в начале, пример первичных итогов\фонд заработной платы) – (объемные, количественные) показатели — результат непосредственного подсчета или суммирования статистических данных.
Интенсивные – результат деления экстенсивных показателей друг на друга.
Теоретические основы статистики.
Единица совокупности – отдельные элементы, образующие статистическую совокупность и являющиеся носителями определенных признаков.
Признак – свойство, характерная черта или иная особенность единиц, объектов(явлений), которые могут быть определены или измерены.
Совокупность называется однородной, если самые существенные признаки для каждой единицы совокупности являются в основном однотипными и разнородной, если она объединяется разные типы явлений.
Факторными называются признаки оказывающие влияние на другие признаки.
Результативныминазываются признаки испытывающие влияние других признаков.
Количественные. Качественные.
Количественныевыражаются числом.
Дискретные (прерывные)- принимают только целые значения.
Непрерывные– принимают любые значения в определенных пределах
Атрибутивные– выражены словесно.
Вариация —колеблемость, многообразие, изменчивость величины признака у отдельных единиц совокупности.
Метод статистической науки
Статистическая методология— система приемов, способов и методов, направленных на изучение количественных закономерностей, проявляющихся в структуре, динамике и взаимосвязях социально-экономических явлений.
Этапы статистического исследования:
Статистическое наблюдение
Первичная обработка, сводка и группировка результатов наблюдения
Анализ полученных сводных материалов
Метод массовых наблюдений заключается:
В регистрации отобранных признаков у каждой единицы совокупности.
Метод статистических группировок и таблиц
Комплекс последовательных действий по обобщению конкретных единичных фактов, образующих совокупность в целях выявления типичных черт и закономерностей, присущих изучаемому явлению в целом.
Методы анализа с помощью обобщающих показателей.
Обобщающие показатели : абсолютные, относительные, средние величины и индексные системы.
Показатели вариации.
Анализ внутренних связей в объекте исследования — изучение структуры.
Исследование динамики на основе обобщающих аналитических показателей, специальных приемов обработки и моделирования рядов динамики.
Методы корреляционно-регрессионного анализа.
Графические методы.
Тема 2 : «Статистическое наблюдение»
Статистическое наблюдение– это массовое, планомерное, систематическое, научно-организованное наблюдение за явлениями общественной жизни.
Программно-методологические вопросы статистического наблюдения
Цель наблюдения
Объект и единица наблюдения.
Отчетная единица.
Программа статистического наблюдения
Статистический формуляр
Место и время наблюдения
Объектом статистического наблюденияназывается совокупность единиц изучаемого явления, о котором должны быть собраны статистические данные.
Единица наблюдения– первичный элемент объекта статистического наблюдения, выступающий в качестве носителя признаков, подлежащих регистрации и являющийся основой статистического счета.
Отчетная единица– субъект, от которого должны быть получены необходимые статистические данные о ед. наблюдения.
Программа статистического наблюдения— перечень признаков (вопросов), подлежащих регистрации в процессе статистического наблюдения и оформлении их в виде формуляра.
Статистический формуляр– документ единого образца, который содержит программу наблюдения и в котором записываются результаты наблюдения.
Критический момент– время, по состоянию на которое фиксируются данные.
Период регистрации— время, в течении которого собираются сведения о единицах наблюдения.
Формы статистического наблюдения:
Статистическая отчетность
Специально организованное наблюдение
Регистры
Отчетность– совокупность отчетных документов (отчетов), содержащих систему показателей, которые характеризуют итоги производственно-хозяйственной деятельности предприятий и организаций за отчетный период.
Регистровое наблюдение – это форма непрерывного статистического наблюдения за долговременными процессами, имеющими фиксированное начало, стадии развития и фиксированное завершение.
( регистры населения, регистры предприятий )
Факторный признак — Энциклопедия по экономике
Показатели и методы изучения эластичности цен. Цена как результативный и факторный признак показателя эластичности. Прямая и перекрестная эластичность. Эмпирический и теоретический, общий коэффициенты эластичности. Определение и анализ факторов эластичности. [c.145]Изменяя факторные признаки, можно определить наиболее эффективные пропорции между затратами труда и кг.питала для выпуска планируемого объема производства. [c.106]
Интегральный метод дает наиболее общий подход к решению задач факторного анализа по разложению общего прироста показателя по факторным приращениям. В основе интегрального метода лежит интеграл Эйлера — Лагранжа, устанавливающий связь между приращением функции и приращением факторных признаков.
При построении аналитических группировок из двух взаимосвязанных показателей один рассматривается в качестве фактора, влияющего на другой, а второй — как результат влияния первого. Но следует при этом иметь в виду, что взаимозависимость и взаимовлияние факторного и результативного признаков для каждого конкретного случая могут меняться (факторный признак может выступать в качестве результативного и наоборот). [c.51]
Дальнейшим развитием метода дифференциального исчисления явился метод дробления приращений факторных признаков, при котором следует вести дробление приращения каждой из переменных на достаточно малые отрезки и осуществлять пересчет значений частных производных при. каждом (уже достаточно малом) перемещении в пространстве. Степень дробления принимается такой, чтобы суммарная ошибка не влияла на точность экономических расчетов. [c.128]
Е можно пренебречь, если п будет достаточно велико. Метод дробления приращений факторных признаков имеет преимущества перед методом цепных подстановок. Он позволяет определить однозначно величину влияния факторов при заранее заданной точности расчетов, не связан с последовательностью подстановок и выбором качественных и количественных показателей-факторов. Метод дробления требует соблюдения условий дифференцируемости функции в рассматриваемой области. [c.129]
Интегральный метод оценки факторных влияний. Дальнейшим логическим развитием метода дробления приращений факторных признаков стал интегральный метод факторного анализа. Этот метод основывается на суммировании приращений функции, определенной как частная производная, умноженная на приращение аргумента на бесконечно малых промежутках. При этом должны соблюдаться следующие условия [c.129]
Детерминированный факторный анализ в качестве цели выдвигает изучение влияния факторов на результативный показатель в случаях его функциональной зависимости от ряда факторных признаков. [c.28]
Аддитивную взаимосвязь можно представить как математическое уравнение, отражающее тот случай, когда результативный показатель — это алгебраическая сумма нескольких факторных признаков [c.28]
При изучении стохастических взаимосвязей аналитика должны интересовать не только наличие и количественная оценка соотношений, но форма связи результативного и факторного признаков, ее аналитическое выражение. Решить эти проблемы помогает корреляционный и регрессионный анализ. [c.70]
Методы корреляционного и регрессионного анализа используются в комплексе. Наиболее разработанной в теории и широко применяемой на практике является парная корреляция, когда исследуются соотношения результативного признака и одного факторного признака. Это — однофакторный корреляционный и регрессионный анализ. Именно такой анализ является основой для изучения многофакторных стохастических связей. [c.70]
Частные коэффициенты эластичности (Э/) показывают, какого роста результативного признака в процентах можно ожидать с возрастанием факторного признака на один процент. Алгоритм расчета [c.76]
Надо иметь в виду, что коэффициенты регрессии не отражают того, какой из факторов сильнее влияет на результативный признак, поскольку коэффициенты измерены в разных единицах, не учтена вариация факторных признаков, т.е. они несопоставимы. [c.77]
Признак факторный — признак, характеризующий причину в совокупности явлений, связанных причинно-следственной связью. Эти признаки называются также независимыми или экзогенными. [c.309]
Связь стохастическая (вероятностная) — связь, при которой каждому значению факторного признака соответствует множество значений результативного признака, т. е. определенное статистическое распределение. [c.311]
Под. множественной корреляцией понимается исследование статистической зависимости результативного признака от нескольких факторных признаков. [c.324]
Прямое сравнение коэффициентов регрессии в уравнении множественной регрессии дает представление о степени влияния факторных признаков на результативный признак только тогда, когда они выражаются в одинаковых единицах и имеют примерно одинаковую колеблемость. [c.327]
Коэффициент Э, показывает, на сколько процентов изменится результативный признак при изменении факторного признака на 1% при фиксировании значений остальных факторов на каком-либо уровне. Если в качестве такого уровня принять их средние значения, то получим средний частный коэффициент эластичности. [c.327]
В качестве конкретного статистического показателя (факторного признака) могут выступать [c.668]
К пятой группе факторов относится размер ВВП либо другой макроэкономический показатель, который включается в статистический анализ валютных курсов как факторный признак. Необходимо при этом учитывать, что влияние заметно в долгосрочной перспективе и что использовать размер ВВП для оценки будущего значения валютного курса можно лишь через значительный промежуток времени, когда статистические органы закончат расчет ВВП как самого синтетического экономического показателя. Это снижает прикладное значение оценки влияния данного фактора. Но в принципе установлено, что коэффициент эластичности между ВВП и валютным курсом приблизительно равен 1. [c.670]
На основе этой формулы осуществляется оценка ставки форвард , которая и используется как прогноз ставки спот . Недостатком этого способа является то, что ставка форвард (как факторный признак) объясняет очень мало процентов движения текущих валютных курсов и с удлинением периода прогнозирования эта доля снижается. Тем не менее направление изменения ставки спот следует за направлением изменения ставки форвард , [c.674]
Прогнозирование на основе аналитических моделей, построенных с учетом того, что влияние на валютный курс всех факторных признаков проявляется в конечном счете через соотношение спроса и предложения на валютной бирже. [c.676]
Относительные показатели, характеризующие взаимосвязь признаков в совокупности явлений, а также взаимосвязь результативных признаков-следствий с факторными признаками-причинами, например, связь уровня душевого дохода с размером потребления мяса или фруктов на одного человека связь дозы удобрений с урожайностью картофеля и т. п. К таким показателям относятся рассматриваемые в главе 8 коэффициенты корреляции, эластичности, детерминации, а также в главе 10 аналитические индексы. Относительные показатели взаимосвязи могут быть как отвлеченными, так и именованными числами. [c.48]
Корреляционная связь между признаками может возникать разными путями. Важнейший путь — причинная зависимость результативного признака (его вариации) от вариации факторного признака. Например, признак х — балл оценки плодородия почв, признак у -урожайность сельскохозяйственной культуры. Здесь совершенно ясно логически, какой признак выступает как независимая переменная (фактор) х, какой — как зависимая переменная (результат) у. [c.229]
Вторая задача специфична для статистических связей, а первая разработана для функциональных связей и является общей. Основным методом решения задачи нахождения параметров уравнения связи является метод наименьших квадратов (МНК), разработанный К. Ф. Гауссом (1777-1855). Он состоит в минимизации суммы квадратов отклонений фактически измеренных значений зависимой переменной у от ее значений, вычисленных по уравнению связи с факторным признаком (многими признаками) х. [c.232]
Для измерения тесноты связи применяется несколько показателей. При парной связи теснота связи измеряется прежде всего корреляционным отношением, которое обозначается греческой буквой г). Квадрат корреляционного отношения — это отношение межгрупповой дисперсии результативного признака, которая выражает влияние различий группировочного факторного признака на среднюю величину результативного признака, к общей дисперсии результативного признака, выражающей влияние на него всех причин и условий. Квадрат корреляционного отношения называется коэффициентом детерминации [c.232]
Если уравнение выбрано неверно или сделана ошибка при расчете его параметров, то сумма квадратов в числителе может оказаться большей, чем в знаменателе, и отношение утратит тот смысл, который оно должно иметь, а именно какова доля общей вариации результативного признака, объясняемая на основе выбранного уравнения связи его с факторным признаком (признаками). Чтобы избежать ошибочного результата, лучше вычислять корреляционное отношение по другой формуле (8. 3), не столь наглядно выявляющей сущность показателя, но зато полностью гарантирующей от возможного искажения [c.233]
Уравнение корреляционной связи измеряет зависимость между вариацией результативного признака и вариацией факторного признака (признаков). Меры тесноты связи измеряют долю вариации результативного признака, которая связана корреляционно с вариацией факторного признака (признаков). [c.235]
Итак, строго говоря, метод корреляционно-регрессионного анализа не может объяснить роли факторных признаков в создании результативного признака. Это очень серьезное ограничение метода, о котором не следует забывать. [c.235]
Задача прогнозирования возможных значений результативного признака при задаваемых значениях факторных признаков. [c.236]
Такая задача решается путем подстановки ожидаемых, или планируемых, или возможных значений факторных признаков в уравнение связи и вычисления ожидаемых значений результативного признака. [c.237]
Приходится решать и обратную задачу вычисление необходимых значений факторных признаков для обеспечения планового или желаемого значения результативного признака в среднем по совокупности. Эта задача обычно не имеет единственного решения в рамках данного метода и должна дополняться постановкой и решением оптимизационной задачи на нахождение наилучшего из возможных вариантов ее решения (например, варианта, позволяющего достичь требуемого результата с минимальными затратами). [c.237]
Преимущества и недостатки формулы Маршалла. Использование в качестве факторного признака Показателя покупательной способности дохода (отношения цены к доходу). Возможности преобразования формулы Маршалла. Теоретический коэффициент эластичности (формула Аллена-Боули). Ее экономическая интерпретация. Способы расчета теоретического коэффициента эластичности спроса. [c.151]
Метод статистических группировок. Его суть заключается в следующем по выбранным факторным признакам х группируют статистические данные по анализируемым НГДУ, затем вычисляют средневзвешенные значения для результативного признака у по группам, на которые разбиты НГДУ. Затем средние величины результативного и факторного признака выражают в процентном отношении к одной из групп факторов, расположенных в восходящем или нисходящем порядке. Затем, переходя от одной группы к другой и прослеживая изменения групповых средних, устанавливают связь между изучаемыми явлениями. [c.67]
В соответствии с этими принципами проведена группировка всех 76 НГДУ по выбранным факторным признакам (табл. 25— 34), которая показала следующее. [c.67]
Чем выше бетта-коэффициент, тем сильнее воздействие анализируемого фактора на результативный признак, так как р -коэффициент отражает, на какую часть своего среднеквадратического отклонения изменится результативный показатель с изменением факторного признака на величину одного его квадратического отклонения. [c.77]
В общем случае, чтобы сделать коэффициенты регрессии сопоставимыми, применяют нормированные коэффициенты регрессии fy Коэффициент ft показывает величину изменения результативного фактора в значениях средней квадратической ошибки при изменении факторного признака на одну среднюю квадратичес-кую ошибку (СКО) [c.327]
Иногда как условие корреляционного анализа выдвигают необходимость подчинения распределения совокупности по результативному и факторным признакам нормальному закону распределения вероятностей. Это условие связано с применением метода наименьших квадратов при расчете параметров корреляции только при нормальном распределении метод наименьших квадратов дает оценку параметров, отвечающую принципам максимального правдоподобия. На практике эта предпосылка чаще всего выполняется приближенно, но и тогда метод наименьших квадратов дает неплохие результаты1. [c.231]
Следующий общий вопрос — это уже рассмотренный в разделе о группировке вопрос о чистоте измерения влияния каждого отдельного факторного признака. Как отмечалось в главе 6, группировка совокупности по одному факторному признаку может отразить влияние именно данного фактора на результативный признак при условии, что все другие факторы не связаны с изучаемым, а случайные отклонения и ошибки взаимопогасились в большой совокупности. Если же изучаемый фактор связан с другими факторами, влияющими на результативный признак, будет получена не чистая характеристика влияния только одного фактора, а сложный комплекс, состоящий как из непосредственного влияния фактора, так и из его косвенных влияний, через его связь с другими факторами и их влияние на результативный признак. Данное положение полностью относится и к парной корреляционной связи. [c.235]
Результативный признак — Энциклопедия по экономике
Расчет уравнения связи между результативным признаком (эксплуатационные затраты на 1 скв.-год эксплуатации) и. факториальными признаками производился нами по статистическим отчетным данным в динамике за несколько лет. [c.24]В корреляционных зависимостях одному значению факторного признака (х) соответствует одно значение результативного признака (у) (возможно существование и нескольких значений у, тогда рассматривается среднее). [c.205]
Каждое явление можно рассматривать и как причину, и как результат. Например, производительность труда можно рассматривать, с одной стороны, как причину изменения объема производства, уровня ее себестоимости, а с другой — как результат изменения степени механизации и автоматизации производства, усовершенствования организации труда и т.д. Если тот или иной показатель рассматривается как следствие, как результат действия одной или нескольких причин и выступает в качестве объекта исследования, то при изучении взаимосвязей его называют результативным показателем. Показатели, определяющие поведение результативного признака, называются факторными. [c.27]
Нами рассчитаны двенадцать уравнений множественной линейной корреляции, четыре функции в виде полинома, пять-производственных функций Кобба — Дугласа и четырнадцать кинетических производственных функций. Для определения степени влияния отобранных факторов на результативный признак нами вычислены [c.5]
При построении аналитических группировок из двух взаимосвязанных показателей один рассматривается в качестве фактора, влияющего на другой, а второй — как результат влияния первого. Но следует при этом иметь в виду, что взаимозависимость и взаимовлияние факторного и результативного признаков для каждого конкретного случая могут меняться (факторный признак может выступать в качестве результативного и наоборот). [c.51]
Стохастические связи между различными явлениями и их признаками в отличие от функциональных, жестко детерминированных, характеризуются тем, что результативный признак (зависимая переменная) испытывает влияние не только рассматриваемых независимых факторов, но и подвергается влиянию ряда случайных (неконтролируемых) факторов. Причем полный перечень факторов не известен, так же как и точный механизм их воздействия на результативный признак. В этих условиях значения зависимой переменной тоже не могут быть измерены точно. Их можно определить с определенной вероятностью, поскольку они подвержены случайному разбросу и содержат неизбежные ошибки измерения переменных. [c.69]
Корреляционный анализ ставит задачу измерить тесноту связи между варьирующими переменными и оценить факторы, оказывающие наибольшее влияние на результативный признак. [c.70]
Регрессионный анализ предназначен для выбора формы связи, типа модели, для определения расчетных значений зависимой переменной (результативного признака). [c.70]
Методы корреляционного и регрессионного анализа используются в комплексе. Наиболее разработанной в теории и широко применяемой на практике является парная корреляция, когда исследуются соотношения результативного признака и одного факторного признака. Это — однофакторный корреляционный и регрессионный анализ. Именно такой анализ является основой для изучения многофакторных стохастических связей. [c.70]
Частные коэффициенты эластичности (Э/) показывают, какого роста результативного признака в процентах можно ожидать с возрастанием факторного признака на один процент. Алгоритм расчета [c.76]
Надо иметь в виду, что коэффициенты регрессии не отражают того, какой из факторов сильнее влияет на результативный признак, поскольку коэффициенты измерены в разных единицах, не учтена вариация факторных признаков, т.е. они несопоставимы. [c.77]
Признак результативный — признак, характеризующий следствие в совокупности явлений, связанных причинно-следственной связью. Этот признак называется также зависимыми. [c.309]
Связь стохастическая (вероятностная) — связь, при которой каждому значению факторного признака соответствует множество значений результативного признака, т. е. определенное статистическое распределение. [c.311]
Система факторная — совокупность факторных и результативных признаков, связанных одной причинно-следственной связью. [c.312]
Основной проблемой построения регрессионной модели (уравнения регрессии) является определение типа аналитической функции, отражающей механизм связи результативного признака с факторным (факторными). Для представления имеющейся связи тем или иным уравнением выдвигается рабочая гипотеза, которая в дальнейшем или подтверждается, или отвергается. [c.320]
Тип кривой выбирается на основе сочетания теоретического анализа и исследования исходных эмпирических данных. Теоретический анализ наряду с обычными логическими сопоставлениями известных научных понятий включает опыт предыдущих исследований, экспертные оценки специалистов. Эмпирический путь заключается в изучении имеющихся исходных данных посредством построения корреляционных полей и эмпирических линий регрессии, а также анализа параллельных рядов, в результате которого исследуются разности между парами значений признаков (увеличивающиеся и уменьшающиеся абсолютные разности, постоянные и изменяющиеся относительные роста и т.д.). Изучение эмпирического материала показывает наличие или отсутствие связи, ориентирует ее направление и форму. Так, если результативный признак по сравнению с факторным увеличивается с одинаковой скоростью — связь прямолинейная, одинаковым темпом — связь экспоненциальная и т.п. [c.320]
Применительно к измерению связей здесь у представляет собой результативный признак х — факторный а0и и] — параметры прямой. [c.321]
Под. множественной корреляцией понимается исследование статистической зависимости результативного признака от нескольких факторных признаков. [c.324]
Прямое сравнение коэффициентов регрессии в уравнении множественной регрессии дает представление о степени влияния факторных признаков на результативный признак только тогда, когда они выражаются в одинаковых единицах и имеют примерно одинаковую колеблемость. [c.327]
Коэффициент Э, показывает, на сколько процентов изменится результативный признак при изменении факторного признака на 1% при фиксировании значений остальных факторов на каком-либо уровне. Если в качестве такого уровня принять их средние значения, то получим средний частный коэффициент эластичности. [c.327]
Относительные показатели, характеризующие взаимосвязь признаков в совокупности явлений, а также взаимосвязь результативных признаков-следствий с факторными признаками-причинами, например, связь уровня душевого дохода с размером потребления мяса или фруктов на одного человека связь дозы удобрений с урожайностью картофеля и т.п. К таким показателям относятся рассматриваемые в главе 8 коэффициенты корреляции, эластичности, детерминации, а также в главе 10 аналитические индексы. Относительные показатели взаимосвязи могут быть как отвлеченными, так и именованными числами. [c.48]
Дисперсия результативного признака внутри группы при относительном постоянстве признака-фактора возникает за счет других факторов (не связанных с изучаемым). Эта дисперсия называется остаточной (та колеблемость, которая осталась при закреплении изучаемого фактора х). Она определяется по формуле [c.128]
Эмпирическое корреляционное отношение измеряет, какую часть общей колеблемости результативного признака вызывает изучаемый фактор. Соответственно оно рассчитывается как отношение факторной дисперсии к общей дисперсии результативного признака [c.129]
Так же как и показатель парной связи, r >vz принимает значение в интервале [0,1]. В числителе подкоренного выражения находится факторная дисперсия результативного признака [c.131]
Однако при всех отмеченных плюсах этот метод имеет огромный минус — дробление совокупности, в результате чего выделяются подгруппы с малым числом единиц. В этом случае средние значения результативного признака неустойчивы, не достигается погашение прочих факторов, соответственно, ненадежными становятся и показатели связи. Но если совокупность большого объема и распределение признаков-факторов не являются крайне асимметричными, этот метод, как никакой другой, позволяет получить много информации об отношениях между переменными. [c.132]
В какой-то мере избежать дробления данных и при этом получить чистые характеристики связей между переменными позволяет применение метода стандартизации распределений в комбинационной таблице. Если в группах по одной переменной, скажем, по z в табл. 6.7, распределение по другой переменной х принять стандартным и на его основе рассчитать групповые средние величины результативного признака, то они будут отличаться за счет принадлежности к разным группам по признаку z при элиминировании признака х. В качестве стандартного применяется распределение в целом по совокупности. Так, по данным табл. 6.7 стандартное распределение по х следующее [c.132]
На основе полученных стандартизованных средних можно рассчитать показатели чистой связи между величиной прибыли и средним запасом оборотных средств. Попробуйте сделать такой расчет. Стандартизация распределения по переменной z, расчет стандартизованных средних результативного признака и показателей чистой связи между у и х при элиминировании z проводится аналогично. Заметим, что рассмотренные приемы анализа не входят пока в ППП для ЭВМ. Возможно, это сделает кто-то из вас. [c.133]
Дисперсионный анализ часто применяется совместно с аналитической группировкой (см. гл. 6). В этом случае данные подразделяются на группы по значениям признака-фактора, вычисляются значения средних величин результативного признака в группах, считается, что различия в их значениях определяются различиями в значениях фактора. Задача состоит в оценке существенности различий между средними значениями результативного признака в группах. Итак, испытуемая гипотеза может быть записана как гипотеза о средних величинах // ц, = = ц3 =… Как было показано в предыдущем параграфе, когда выделяются две группы, эта задача решается с помощью /-критерия. Если же число сравниваемых групп больше двух, то существенность различий между группами доказывается с помощью дисперсионного анализа, на основе F-критерия. Заметим, что результаты дисперсионного анализа, так же как и выводы о характере связи, значения показателей ее силы и тесноты, зависят от числа групп, выделенных по признаку-фактору. [c.212]
У] — средняя величина результативного признака в /-и группе [c.212]
Рассмотрим двухфакторный дисперсионный анализ, основой проведения которого служит комбинационная группировка по двум факторам х и z, с последующим разложением дисперсии результативного признака у [c.214]
Корреляционная связь между признаками может возникать разными путями. Важнейший путь — причинная зависимость результативного признака (его вариации) от вариации факторного признака. Например, признак х — балл оценки плодородия почв, признак у -урожайность сельскохозяйственной культуры. Здесь совершенно ясно логически, какой признак выступает как независимая переменная (фактор) х, какой — как зависимая переменная (результат) у. [c.229]
Корреляционно-регрессионный анализ учитывает межфакторные связи, следовательно, дает нам более полное измерение роли каждого фактора прямое, непосредственное его влияние на результативный признак косвенное влияние фактора через его влияние на другие факторы влияние всех факторов на результативный признак. Если связь между факторами несущественна, индексным анализом можно ограничиться. В противном случае его полезно дополнить корреляционно-регрессионным измерением влияния факторов, даже если они функционально связаны с результативным признаком. [c.232]
Для измерения тесноты связи применяется несколько показателей. При парной связи теснота связи измеряется прежде всего корреляционным отношением, которое обозначается греческой буквой г). Квадрат корреляционного отношения — это отношение межгрупповой дисперсии результативного признака, которая выражает влияние различий группировочного факторного признака на среднюю величину результативного признака, к общей дисперсии результативного признака, выражающей влияние на него всех причин и условий. Квадрат корреляционного отношения называется коэффициентом детерминации [c.232]
Для оценки правомерности выбранных факториальных признаков и меры существенности их влияния на результативный признак, т. е. на величину удельных эксплуатационных затрат, определялись коэсрфициенты корреляции для каждой из пар признаков. [c.24]
Полученные коэффициенты парной корреляции между результативным признаком и каждым из факториальных призна ков по нефтедобывающим объединениям были близки к единице, что указывгло на очень высокую тесноту связи. [c.24]
Метод статистических группировок. Его суть заключается в следующем по выбранным факторным признакам х группируют статистические данные по анализируемым НГДУ, затем вычисляют средневзвешенные значения для результативного признака у по группам, на которые разбиты НГДУ. Затем средние величины результативного и факторного признака выражают в процентном отношении к одной из групп факторов, расположенных в восходящем или нисходящем порядке. Затем, переходя от одной группы к другой и прослеживая изменения групповых средних, устанавливают связь между изучаемыми явлениями. [c.67]
Результативный показатель, результативный признак, зависимая переменная (dependent variable) — вычисляемая по функциональной зависимости величина. [c.238]
Каждый из этих факторов не должен быть в функциональной зависимости от другого или от группы факторов. Иные факторы изучались при построении зависимости между результативным признаком (эксплуатационные затраты на одну скважину в год эксплуатации) и фактореальными признаками по нефтедобывающей промышленности СССР [20]. При этом были отобраны для включения в линейное корреляционное управление, следующие факторы [c.65]
Чем выше бетта-коэффициент, тем сильнее воздействие анализируемого фактора на результативный признак, так как р -коэффициент отражает, на какую часть своего среднеквадратического отклонения изменится результативный показатель с изменением факторного признака на величину одного его квадратического отклонения. [c.77]
Поскольку Офакт измеряет вариацию результативного признака, связанную с изменением фактора, по которому произведена группировка, a Dwm — вариацию, связанную с изменением всех прочих факторов, сравнение этих величин, рассчитанных на одну степень свободы, дает возможность оценить существенность влияния признака-фактора на результативный признак с помощью F-критерия [c.213]
Причинно-следственные связи, факторные и результативные признаки, виды связей
Поможем написать любую работу на аналогичную тему
Получить выполненную работу или консультацию специалиста по вашему учебному проекту
Узнать стоимостьИсследование объективно существующих связей между явлениями – важнейшая задача общей теории статистики. В процессе статистического исследования вскрываются причинно-следственные отношения между явлениями, что позволяет выявлять факторы (признаки), оказывающие существенное влияние на вариацию изучаемых явлений и процессов. Причинно-следственные отношения – это связь явлений и процессов, при которой изменение одного из них – причины – ведет к изменению другого – следствия.
Социально-экономические явления представляют собой результат одновременного воздействия большого числа причин. Следовательно, при изучении этих явлений необходимо, абстрагируясь от второстепенных, выявлять главные, основные причины. В основе первого этапа статистического изучения связей лежит качественный анализ явления, связанный с анализом его природы методами экономической теории, социологии, конкретной экономики.
Второй этапа – построение модели связи. Она базируется на методах статистики: группировки, средних величин, таблиц и т.д. Третий последний этап – интерпретация результатов, вновь связан с особенностями изучаемого явления. Статистика разработала множество методов изучения связей, выбор которых зависит от целей исследования и поставленных задач. Связи между признаками и явлениями, ввиду их большого разнообразия, классифицируются по ряду оснований. Признаки, обуславливающие изменение других, связанных с ними признаков, называются факторными, или просто факторами. Признаки, изменяющиеся под действием факторных признаков, являются результативными. Связи между явлениями и их признаками классифицируются по степени тесноты связи, направлению и аналитическому выражению.
В статистике различают функциональную связь и стохастическую зависимость. Функциональной называют такую связь, при которой определенному значению факторного признака соответствует одно и только одно значение результативного признака. Функциональная связь проявляется во всех случаях наблюдения и для каждой конкретной единицы исследуемой совокупности.
Если причинная зависимость проявляется не в каждом отдельном случае, а в общем среднем, при большом числе наблюдений, то такая зависимость называется стохастической. Частным случаем стохастической является корреляционная связь, при которой изменение среднего значения результативного признака обусловлено изменением факторных признаков.
По степени тесноты связи различают количественные критерии (таблица 1).
Таблица 1
Количественные критерии оценки тесноты связи
Величина коэффициента корреляции | Характер связи |
До 0,3 | практически отсутствует |
0,3 – 0,5 | слабая |
0,5 – 0,7 | умеренная |
0,7 – 1 | сильная |
По направлению выделяют связь прямую и обратную. При прямой связи с увеличением или с уменьшением значений факторного признака происходит увеличение или уменьшение значений результативного. В случае обратной связи значения результативного признака изменяются под воздействием факторного, но в противоположном направлении по сравнению с изменением факторного признака.
По аналитическому выражению выделяют связи прямолинейные (или просто линейные) и нелинейные. Если статистическая связь между явлениями может быть приближенно выражена уравнением прямой линии, то ее называют линейной связью; если же она выражается уравнением какой-либо кривой линии (параболы, гиперболы, степенной, показательной, экспоненциальной и т.д.), то такую связь называют нелинейной, или криволинейной.
В статистике не всегда требуются количественные оценки связи, часто важно определить лишь ее направление и характер, выявить форму воздействия одних факторов на другие. Для выявления наличия связи, ее характера и направления в статистике используются методы приведения параллельных данных; аналитических группировок; графический; корреляционный, регрессионный.
Метод приведения параллельных данных основан на сопоставлении двух или нескольких рядов статистических величин. Такое сопоставление позволяет установить наличие связи и получить представление о ее характере.
Статистическую связь между двумя признаками можно изобразить графически и по графику судить о наличии, направлении и форме связи. На оси абсцисс откладываются значения факторного признака, на оси ординат – результативного. На графике откладываются все единицы, обладающие определенными значениями х и у. При отсутствии тесных связей наблюдается беспорядочное расположение точек на графике. Чем сильнее связь между признаками, тем теснее будут группироваться точки вокруг определенной линии, выражающей форму связи.
Корреляционный метод имеет своей задачей количественное определение тесноты связи между двумя признаками (при парной связи) и между результативным и множеством факторных признаков (при многофакторной связи).
Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой.
Первоначально исследования корреляции проводились в биологии, а позднее распространились и на другие области, в том числе на социально-экономическую. Одновременно с корреляцией начала использоваться и регрессия. Корреляция и регрессия тесно связаны между собой: корреляция оценивает силу (тесноту) статистической связи, регрессия исследует ее форму. Та и другая служат для установления соотношения между явлениями, для определения наличия или отсутствия связи.
Корреляционный и регрессионный анализ как общее понятие включает в себя измерение тесноты, направления связи и установление аналитического выражения (формы) связи (регрессионный анализ).
Внимание!
Если вам нужна помощь в написании работы, то рекомендуем обратиться к профессионалам. Более 70 000 авторов готовы помочь вам прямо сейчас. Бесплатные корректировки и доработки. Узнайте стоимость своей работы.
Пример. Все признаки в статистике подразделяются на факторные и результативные
Все признаки в статистике подразделяются на факторные и результативные.
Факторныминазываются признаки, под воздействием которых изменяются другие признаки — они и образуют группу результативных признаков. Взаимосвязь проявляется в том, что с возрастанием значения факторного признака систематически возрастает или убывает значение результативного признака. Особенностями аналитической группировки является то, что единицы группируются по факторному признаку, каждая выделенная группа характеризуется средними значениями результативного признака.
Все рассмотренные виды группировок могут быть построены по одному или нескольким существенным признакам.
Группировка, в которой, группы образованы по одному признаку, называются простой.
Сложнойназывается группировка, в которой расчленение совокупности на группы производится по двум и более признакам, взятыми в сочетании. Сначала группы формируются по одному признаку, затем группы делятся на подгруппы по другому признаку и т.д.. Сложные группировки дают возможность изучить единицы совокупности одновременно по нескольким признакам.
Сложная группировка строится в следующей последовательности: сначала производится группировка по атрибутивным признакам, затем по количественным.
Пример. Группировка семей по месту проживания и числу детей.
№ | Группа семей по месту проживания | В том числе подгруппа семей по числу детей | Число семей |
Городское население | 1 ребенок 2 детей 5 и более | ||
Итого по группе | |||
Сельское население | 5 и более | ||
Итого по группе | |||
Итого по группам | 5 и более | ||
Всего |
Факторный анализ, его виды и методы
Все явления и процессы хозяйственной деятельности предприятий находятся во взаимосвязи и взаимообусловленности. Одни из них непосредственно связаны между собой, другие косвенно. Отсюда важным методологическим вопросом в экономическом анализе является изучение и измерение влияния факторов на величину исследуемых экономических показателей.
Факторный анализ в учебной литературе трактуется как раздел многомерного статистического анализа, объединяющий методы оценки размерности множества наблюдаемых переменных посредством исследования структуры ковариационных или корреляционных матриц.
Свою историю факторный анализ начинает в психометрике и в настоящее время широко используется не только в психологии, но и в нейрофизиологии, социологии, политологии, в экономике, статистике и других науках. Основные идеи факторного анализа были заложены английским психологом и антропологом Ф. Гальтоном. Разработкой и внедрением факторного анализа в психологии занимались такие ученые как: Ч.Спирмен, Л.Терстоун и Р.Кеттел. Математический факторный анализ разрабатывался Хотеллингом, Харманом, Кайзером, Терстоуном, Такером и другими учеными.
Данный вид анализа позволяет исследователю решить две основные задачи: описать предмет измерения компактно и в то же время всесторонне. С помощью факторного анализа возможно выявление факторов, отвечающих за наличие линейных статистических связей корреляций между наблюдаемыми переменными.
Цели факторного анализа
К примеру, анализируя оценки, полученные по нескольким шкалам, исследователь отмечает, что они сходны между собой и имеют высокий коэффициент корреляции, в этом случае он может предположить, что существует некоторая латентная переменная, с помощью которой можно объяснить наблюдаемое сходство полученных оценок. Такую латентную переменную называют фактором, который влияет на многочисленные показатели других переменных, что приводит к возможности и необходимости отметить его как наиболее общий, более высокого порядка.
Таким образом, можно выделить две цели факторного анализа:
- определение взаимосвязей между переменными, их классификация, т. е. «объективная R-классификация»;
- сокращение числа переменных.
Для выявления наиболее значимых факторов и, как следствие, факторной структуры, наиболее оправданно применять метод главных компонентов. Суть данного метода состоит в замене коррелированных компонентов некоррелированными факторами. Другой важной характеристикой метода является возможность ограничиться наиболее информативными главными компонентами и исключить остальные из анализа, что упрощает интерпретацию результатов. Достоинство данного метода также в том, что он – единственный математически обоснованный метод факторного анализа.
Факторный анализ – методика комплексного и системного изучения и измерения воздействия факторов на величину результативного показателя.
Типы факторного анализа
Существуют следующие типы факторного анализа:
1) Детерминированный (функциональный) – результативный показатель представлен в виде произведения, частного или алгебраической суммы факторов.
2) Стохастический (корреляционный) – связь между результативным и факторными показателями является неполной или вероятностной.
3) Прямой (дедуктивный) – от общего к частному.
4) Обратный (индуктивный) – от частного к общему.
5) Одноступенчатый и многоступенчатый.
6) Статический и динамический.
7) Ретроспективный и перспективный.
Также факторный анализ может быть разведочным – он осуществляется при исследовании скрытой факторной структуры без предположения о числе факторов и их нагрузках и конфирматорным, предназначенным для проверки гипотез о числе факторов и их нагрузках. Практическое выполнение факторного анализа начинается с проверки его условий.
Обязательные условия факторного анализа:
- Все признаки должны быть количественными;
- Число признаков должно быть в два раза больше числа переменных;
- Выборка должна быть однородна;
- Исходные переменные должны быть распределены симметрично;
- Факторный анализ осуществляется по коррелирующим переменным.
При анализе в один фактор объединяются сильно коррелирующие между собой переменные, как следствие происходит перераспределение дисперсии между компонентами и получается максимально простая и наглядная структура факторов. После объединения коррелированность компонент внутри каждого фактора между собой будет выше, чем их коррелированность с компонентами из других факторов. Эта процедура также позволяет выделить латентные переменные, что бывает особенно важно при анализе социальных представлений и ценностей.
Этапы факторного анализа
Как правило, факторный анализ проводится в несколько этапов.
Этапы факторного анализа:
1 этап. Отбор факторов.
2 этап. Классификация и систематизация факторов.
3 этап. Моделирование взаимосвязей между результативным и факторными показателями.
4 этап. Расчет влияния факторов и оценка роли каждого из них в изменении величины результативного показателя.
5 этап. Практическое использование факторной модели (подсчет резервов прироста результативного показателя).
По характеру взаимосвязи между показателями различают методы детерминированного и стохастического факторного анализа
Детерминированный факторный анализ представляет собой методику исследования влияния факторов, связь которых с результативным показателем носит функциональный характер, т. е. когда результативный показатель факторной модели представлен в виде произведения, частного или алгебраической суммы факторов.
Методы детерминированного факторного анализа: Метод цепных подстановок; Метод абсолютных разниц; Метод относительных разниц; Интегральный метод; Метод логарифмирования.
Данный вид факторного анализа наиболее распространен, поскольку, будучи достаточно простым в применении (по сравнению со стохастическим анализом), позволяет осознать логику действия основных факторов развития предприятия, количественно оценить их влияние, понять, какие факторы, и в какой пропорции возможно и целесообразно изменить для повышения эффективности производства.
Стохастический анализ представляет собой методику исследования факторов, связь которых с результативным показателем в отличие от функциональной является неполной, вероятностной (корреляционной). Если при функциональной (полной) зависимости с изменением аргумента всегда происходит соответствующее изменение функции, то при корреляционной связи изменение аргумента может дать несколько значений прироста функции в зависимости от сочетания других факторов, определяющих данный показатель.
Методы стохастического факторного анализа: Способ парной корреляции; Множественный корреляционный анализ; Матричные модели; Математическое программирование; Метод исследования операций; Теория игр.
Необходимо также различать статический и динамический факторный анализ. Первый вид применяется при изучении влияния факторов на результативные показатели на соответствующую дату. Другой вид представляет собой методику исследования причинно-следственных связей в динамике.
И, наконец, факторный анализ может быть ретроспективным, который изучает причины прироста результативных показателей за прошлые периоды, и перспективным, который исследует поведение факторов и результативных показателей в перспективе.
Источник: Анализ и диагностика финансово хозяйственной деятельности предприятия. Учебное пособие. Бальжинов А.В., Михеева Е.В. (скачать)
Классификация статистических связей и приемы выявления и анализа взаимосвязи. —
Экономические данные представляют собой количественные характеристики каких-либо экономических объектов или процессов. Они формируются под действием множества факторов, не все из которых доступны внешнему контролю. Неконтролируемые факторы могут принимать случайные значения из некоторого множества значений и тем самым обусловливать случайность данных, которые они определяют. Стохастическая (вероятностная) природа экономических данных обусловливает необходимость применения соответствующих статистических методов для их обработки и анализа.
Исследования показывают, что вариация каждого изучаемого признака находится в тесной связи с вариацией других признаков, характеризующих исследуемую совокупность единиц. Например, вариация уровня производительности труда зависит от степени совершенства применяемой технологии, оборудования, организации производства и др.факторов.
Признаки по их сущности и значению для изучения взаимосвязи делятся на два класса. Признаки, обуславливающие изменения других, связанных с ними признаков, называются факторными (факторами). Признаки, изменяющиеся под действием факторных признаков, называются результативными.
Исследуя зависимости между признаками, необходимо выделить два типа связей:
– функциональные – характеризуются полным соответствием между изменением факторного признака и изменением результативной величины: определенному значению признака-фактора соответствует одно и только одно значение результативного признака. Функциональная зависимость может связывать результативный признак с одним или несколькими факторными признаками. Зная величину факторного признака, можно точно определить величину результативного признака. Например, величина заработной платы напрямую зависит от количества отработанных часов;
– корреляционные – между изменением двух признаков нет полного соответствия, воздействие отдельных факторов проявляется лишь в среднем, при массовом наблюдении фактических данных. Одновременное воздействие на изучаемый признак большого количества самых разнообразных факторов приводит к тому, что одному и тому же значению признака-фактора соответствует целое распределение значений результативного признака, т.к. в каждом конкретном случае прочие факторные признаки могут изменять силу и направленность своего воздействия. Таким образом, при корреляционной связи изменение среднего значения результативного признака обусловлено изменением факторных признаков. Корреляционная связь является частным случаем стохастической, при которой причинная зависимость проявляется не в каждом отдельном случае, а в общем, среднем, при большом числе наблюдений.
Изучая взаимосвязи между признаками, их классифицируют по направлению, форме и числу факторов:
– по направлению связи делятся на прямые и обратные. При прямой связи направление изменения результативного признака совпадает с направлением изменения признака-фактора. Например, чем выше квалификация рабочего, тем выше его производительность труда. При обратной связи направление изменения результативного признака противоположно направлению изменения признака-фактора.
– по форме (виду функции, по аналитическому выражению) связи делят на линейные (прямая линия) и нелинейные (параболическая, гиперболическая и т.д.). При линейной связи с возрастанием значения факторного признака происходит равномерное возрастание (убывание) значения результативного признака;
– по количеству факторов, действующих на результативный признак, связи делят на однофакторные (парные) и многофакторные.
Содержание теории корреляции составляет изучение зависимости вариации признака от окружающих условий.
Корреляционный анализ решает следующие задачи:
Отбор факторов, оказывающих наиболее существенное влияние на результативный признак, на основании измерения тесноты связи между ними.
Обнаружение ранее неизвестных причинных связей.
Установление численных значений причинных связей между параметрами и достоверности суждений об их наличии.
Основная задача корреляционного анализа – выявление взаимосвязи между случайными переменными путем точечной и интервальной оценки парных (частных) коэффициентов корреляции, вычисление и проверка значимости множественных коэффициентов корреляции и детерминации.
{7-4} \), который насыщен и является дизайном Резолюции III, и давайте сложим его.Предположим, мы запустили этот дизайн, мы обнаружили некоторые интересные эффекты, но у нас нет степеней свободы для ошибок. Итак, мы хотим взглянуть на еще одну копию этого дизайна. Вместо того, чтобы повторять тот же дизайн , тот же дизайн , мы можем сложить его.
Мы можем сложить его по всем коэффициентам или указать один коэффициент для складывания.
Складывание означает взять дизайн и поменять местами все факторы.Это было бы складкой по всем факторам.
Теперь вместо восьми наблюдений у нас 16. И если вы посмотрите на первые восемь и сравните их со вторым набором из восьми, вы увидите, что знаки просто поменялись местами.
Посмотрите на строку 1 и строку 9, и вы увидите, что у них прямо противоположные знаки. Таким образом, вы удваиваете базовый дизайн, меняя все факторы. Или вы можете думать об этом как о том, как взять одну реплику и поместить ее в блоки, теперь мы взяли два из этих блоков, чтобы создать наш дизайн.
Эти дизайны используются, чтобы узнать, как исходить из базового дизайна, когда вы, возможно, узнали что-то об одном из факторов, которые выглядят многообещающими, и хотите уделить этому фактору больше внимания. Это предполагает сворачивание не по всем факторам, а по одному конкретному фактору. Давайте разберемся, зачем вам это нужно.
В нашем первом примере выше мы начали с дизайна с разрешением III и, свернув его по всем факторам, мы увеличили разрешение на одно число, в данном случае оно идет с разрешения III на разрешение IV.Таким образом, вместо того, чтобы смешивать основные эффекты с двусторонними взаимодействиями, как это было раньше, теперь все они избавлены от двусторонних взаимодействий. Тем не менее, у нас все еще есть двусторонние взаимодействия, смешанные друг с другом.
Теперь давайте посмотрим на ситуацию, когда после первого запуска нас больше всего заинтриговал фактор B.
Теперь, вместо того, чтобы фолдить по всем факторам, мы хотим сбросить только по фактору B.
Обратите внимание на то, что в столбце для B сложенная часть полностью противоположна.Ни один из других столбцов не изменился, только столбец для фактора B. Все остальные столбцы остались прежними.
Теперь посмотрим на структуру псевдонима для этого дизайна …
результатов для: Рабочий лист 8
Факторы: | 7 | Базовая конструкция: | 7, 8 | разрешение: | III |
Запусков: | 16 | Реплики: | 1 | Фракция: | 1/8 |
Блоки: | 1 | Центральные точки (всего): | 0 |
* ПРИМЕЧАНИЕ * Некоторые основные эффекты смешиваются с двусторонним взаимодействием.
Генераторы дизайна: D = AB, E = AC, F = BC, G = ABC
Сложенный по факторам: B
Структура псевдонима
I + ACE + AFG + CDG + DEF + ACDF + ADEG + CEFG
A + CE + FG + CDF + DEG + ACDG + ADEF + ACEFG
B + ABCE + ABFG + BCDG + BDEF + ABCDF + ABDEG + BCEFG
C + AE + DG + ADF + EFG + ACFG + CDEF + ACDEG
D + CG + EF + ACF + ACDE + ADFG + CDEFG
E + AC + DF + ADG + CFG + AEFG + CDEG + ACDEF
F + AG + DE + ACD + CEG + ACEF + CDFG + ADEFG
AB + BCE + BFG + BCDF + BDEG + ABCDG + ABDEF + ABCEFG
AD + CF + EG + ACG + AEF + CDE + DFG + ACDEFG
до н.э. + ABE + BDG + ABDF + BEFG + ABCFG + BCDEF + ABCDEG
BD + BCG + BEF + ABCF + ABEG + ABCDE + ABDFG + BCDEFG
BE + ABC + BDF + ABDG + BCFG + ABEFG + BCDEG + ABCDEF
BF + ABG + BDE + ABCD + BCEG + ABCEF + BCDFG + ABDEFG
BG + ABF + BCD + ABDE + BCEF + ABCEG + BDEFG + ABCDFG
ABD + BCF + BEG + ABCG + ABEF + BCDE + BDFG + ABCDEFG
Это по-прежнему Resolution III (мы не учли все факторы, поэтому мы не перескакиваем на разрешение).Но посмотрите на фактор B, который мы свернули. Основной эффект, B, имеет псевдоним только четырехстороннего взаимодействия и выше. Также обратите внимание, что все двусторонние взаимодействия с B очищены от других двусторонних взаимодействий, поэтому их можно оценить. Таким образом, используя только один фактор, вы получите очень хорошую информацию об этом факторе и его взаимодействии. Тем не менее, это все еще дизайн с разрешением три.
Есть два назначения для складывания; один берется за другую копию с целью перехода к более высокому разрешению.Другой причиной было бы изолировать информацию о конкретном факторе. И то, и другое будет сделано в контексте проведения последовательного эксперимента, анализа этого и затем проведения второго этапа эксперимента. Если вы проводите этот двухэтапный эксперимент, выполняя вторую стадию на основе первого эксперимента, вы также должны использовать стадию как фактор блока в анализе.
Все эти схемы, даже если они являются частями эксперимента, должны быть заблокированы, если они проводятся поэтапно.
Еще один пример …
Давайте рассмотрим 8 факторов. Минимальный план теперь не может включать восемь наблюдений, а должен быть 16. Это план Резолюции IV.
Дробное факторное моделирование
Факторы: | 8 | Базовая конструкция: | 8, 16 | разрешение: | IV |
Запусков: | 16 | Реплики: | 1 | Фракция: | 1/16 |
Блоки: | 1 | Центральные точки (всего): | 0 |
Конструкторы: D = AB, E = AC, F = BC, G = ABC
Структура псевдонима (до 4-х заказов)
I + ABCG + ABDH + ABEF + ACDF + ACEH + ADEG + AFGH + BCDE + BCFH + BDFG + BEGH + CDGH + CEFG + DEFH
A + BCG + BDH + BEF + CDF + CEH + DEG + FGH
B + ACG + ADH + AEF + CDE + CFH + DFG + EGH
C + ABG + ADF + AEH + BDE + BFH + DFG + EFG
D + ABH + ACF + AEG + BCE + BFG + CGH + EFH
E + ABF + ACH + ADG + BCD + BGH + CFG + DFH
F + ABE + ACD + AGH + BCH + BDG + CEG + DEH
G + ABC + ADE + AFH + BDF + BEH + CDH + CEF
H + ABD + ACE + AFG + BCF + BEG + CDG + DEF
AB + CG + DH + EF + ACDE + ACFH + ADFG + AEGH + BCDF + BCEH + BDEG + BFGH
AC + BG + DF + EH + ABDE + ABFH + ADGH + AEFG + BCDH + BCEF + CDEG + CFGH
AD + BH + CF + EG + ABCE + ABFG + ACGH + AEFH + BCDG + BDEF + CDEH + DFGH
AE + BF + CH + DG + ABCD + ABGH + ACFG + ADFH + BCEG + BDEH + CDEF + EFGH
AF + BE + CD + GH + ABCH + ABDG + ACEG + ADEH + BCFG + BDFH + CEFH + DEFG
AG + BC + DE + FH + ABDF + ABEH + ACDH + ACEF + BDGH + BEFG + CDFG + CEGH
AH + BD + CE + FG + ABCF + ABEG + ACDG + ADEF + BCGH + BEFH + CDFH + DEGH
Эта конструкция имеет 4 генератора BCDE, ACDF, ABCG и ABDH.Это дизайн Резолюции IV, в котором есть 26 наблюдений. Хорошо, теперь мы собираемся предположить, что мы можем запускать эти эксперименты только восемь за раз, поэтому мы должны заблокировать. Мы будем использовать два блока, и у нас все еще будет тот же дробный дизайн, восемь факторов за 16 прогонов, но теперь мы хотим иметь два блока.
Мы позволяем Minitab выбирать блоки:
Дробное факторное моделирование
Факторы: | 8 | Базовая конструкция: | 8, 16 | разрешение: | III |
Запусков: | 16 | Реплики: | 1 | Фракция: | 1/16 |
Блоки: | 2 | Центральные точки (всего): | 0 |
* ПРИМЕЧАНИЕ * Блоки смешиваются с двусторонним взаимодействием.
Генераторы дизайна: E = BCD, F = ACD, G = ABC, H = ABD
Генераторы блоков: AB
Структура псевдонима (до 4-х заказов)
I + ABCG + ABDH + ABEF + ACDF + ACEH + ADEG + AFGH + BCDE + BCFH + BDFG + BEGH + CDGH + CEFG + DEFH
Blk = AB + CG + DH + EF + ACDE + ACFH + ADFG + AEGH + BCDF + BCEH + BDEG + BFGH
A + BCG + BDH + BEF + CDF + CEH + DEG + FGH
B + ACG + ADH + AEF + CDE + CFH + DFG + EGH
C + ABG + ADF + AEH + BDE + BFH + DGH + EFG
D + ABH + ACF + AEG + BCE + BFG + CGH + EFH
E + EBF + ACH + ADG + BCD + BGH + CFG + DFH
F + ABE + ACD + AGH + BCH + BDG + CEG + DEH
G + ABC + ADE + AFH + BDF + BEH + CDH + CEF
H + ABD + ACE + AFG + BCF + BEG + CDG + DEF
AC + GH + DF + EH + ABDE + ABFH + ADGH + AEFG + BCDH + BCEF + CDEG + CFGH
AD + GH + CF + EG + ABCE + ABFG + ACGH + AEFH + BCDG + BDEF + CDEH + DFGH
AE + BF + CH + DG + ABCD + ABGH + ACFG + ADFH + BCEG + BDEH + CDEF + EFGH
AF + BE + CD + GH + ABCH + ABDG + ACEG + ADEH + BCFG + BDFH + CEFH + DEFG
AG + BC + DE + FH + ABDF + ABEH + ACDH + ACEF + BDGH + BEFG + CDFG + CEGH
AH + BD + CE + FG + ABCF + ABEG + ACDG + ADEF + BCGH + BEFH + CDFH + DEGH
В этом проекте у нас есть восемь факторов, 16 прогонов и те же генераторы, но теперь нам нужен дополнительный генератор, генератор блоков.Minitab использует AB в качестве генератора блоков. Обратите внимание, что в структуре псевдонима блоки смешаны с термином AB.
Обратите также внимание на то, что термин AB не проявляется ниже как оцениваемый эффект. Это был бы эффект, который мы могли бы оценить, но теперь он смешан с блоками. Таким образом, при смешивании с блоками используется одна дополнительная степень свободы.
Единственный выбор, который имела программа, — это выбрать один из этих эффектов, которые ранее можно было оценить, и смешать их с блоками.Программа выбрала одно из этих двусторонних взаимодействий, и это означает, что теперь блоки смешиваются с двусторонним взаимодействием.
Мы все еще можем заблокировать эти дробные планы, и это полезно делать, если вы можете выполнять только определенное количество за раз. Однако, если вы проводите последовательные эксперименты, вам следует заблокировать их только потому, что вы делаете это поэтапно.
Экономьте время с дробным факторным DOE
Дизайн экспериментов (DOE) — ключевой инструмент в методологии шести сигм.DOE помогают улучшить процессы квантовым образом и представляют собой подход к эффективному и действенному исследованию причинно-следственных связей между многочисленными переменными процесса ( X с) и выходом или переменной производительности процесса ( Y ).
DOE помогает следующим образом:
- DOE помогает идентифицировать несколько жизненно важных источников отклонений.
- DOE количественно оценивают эффекты важных X s, включая их взаимодействия.
- Выполнение DOE дает уравнение, которое количественно определяет взаимосвязь между процессом X s и выходом процесса Y , что позволяет перейти к философии Y = f (x) Шести сигм.
Существует много типов УОО, которые могут применяться к конкретной проблеме на основе различных факторов планирования и желаемого результата в конце анализа. В этой статье мы попытаемся объяснить стратегию анализа, которую черный пояс может предпринять для Плана экспериментов Резолюции III и IV.
Хотя полный факторный план является наиболее желательным планом, в котором можно собрать информацию обо всех основных эффектах, двухсторонние взаимодействия, трехсторонние взаимодействия и другие взаимодействия более высокого порядка очень непрактичны для выполнения из-за недопустимых размеров экспериментов. Для плана из семи факторов на двух уровнях необходимо выполнить 128 прогонов.
Дробные факторные планы — хорошая альтернатива полному факторному плану, особенно на начальной стадии проекта.Те же семь факторов можно было проверить либо в 8 прогонах, либо в 16 прогонах, либо в 32 прогонах с потерей определенной информации.
- Разрешение III DOE: план, в котором эффекты основных факторов смешиваются с взаимодействиями двух факторов и более высокого порядка.
- Резолюция IV DOE: план, в котором основные эффекты смешиваются с трехфакторными взаимодействиями и взаимодействиями более высокого порядка, а все двухфакторные взаимодействия смешиваются с двухфакторными взаимодействиями и взаимодействиями более высокого порядка.
- Разрешение V DOE: план, в котором основные эффекты смешиваются с взаимодействиями четырех факторов и более высокого порядка, а взаимодействия двух факторов смешиваются с взаимодействиями трех факторов и взаимодействиями более высокого порядка.
Разрешение III и Разрешение IV — это очень часто используемые конструкции при скрининге различных факторов на этапах анализа и улучшения шести сигм.
Проблема, с которой сталкиваются при использовании этих планов разрешения, заключается в смешанной структуре планов, однако три фундаментальных принципа факторных эффектов могут быть эффективно использованы для анализа этих планов.
Принцип иерархической упорядоченности
- Эффекты более низкого порядка более важны, чем эффекты более высокого порядка.
- Эффекты одного порядка одинаково важны.
Этот принцип предполагает, что при нехватке ресурсов приоритет следует отдавать оценке эффектов более низкого порядка. Его применение особенно эффективно при большом количестве факторных эффектов. Это эмпирический принцип , справедливость которого подтверждена во многих реальных экспериментах
Принцип разреженности эффектов
- Число относительно важных эффектов в факторном эксперименте невелико.
Этот принцип можно также назвать принципом Парето в экспериментальном дизайне.
Эффект Принцип наследственности
- Чтобы взаимодействие было значимым, должен быть значимым хотя бы один из его родительских факторов.
Третий принцип регулирует отношения между взаимодействием и его родительскими факторами. Этот принцип очень полезен для устранения искажения структуры.
Чтобы понять метод анализа для Резолюции III и IV Планирование экспериментов, мы рассмотрим пример и покажем, как можно эффективно использовать три принципа.
Пример использования / обучения
Эксперимент был проведен в секции намотки для намотки пряжи с пряжей (небольшой узел спутанного волокна, часто возникающий в результате обработки), образовавшийся на пряже, являющейся ответной реакцией. Ниже представлена использованная матрица дизайна. Эксперимент проводился в двух блоках для устранения влияния влажности на образование нэпов. Это эксперимент с Резолюцией IV, который означает, что взаимодействия двух факторов смешиваются с взаимодействиями двух факторов. Были проведены эксперименты с семью факторами на двух уровнях с двумя повторениями.
Данные были проанализированы с помощью Minitab, но многие другие статистические программы могут помочь выполнить этот анализ. Сначала выбираются все факторы и два возможных фактора, чтобы выявить значимые эффекты. Ниже показаны диаграмма Парето и нормальный график для эффектов при альфа-значении 0,1.
Оба графика показывают, что основными факторами значимости являются:
- Фактор A — скорость
- Фактор F — начальное качество пряжи, а
- Взаимодействие B * D (настройка пакета и шпульки)
Однако давайте вспомним, что это дизайн Резолюции IV, так что существует путаница.Прежде чем делать какие-либо выводы, нам необходимо внимательно изучить структуру псевдонимов. Структура псевдонима приведена ниже:
Используя принцип иерархического упорядочивания, мы можем заключить, что скорость и начальное качество пряжи являются важными факторами, поскольку они смешиваются с трехфакторным взаимодействием.
При просмотре взаимодействия между пакетом и настройкой шпульки мы обнаруживаем, что он имеет следующий псевдоним:
упаковка * бобинсет + натяжение * начальное + тяговое усилие * натяжение
Используя принцип наследственности эффекта, мы видим, что, хотя [package * bobbin setting] было показано как значимое на диаграмме Парето, ни пакет, ни настройки катушки сами по себе не являются значимыми, исключающими возможность того, что это взаимодействие является значимым.Единственное взаимодействие в псевдониме, которое имеет, по крайней мере, один значимый фактор, — это [натяжение * начальное], при котором значима начальная пряжа. Таким образом, существенное взаимодействие — это [натяжение * начальное], а не [упаковка * установка бобины].
Информация, собранная выше, дополнительно подтверждается графиками взаимодействия и инженерной логикой.
Как видно выше, было относительно легко проанализировать эксперимент, используя три принципа. Основываясь на этой информации, мы можем теперь подобрать уменьшенную модель.Мы можем проверить наши различные предположения, проверив остатки, как показано ниже:
В остаточном анализе в первую очередь следует обратить внимание на три точки:
- В остаточном и временном порядке проверьте стабильность во времени. Остатки должны указывать на случайный разброс. По остаткам не должно быть трендов.
- В сравнении с подобранными значениями остатков мы проверяем постоянство дисперсии. Этот график также должен показывать случайный разброс.Если наблюдаются какие-либо тенденции, вероятно, потребуется применить некоторые методы преобразования данных.
- Остатки должны быть нормально распределены в качестве третьего требования.
Важно проверить эти допущения, прежде чем пытаться построить математическую модель.
В нашем примере остаточный анализ не показывает аварийных сигналов, поэтому теперь мы можем взглянуть на подобранную математическую модель, которая приведена ниже:
На основе математической модели, подобранной выше, мы можем делать прогнозы относительно ответа:
Теперь мы можем запустить подтверждающее испытание и проверить, совпадают ли прогнозы, сделанные моделью, и фактические условия.
Таким образом, если мы используем три фундаментальных принципа факторных эффектов:
Можно анализировать большинство планов экспериментов согласно Резолюции III и IV, не проводя равное количество ранее проведенных испытаний, но с обратными знаками (также известными как сворачивание).
Номер ссылки
Ву, К. Ф. Джефф Ву и Майкл Хамада, 2000. Эксперименты: планирование, анализ и оптимизация проектирования параметров . Первое издание: Wiley-Interscience.
Вам также может понравиться 5.
Совершенствование процессов 5.3. Выбор экспериментального дизайна 5.3.3. Как выбрать экспериментальный дизайн? 5.3.3.4. Дробные факторные планы
| |||
Полезны дробные факторные планы до 10 факторов: Обобщено здесь | Есть очень полезные резюме двухуровневого дробного факториала. дизайны до 11 факторов, изначально опубликованные в книге Статистика для экспериментаторов Дж.E.P. Бокс, У.Г. Хантер и J.S. Хантер (Нью-Йорк, John Wiley & Sons, 1978), а также в книге Планирование и анализ экспериментов, 5-е издание Дугласа К. Монтгомери (Нью-Йорк, John Wiley & Sons, 2000). | ||
В обозначении столбца генератора для обозначения факторные столбцы | Они различаются обозначениями для генераторы дизайна. Коробка, Охотник, и Хантер используют числа (как мы это делали в нашем ранее обсуждение) и Монтгомери использует заглавные буквы по следующей схеме: Обратите внимание на отсутствие буквы I.Обычно это зарезервировано для столбец перехвата, идентичный 1. В качестве примера буквы обозначение, обратите внимание, что генератор схемы «6 = 12345» эквивалентен «F = ABCDE». | ||
Детали генераторов дизайна, определяющие отношения, смешивающая структура и матрица проектирования | ТАБЛИЦА 3.17 каталогизирует эти полезные дробные факторные планы с использованием обозначения, ранее описанные на РИСУНКЕ 3. {k-p} \) спецификация для данного дизайна предоставляет подробные сведения (любезно предоставлено Dataplot файлы) генераторов проекта, определяющее соотношение, смешивающее структура (насколько основные эффекты и двухуровневые взаимодействия затронутые), и матрица дизайна. Используемые обозначения соответствуют нашим предыдущая маркировка факторов числами, а не буквами. | ||
Щелкните спецификацию дизайна в таблице ниже и текстовый файл. с подробностями о дизайне можно посмотреть или сохранить | ТАБЛИЦА 3.17: Сводка полезного дробного числа
Факториальные дизайны
|
Статистическое руководство для лесных исследований
Статистическое руководство для лесных исследований4.4. Факторные эксперименты
На переменную (ы) отклика в любом эксперименте может влиять ряд факторов в общей системе, некоторые из которых контролируются или поддерживаются на желаемых уровнях в эксперименте. Эксперимент, в котором лечение состоит из всех возможных комбинаций выбранных уровней двух или более факторов, называется факторным экспериментом. Например, эксперимент по укоренению черенков с участием двух факторов, каждый на двух уровнях, таких как два гормона в двух дозах, называется факторным экспериментом 2 x 2 или 2 2 .Его лечение состоит из следующих четырех возможных комбинаций двух уровней каждого из двух факторов.
Лечебная комбинация | ||
Номер обращения | Гормон | Доза (ppm) |
1 | NAA | 10 |
2 | NAA | 20 |
3 | МБА | 10 |
4 | МБА | 20 |
Термин полный факторный эксперимент иногда используется, когда обработки включают все комбинации выбранных уровней факторов.Напротив, термин дробный факторный эксперимент используется, когда проверяется только часть всех комбинаций. Однако в этом руководстве полные факторные эксперименты называются просто факторными экспериментами. Обратите внимание, что термин факториал описывает конкретный способ формирования методов лечения и никоим образом не относится к плану, используемому для проведения эксперимента. Например, если вышеупомянутый факторный эксперимент 2 2 находится в рандомизированном полном блочном дизайне, то правильным описанием эксперимента будет 2 2 факторный эксперимент в рандомизированном полном блочном дизайне.
Общее количество обработок в факторном эксперименте — произведение количества уровней каждого фактора; в примере факториала 2 2 количество обработок равно 2 x 2 = 4, в факториале 2 3 количество обработок равно 2 x 2 x 2 = 8. Количество обработок быстро увеличивается с увеличением в количестве факторов или увеличении уровней в каждом факторе. Для факторного эксперимента, включающего 5 клонов, 4 эспейсмента и 3 метода борьбы с сорняками, общее количество обработок будет 5 x 4 x 3 = 60.Таким образом, следует избегать неизбирательного использования факторных экспериментов из-за их большого размера, сложности и стоимости. Кроме того, неразумно брать на себя обязательства по большому эксперименту в начале исследования, когда несколько небольших предварительных экспериментов могут дать многообещающие результаты. Например, селекционер собрал 30 новых клонов из соседней страны и хочет оценить их реакцию на местную среду. Поскольку ожидается, что окружающая среда будет различаться с точки зрения плодородия почвы, уровня влажности и т. Д., Идеальным экспериментом будет тот, который проверяет 30 клонов в факторном эксперименте с участием таких других переменных факторов, как удобрения, уровень влажности и плотность населения.Однако такой эксперимент становится чрезвычайно масштабным, поскольку добавляются другие факторы, кроме клонов. Даже если бы был включен только один фактор, скажем, азот или удобрение с тремя уровнями, количество обработок увеличилось бы с 30 до 90. Такой крупный эксперимент означал бы трудности с финансированием, получением адекватной экспериментальной площади, контролем неоднородности почвы и скоро. Таким образом, более практичным подходом было бы сначала протестировать 30 клонов в однофакторном эксперименте, а затем использовать результаты для отбора нескольких клонов для более подробных исследований.Например, первоначальный однофакторный эксперимент может показать, что только пять клонов являются достаточно выдающимися, чтобы требовать дальнейшего тестирования. Эти пять клонов затем можно было поставить в факторный эксперимент с тремя уровнями азота, что привело бы к эксперименту с 15 обработками, а не с 90 обработками, необходимыми для факторного эксперимента с 30 клонами.
Эффект фактора определяется как среднее изменение реакции, вызванное изменением уровня этого фактора.Это часто называют основным эффектом. Например, рассмотрим данные в таблице 4.12.
Таблица 4.12. Данные факторного эксперимента 2×2
Фактор B | |||
Уровень | б 1 | б 2 | |
а 1 | 20 | 30 | |
Фактор A | |||
а 2 | 40 | 52 |
Основное влияние фактора A можно представить как разницу между средним ответом на первом уровне A и средним ответом на втором уровне A.Численно это
То есть увеличение коэффициента А с уровня 1 до уровня 2 вызывает среднее увеличение ответа на 21 единицу. Точно так же основной эффект B —
Если факторы появляются более чем на двух уровнях, вышеуказанная процедура должна быть изменена, поскольку существует множество способов выразить разницу между средними ответами.
Основным преимуществом проведения факторного эксперимента является получение информации о взаимодействии факторов.В некоторых экспериментах мы можем обнаружить, что разница в реакции между уровнями одного фактора не одинакова на всех уровнях других факторов. Когда это происходит, существует взаимодействие между факторами. Например, рассмотрим данные в таблице 4.13.
Таблица 4.13. Данные факторного эксперимента 2×2
Фактор B | |||
Уровни | б 1 | б 2 | |
а 1 | 20 | 40 | |
Фактор A | |||
а 2 | 50 | 12 |
На первом уровне фактора B эффект фактора A равен
А = 50-20 = 30
, а на втором уровне фактора B эффект фактора A равен
А = 12-40 = -28
Поскольку эффект A зависит от уровня, выбранного для фактора B, мы видим, что существует взаимодействие между A и B.
Эти идеи можно проиллюстрировать графически. На рисунке 4.5 представлены данные ответа в таблице 4.12. против фактора A для обоих уровней фактора B.
Рисунок 4.5. Графическое изображение отсутствия взаимодействия между факторами.
Обратите внимание, что линии b 1 и b 2 приблизительно параллельны, что указывает на отсутствие взаимодействия между факторами A и B.
Аналогично, рисунок 4.6 отображает данные ответа в Таблице 4.13. Здесь мы видим, что прямые b 1 и b 2 не параллельны. Это указывает на взаимодействие между факторами A и B. Графики, подобные этим, часто очень полезны для интерпретации значимых взаимодействий и для сообщения результатов нестатистически подготовленному руководству. Однако их не следует использовать в качестве единственного метода анализа данных, поскольку их интерпретация субъективна, а их внешний вид часто вводит в заблуждение.
Рисунок 4.6. Графическое представление взаимодействия факторов.
Обратите внимание, что при большом взаимодействии соответствующие основные эффекты не имеют практического значения. Для данных таблицы 4.13 мы бы оценили основной эффект от A как
.= 1
, что очень мало, и мы склонны заключить, что нет никакого эффекта, вызванного A. Однако, когда мы исследуем эффекты A на разных уровнях фактора B, мы видим, что это не так.Фактор A имеет эффект, но он зависит от уровня фактора B , то есть . Значительное взаимодействие часто маскирует значимость основных эффектов. При наличии значительного взаимодействия экспериментатор обычно должен исследовать уровни одного фактора, скажем А, с фиксированным уровнем других факторов, чтобы сделать выводы об основном эффекте А.
Для большинства факторных экспериментов количество обработок обычно слишком велико для эффективного использования полного блочного дизайна.Однако существуют специальные типы планов, разработанные специально для больших факторных экспериментов, такие как смешанные планы. Описание использования таких конструкций можно найти у Даса и Гири (1980).
4.4.1. Дисперсионный анализ
Любая из полных блочных схем, обсуждаемых в разделах 4.2 и 4.3 для однофакторных экспериментов, применима к факторному эксперименту. Процедуры рандомизации и компоновки индивидуальных планов применимы напрямую, просто игнорируя факторный состав факторных обработок и рассматривая все виды лечения, как если бы они не были связаны между собой.Для анализа дисперсии также непосредственно применимы расчеты, описанные для отдельных проектов. Однако требуются дополнительные вычислительные шаги для разделения суммы квадратов обработки на факторные компоненты, соответствующие основным эффектам отдельных факторов и их взаимодействиям. Процедура такого разделения одинакова для всех полных блочных схем и поэтому проиллюстрирована только для одного случая, а именно для RCBD.
Проиллюстрирована пошаговая процедура дисперсионного анализа двухфакторного эксперимента с бамбуком, включающего два уровня интервала (фактор A) и три уровня возраста при посеве (фактор A), изложенные в RCBD с тремя повторностями. здесь.Список шести комбинаций факторной обработки показан в таблице 4.14, схема эксперимента — на рисунке 4.7, а данные — в таблице 4.15.
Таблица 4.14. Комбинации факторного лечения 2 x 3 для двух уровней интервалов и трех уровней возраста.
Возраст при посадке | Расстояние (м) | |
(месяц) | 10 м x 10 м | 12 м x 12 м |
( 1 ) | ( 2 ) | |
6 (б 1 ) | а 1 б 1 | а 2 б 1 |
12 (б 2 ) | а 1 б 2 | а 2 б 2 |
24 (б 3 ) | а 1 б 3 | а 2 б 3 |
Репликация I Репликация II Репликация III
а 2 б 3 | а 2 б 3 | а 1 б 2 | ||
а 1 б 3 | а 1 б 2 | а 1 б 1 | ||
а 1 б 2 | а 1 б 3 | а 2 б 2 | ||
а 2 б 1 | а 2 б 1 | а 1 б 3 | ||
а 1 б 1 | а 2 б 2 | а 2 б 1 | ||
а 2 б 2 | а 1 б 1 | а 2 б 3 |
Рисунок 4.7. Примерная схема 23 факторных экспериментов, включающих два уровня интервалов и три уровня возраста в RCBD с 3 повторениями.
Таблица 4.15. Средняя максимальная высота стебля Bambusa arundinacea , испытанная с тремя возрастными уровнями и двумя уровнями интервала в RCBD.
Лечение | Максимальная высота стебля комка (см) | Лечение | ||
комбинация | Rep.Я | Rep. II | Rep. III | всего ( T ij ) |
а 1 б 1 | 46,50 | 55,90 | 78,70 | 181,10 |
а 1 б 2 | 49.50 | 59,50 | 78,70 | 187,70 |
а 1 б 3 | 127,70 | 134,10 | 137,10 | 398,90 |
а 2 б 1 | 49.30 | 53,20 | 65,30 | 167.80 |
а 2 б 2 | 65,50 | 65,00 | 74,00 | 204,50 |
а 2 б 3 | 67.90 | 112,70 | 129,00 | 309.60 |
Всего репликаций ( R k ) | 406,40 | 480,40 | 562.80 | G = 1449,60 |
Шаг 1. Обозначим количество репликаций r , количество уровней фактора A ( i.e ., интервал) на a, и фактор B ( т.е. ., возраст) на b. Постройте схему дисперсионного анализа следующим образом:
Таблица 4.16. Схематическое изображение ANOVA факторного эксперимента с двумя уровнями фактора A, тремя уровнями фактора B и с тремя повторениями в RCBD.
Источник изменения | Степени свободы ( df ) | Сумма квадратов ( SS ) | Среднее квадратическое | Вычислено f |
Репликация | р-1 | ССР | MSR | |
Лечение | ab- 1 | нержавеющая сталь | МСТ | |
А | а- 1 | SSA | MSA | |
Б | б — 1 | SSB | MSB | |
AB | ( a -1) ( b -1) | SSAB | MSAB | |
Ошибка | ( r -1) (ab -1) | SSE | MSE | |
Итого | раб -1 | ССТО |
Шаг 2.Вычислите общее количество обработок (T ij ), общее количество репликаций ( R k ) и общую сумму ( G ), как показано в таблице 4.15, и вычислите SSTO , SSR , . SST и SSE в соответствии с процедурой, описанной в разделе 4.3.3. Пусть y ijk относится к наблюдению, соответствующему i -му уровню фактора A и j -му уровню фактора B в k -й репликации.
(4,22)
ССТО (4,23)
= 17479,10
ССР (4,24)
= 2040,37
SST (4,25)
= 14251,87
SSE = SSTO — SSR — SST (4.26)
= 17479,10 — 2040,37 — 14251,87
= 1186,86
Предварительный дисперсионный анализ показан в таблице 4.17.
Таблица 4.17. Предварительный дисперсионный анализ данных в таблице 4.15.
Источник изменения | Степень свободы | Сумма квадратов | Среднее квадратическое | Вычислено F | Табличный F 5% |
Репликация | 2 | 2040.37 | 1020,187 | 8,59567 * | 4,10 |
Лечение | 5 | 14251,87 | 2850.373 | 24.01609 * | 3,33 |
Ошибка | 10 | 1186.86 | 118,686 | ||
Итого | 17 | 17479.10 |
* Значительно на уровне 5%.
Шаг 3. Постройте двустороннюю таблицу итогов фактора A x фактор B с вычисленными итоговыми значениями фактора A и итоговыми значениями фактора B.В нашем примере таблица итоговых значений «Интервал x возраст» ( AB ) с рассчитанными итоговыми значениями интервалов ( A ) и итоговыми значениями возраста ( B ) показана в таблице 4.18.
Таблица 4.18. Таблица итоговых значений Интервал x Возраст для данных в Таблице 4.15.
Возраст | Шаг | Итого | ||
а 1 | а 2 | (B j ) | ||
б 1 | 181.10 | 167.80 | 348,90 | |
б 2 | 187,70 | 204,50 | 392,20 | |
б 3 | 398,90 | 309.60 | 708.50 | |
Всего ( A i ) | 767,70 | 681,90 | G = 1449,60 |
Шаг 4. Вычислите три факторных компонента суммы квадратов обработки как:
SSA = (4,27)
= 408.98
SSB = (4,28)
= 12846,26
SSAB = SST — SSA — SSB (4,29)
= 14251,87 — 408,98 — 12846,26
= 996,62
Шаг 5. Вычислите средний квадрат для каждого источника вариации, разделив каждую сумму квадратов на соответствующие степени свободы, и получите отношения F для каждого из трех факторных компонентов в соответствии со схемой, приведенной в таблице 4.16
Шаг 6. Введите все значения, полученные на шагах 3–5 в предварительный дисперсионный анализ на шаге 2, как показано в таблице 4.19.
Таблица 4.19. ANOVA данных в таблице 4.15 из факторного эксперимента 2 x 3 в RCBD.
Источник изменения | Степень свободы | Сумма квадратов | Среднее квадратическое | Вычислено F | Табличный F 5% |
Репликация | 2 | 2040.37 | 1020,187 | 8,60 * | 4,10 |
Лечение | 5 | 14251,87 | 2850.373 | 24,07 * | 3,33 |
А | 1 | 12846.26 | 6423.132 | 3,45 | 4,96 |
Б | 2 | 408,98 | 408.980 | 54,12 * | 4,10 |
AB | 2 | 996.62 | 498,312 | 4,20 * | 4,10 |
Ошибка | 10 | 1186,86 | 118,686 | ||
Итого | 17 | 17479.10 |
Шаг 7. Сравните каждое вычисленное значение F с табличным значением F , полученным из Приложения 3, с f 1 = df числителя MS и f 2 = df знаменателя MS, на желаемом уровне значимости. Например, вычисленное значение F для основного эффекта фактора A сравнивается с табличными значениями F (с f 1 = 1 и f 2 = 10 степеней свободы) 4.96 на уровне значимости 5%. Результат показывает, что основной эффект фактора A (интервал) не является значимым на 5% уровне значимости.
Шаг 8. Вычислите коэффициент вариации как:
(4,30)
Сравнение средств
В факторном эксперименте сравнение эффектов бывает разного типа. Например, факторный эксперимент 2×3 имеет четыре типа средств, которые можно сравнивать.
Тип- (1) Два средних значения A, усредненные по всем трем уровням фактора B
Тип- (2) Три средних значения B, усредненные по обоим уровням фактора A
Тип (3) Шесть значений A, по два средних на каждом из трех уровней фактора B
Тип (4) Шесть средних значений B, три средних на каждом из двух уровней фактора A
Среднее значение Типа (1) — это среднее значение 3 – наблюдений, Тип– (2) — среднее значение 2 – наблюдений, а Тип– (3) или Тип– (4) — среднее значение r наблюдений.Таким образом, формула подходит только для средней разницы, включающей средние значения типа (3) или типа- (4). Для значений типа (1) и типа- (2) делитель r в формуле следует заменить на 3 r и 2 r соответственно. То есть для сравнения двух средних значений A, усредненных по всем уровням фактора B, значение вычисляется как и для сравнения любой пары средних значений B , усредненных по всем уровням фактора A, значение вычисляется как или просто.
В качестве примера рассмотрим факторный эксперимент 2×3, данные которого показаны в таблице 4.15. Дисперсионный анализ показывает значительную взаимосвязь между интервалами и возрастом, указывая на то, что влияние возраста меняется с изменением интервалов. Следовательно, сравнение между средними значениями возраста, усредненными по всем уровням интервалов, или между средними значениями интервалов, усредненными по всем уровням возраста, бесполезно. Более подходящими средними сравнениями являются сравнения между средними значениями возраста при одинаковом уровне интервала или между средними значениями интервалов одного и того же возраста. Сравнение средних интервалов между интервалами для одного и того же возраста проиллюстрировано ниже.Шаги, необходимые для вычисления LSD для сравнения двух средних интервалов на одном и том же возрастном уровне, составляют
.Шаг 1. Вычислите стандартную ошибку средней разницы по формуле для сравнения. Введите — (3) как
.(4,31)
=
, где значение ошибки MS , равное 118,686, получено из дисперсионного анализа таблицы 4.19.
Шаг 2. Из приложения 2 получите табличное значение t для ошибки df (10 df ), которое равно 2.23 на уровне значимости 5% и вычислите LSD как,
=
Шаг 3. Составьте двустороннюю таблицу средних значений «Интервал x возраст», как показано в таблице 4.20. Для каждой пары уровней интервала, которые нужно сравнить на одном и том же возрастном уровне, вычислите среднюю разницу и сравните ее со значением LSD, полученным на шаге 2. Например, средняя разница в высоте стебля между двумя уровнями интервала на возрастном уровне 12 лет. месяцев при посадке 5,6 см. Поскольку эта средняя разница меньше, чем значение LSD на уровне значимости 5%, она не является значимой.
Таблица 4.20. Таблица Средних значений высоты стебля «Интервал x Возраст» на основе данных Таблицы 4.15.
Возраст при посадке | Расстояние (м) | |
(месяц) | 10 м x 10 м | 12 м x 12 м |
Средняя высота стебля (см) | ||
6 | 60.37 | 55,93 |
12 | 62,57 | 68,17 |
24 | 132,97 | 103.20 |
4.5. Дробный факторный план
В факторном эксперименте по мере увеличения числа факторов, подлежащих тестированию, полный набор факторных обработок может стать слишком большим для одновременного тестирования в одном эксперименте.Логической альтернативой является экспериментальный план, который позволяет тестировать только часть от общего числа обработок. Планом, уникально подходящим для экспериментов с большим количеством факторов, является дробно-факторный план (FFD). Он обеспечивает систематический способ выбора и тестирования только части полного набора комбинаций факторного лечения. Взамен, однако, теряется информация о некоторых заранее выбранных эффектах. Хотя эта потеря информации может быть серьезной в экспериментах с одним или двумя факторами, такая потеря становится более терпимой при большом количестве факторов.Количество эффектов взаимодействия быстро увеличивается с увеличением количества задействованных факторов, что позволяет гибко выбирать конкретные эффекты, которыми можно пожертвовать. Фактически, в случаях, когда заранее известно, что некоторые конкретные эффекты являются небольшими или несущественными, использование FFD приводит к минимальной потере информации.
На практике эффекты, которыми чаще всего жертвуют при использовании FFD, являются взаимодействиями высокого порядка — четырехфакторными или пятифакторными взаимодействиями, а иногда даже трехфакторными взаимодействиями.Почти во всех случаях, если у исследователя нет предварительной информации, указывающей на иное, он должен выбрать набор методов лечения для тестирования, чтобы можно было оценить все основные эффекты и двухфакторные взаимодействия. В исследованиях лесного хозяйства FFD будет использоваться в поисковых испытаниях, основная цель которых состоит в изучении взаимодействия между факторами. Для таких испытаний наиболее подходящими FFD являются те, которые жертвуют только теми взаимодействиями, которые включают более двух факторов.
С FFD количество эффектов, которые можно измерить, быстро уменьшается с уменьшением количества проверяемых обработок.Таким образом, когда количество эффектов, которые необходимо измерить, велико, количество проверяемых обработок, даже с использованием FFD, может быть слишком большим. В таких случаях дальнейшее уменьшение размера эксперимента может быть достигнуто за счет уменьшения количества повторений. Хотя использование FFD без репликации нечасто в экспериментах в лесном хозяйстве, когда FFD применяется к исследовательским испытаниям, количество требуемых репликаций может быть сокращено до минимума.
Другой желательной особенностью FFD является то, что он позволяет уменьшить размер блока, не требуя, чтобы в блоке содержались все процедуры, подлежащие тестированию.Таким образом, однородность экспериментальных единиц в одном блоке может быть улучшена. Однако уменьшение размера блока сопровождается потерей информации в дополнение к той, которая уже была потеряна из-за сокращения количества обработок. Хотя FFD, таким образом, может быть адаптирован для большинства факторных экспериментов, процедура для этого является сложной, и поэтому здесь описан только конкретный класс FFD, который подходит для поисковых испытаний в лесохозяйственных исследованиях. Основными особенностями этих выбранных планов являются то, что они (i) применимы только к 2 n факторным экспериментам, где n , количество факторов не менее 5, (ii) задействована только половина полного набора Комбинации факторного лечения, обозначенные как 2 n- 1 (iii) позволяют оценить все основные эффекты и двухфакторные взаимодействия.Для более сложных планов можно обратиться к Дасу и Гири (1980).
Процедура компоновки и дисперсионного анализа 2 5 — 1 FFD с полевым экспериментом, включающим пять факторов A, B, C, D и E, проиллюстрирована ниже. В обозначении различных комбинаций лечения буквы a, b, c ,, используются для обозначения наличия (или высокого уровня) факторов A, B, C , Таким образом, комбинация лечения ab в 2 5 Факторный эксперимент относится к комбинации лечения, которая содержит высокий уровень (или присутствие) факторов A и B и низкий уровень (или отсутствие) факторов C, D и E , , но то же обозначение (ab) в 2 6 Факторный эксперимент будет относиться к комбинации лечения, которая содержит высокий уровень факторов A и B и низкий уровень факторов C, D, E и F . Во всех случаях комбинация лечения, состоящая из всех факторов низкого уровня, обозначается символом (1).
4.5.1. Строительство по проекту и макету
Один простой способ получить желаемую долю факторных комбинаций в 2 5-1 FFD — это использовать вывод о том, что в факторном испытании 2 5 эффект ABCDE может быть оценен из выражения, возникающего из разложения члена (a-1) (b-1) (c-1) (d-1) (e-1), что составляет
(a-1) (b-1) (c-1) (d-1) (e-1) = abcde — acde — bcde + cde — abde + ade + bde — de
— abce + ace + bce — ce + abe — ae — be + e
— abcd + acd + bcd — cd + abd — ad — bd + d
+ abc — ac — bc + c — ab + a + b — 1
Основываясь на признаках (положительных или отрицательных), связанных с обработками в этом выражении, из полного факторного набора могут быть сформированы две группы обработок.Сохраняя только один набор с отрицательными или положительными знаками, мы получаем половину доли факторного эксперимента 2 5 . Два набора процедур показаны ниже.
Лечение с отрицательными признаками | Процедуры с положительными признаками |
acde, bcde, abde, de, abce, ce, ae, be, | abcde, bcde, abde, de, abce, ce, ae, be, |
abcd, cd, ad, bd, ac, bc, ab, 1 | abcd, cd, ad, bd, ac, bc, ab, 1 |
Вследствие уменьшения количества обработок, включенных в эксперимент, мы не сможем оценить эффект ABCDE, используя дробную совокупность.Все основные эффекты и двухфакторные взаимодействия можно оценить в предположении, что все трехфакторные взаимодействия и взаимодействия более высокого порядка пренебрежимо малы. Процедуру можно обобщить в том смысле, что в эксперименте 2 6 можно взять половину фракции, сохранив обработки с отрицательными или положительными знаками в разложении для (a-1) (b-1) (c-1 ) (d-1) (e-1) (f-1).
FFD относится только к способу выбора обработок с факторной структурой, и результирующие факторные комбинации могут быть приняты как набор обработок для физического эксперимента, который будет размещен в любом стандартном дизайне, таком как CRD или RCBD.Пример рандомизированного макета для 2 5 — 1 FFD в RCBD с двумя повторениями показан на рисунке 4.8.
1 из | 9 ab | 1 abce | 9 acde | |
2 1 | 10 добавление | 2 кд | 10 бд | |
3 acde | 11 объявление | 3 по | 11 из | |
4 в.в. | 12 abce | 4 объявление | 12 до н.э. | |
5 CE | 13 по | 5 в.в. | 13 CE | |
6 ac | 14 до н.э. | 6 abcd | 14 1 | |
7 до н.э. | 15 баррель | 7 abce | 15 ac | |
8 бд | 16 кд | 8 до н.э. | 16 по |
Репликация I Репликация II
Рисунок 4.8. Образец макета 2 5-1 FFD с двумя повторениями под RCBD.
4.5.2. Дисперсионный анализ.
Процедура дисперсионного анализа 2 5 — 1 FFD с 2 повторениями проиллюстрирована с использованием метода Йейтса для вычисления сумм квадратов. Этот метод подходит для ручного расчета больших факторных экспериментов. В качестве альтернативы, стандартные правила вычисления сумм квадратов при дисперсионном анализе путем построения односторонних итоговых таблиц для вычисления основных эффектов, двусторонних итоговых таблиц для двухфакторных взаимодействий и т. Д., Как показано в разделе 4 .4.1 также может быть принят в этом случае.
Анализ 2 5 — 1 FFD проиллюстрирован с использованием гипотетических данных испытания, схема которого показана на рис. 4.8 и соответствует схеме RCBD. Полученный результат по урожайности кормов (т / га) при различных комбинациях обработки представлен в Таблице 4.21. Эти пять факторов были связаны с различными компонентами схемы управления почвой, включающей внесение органических веществ, удобрений, гербицидов, воды и извести.
Таблица 4.21. Данные по урожайности кормов из факторного эксперимента 2 5-1
Лечение комбинация | Урожайность кормов (т / га) | Всего лечения ( T i ) | |
Репликация I | Репликация II | ||
acde | 1.01 | 1,04 | 2,06 |
до н.э. | 1.01 | 0,96 | 1,98 |
abde | 0,97 | 0,94 | 1,92 |
из | 0.82 | 0,75 | 1,58 |
abce | 0,92 | 0,95 | 1,88 |
CE | 0,77 | 0,75 | 1,53 |
в.в. | 0.77 | 0,77 | 1,55 |
по | 0,76 | 0,80 | 1,57 |
abcd | 0,97 | 0,99 | 1,97 |
кд | 0.92 | 0,88 | 1,80 |
объявление | 0,80 | 0,87 | 1,68 |
бд | 0,82 | 0,80 | 1,63 |
ac | 0.91 | 0,87 | 1,79 |
до н.э. | 0,79 | 0,76 | 1,55 |
ab | 0,86 | 0,87 | 1,74 |
1 | 0.73 | 0,69 | 1,42 |
Всего репликаций ( R j ) | 13,83 | 13,69 | |
Всего (G) | 27,52 |
r — Факториал — Четырехфакторный дисперсионный анализ — Как найти статистически эффективную комбинацию
Мне нужно проанализировать набор данных эксперимента, чтобы найти наиболее эффективную комбинацию реакции молекулярной биологии.
В эксперименте используются четыре фактора: температура, частота вращения, время, каталитическая активность. И я измеряю эффективность реакции (EE). Как найти эффективное сочетание четырех факторов для достижения максимальной эффективности (EE)?
- Повторных измерений не требуется. Все данные являются независимыми экспериментальными данными
Как я понял — EE — это параметрические данные, факторы — это категориальные данные (фиксированные комбинации). Должен ли я использовать четырехкомпонентный дисперсионный анализ ANOVA?
, если да, подходит ли эта модель для анализа
Библиотека (lsmeans)
лм (EE ~ Температура + RPM + Время + Каталитический +
Температура: об / мин +
Температура: Время +
Температура: Каталитическая +
Обороты: время +
Обороты + Каталитический +
Время + Каталитический +
Температура: Обороты: Время +
Температура: Обороты: Каталитическая +
Температура: Время: Каталитическая +
Обороты: Время: Каталитический +
Температура: Обороты: Время: Каталитический, "данные")
И тогда как я могу получить значимые значения для каждого попарного сравнения?
Вот пример набора данных для примера.
> dput (df)
структура (список (ТЕМПЕРАТУРА = c (40, 40, 40, 40, 40, 40, 40, 40,
40, 40, 40, 40, 40, 40, 40, 40, 40, 40, 40, 40, 40, 40, 40, 40,
40, 40, 40, 40, 40, 40, 40, 40, 40, 40, 40, 40, 40, 40, 40, 40,
42,5, 42,5, 42,5, 42,5, 42,5, 42,5, 42,5, 42,5, 42,5, 42,5, 42,5,
42,5, 42,5, 42,5, 42,5, 42,5, 42,5, 42,5, 42,5, 42,5, 42,5, 42,5,
42,5, 42,5, 42,5, 42,5, 42,5, 42,5, 42,5, 42,5, 42,5, 42,5, 42,5,
42,5, 42,5, 42,5, 42,5, 42,5, 42,5, 42,5, 45, 45, 45, 45, 45,
45, 45, 45, 45, 45, 45, 45, 45, 45, 45, 45, 45, 45, 45, 45, 45,
45, 45, 45, 45, 45, 45, 45, 45, 45, 45, 45, 45, 45, 45, 45, 45,
45, 45, 45), об / мин = c (150, 150, 150, 150, 150, 150, 150, 150,
150, 150, 150, 150, 150, 150, 150, 150, 150, 150, 150, 150, 200,
200, 200, 200, 200, 200, 200, 200, 200, 200, 200, 200, 200, 200,
200, 200, 200, 200, 200, 200, 150, 150, 150, 150, 150, 150, 150,
150, 150, 150, 150, 150, 150, 150, 150, 150, 150, 150, 150, 150,
200, 200, 200, 200, 200, 200, 200, 200, 200, 200, 200, 200, 200,
200, 200, 200, 200, 200, 200, 200, 150, 150, 150, 150, 150, 150,
150, 150, 150, 150, 150, 150, 150, 150, 150, 150, 150, 150, 150,
150, 200, 200, 200, 200, 200, 200, 200, 200, 200, 200, 200, 200,
200, 200, 200, 200, 200, 200, 200, 200), ВРЕМЯ = c (24, 24, 24,
24, 24, 48, 48, 48, 48, 48, 72, 72, 72, 72, 72, 96, 96, 96, 96,
96, 24, 24, 24, 24, 24, 48, 48, 48, 48, 48, 72, 72, 72, 72, 72,
96, 96, 96, 96, 96, 24, 24, 24, 24, 24, 48, 48, 48, 48, 48, 72,
72, 72, 72, 72, 96, 96, 96, 96, 96, 24, 24, 24, 24, 24, 48, 48,
48, 48, 48, 72, 72, 72, 72, 72, 96, 96, 96, 96, 96, 24, 24, 24,
24, 24, 48, 48, 48, 48, 48, 72, 72, 72, 72, 72, 96, 96, 96, 96,
96, 24, 24, 24, 24, 24, 48, 48, 48, 48, 48, 72, 72, 72, 72, 72,
96, 96, 96, 96, 96), CAT = c (4, 6, 8, 10, 12, 4, 6, 8, 10, 12,
4, 6, 8, 10, 12, 4, 6, 8, 10, 12, 4, 6, 8, 10, 12, 4, 6, 8, 10,
12, 4, 6, 8, 10, 12, 4, 6, 8, 10, 12, 4, 6, 8, 10, 12, 4, 6,
8, 10, 12, 4, 6, 8, 10, 12, 4, 6, 8, 10, 12, 4, 6, 8, 10, 12,
4, 6, 8, 10, 12, 4, 6, 8, 10, 12, 4, 6, 8, 10, 12, 4, 6, 8, 10,
12, 4, 6, 8, 10, 12, 4, 6, 8, 10, 12, 4, 6, 8, 10, 12, 4, 6,
8, 10, 12, 4, 6, 8, 10, 12, 4, 6, 8, 10, 12, 4, 6, 8, 10, 12),
EE = c (50, 53, 54, 57, 59, 53, 56, 59, 61, 64, 57, 58, 60,
62, 63, 56, 54, 52, 55, 55, 44, 48, 50, 50, 54, 49, 52, 56,
57, 56, 52, 56, 57, 58, 66, 46, 48, 48, 52, 49, 53, 57, 59,
62, 64, 54, 58, 60, 64, 66, 55, 59, 61, 63, 65, 54, 59, 64,
65, 67, 49, 51, 53, 54, 59, 50, 54, 63, 64, 64, 52, 56, 56,
59, 57, 52, 55, 58, 60, 63, 52, 56, 58, 61, 63, 54, 55, 58,
63, 63, 56, 58, 62, 62, 65, 57, 59, 62, 63, 66, 42, 42, 51,
54, 56, 46, 50, 52, 56, 58, 48, 51, 54, 55, 57, 48, 53, 56,
57, 61)), class = c ("spec_tbl_df", "tbl_df", "tbl", "данные.Рамка"
), row.names = c (NA, -120L), spec = structure (list (cols = list (
ТЕМПЕРАТУРА = структура (список (), класс = c ("двойной_коллектор",
"сборщик")), RPM = структура (список (), class = c ("двойной_коллектор",
"сборщик")), ВРЕМЯ = структура (список (), класс = c ("двойной_коллектор",
"сборщик")), CAT = структура (список (), class = c ("двойной_коллектор",
"сборщик")), EE = структура (список (), class = c ("двойной_коллектор",
"сборщик"))), по умолчанию = структура (список (), класс = c ("запрос_сборщика",
"сборщик")), skip = 1), class = "col_spec"))
Факторное рандомизированное открытое исследование 2 × 2 для определения клинической и экономической эффективности гипертонического раствора (HTS 6%) и карбоцистеина для очистки дыхательных путей по сравнению с обычным лечением в течение 52 недель у взрослых с бронхоэктазами: протокол для CLEAR клиническое испытание | Испытания
Условия исследования
Участки CLEAR будут включать не менее 16 больниц Национальной службы здравоохранения (NHS) в Великобритании, имеющих доступ к пациентам с БЭ, лечение которых осуществляется в соответствии с руководящими принципами BTS.Сайты будут включать те, которые являются частью исследовательской сети BRONCH-UK / или EMBARC [28], а дополнительные сайты будут выбраны из Сети клинических исследований Северной Ирландии (NICRN) / Сети клинических исследований Национального института исследований в области здравоохранения (NIHR CRN) портфолио при необходимости. Текущий список исследовательских центров находится в дополнительном файле 5.
Внутреннее пилотное исследование
Основному испытанию будет предшествовать 8-месячное внутреннее пилотное исследование в 10 исследовательских центрах, которое будет следовать процессам, описанным для основного исследования, с целевым набором участников. 60 пациентов.Этот внутренний пилотный проект будет использоваться для подтверждения показателей набора, соблюдения протоколов и методов сбора данных.
Характеристики участников
Пациенты будут иметь право участвовать в исследовании CLEAR, если они соответствуют следующим критериям включения: диагноз ПБ по компьютерной томографии (КТ) / КТВР, ПБ в качестве первичного респираторного диагноза, два или более легочных обострения в последний год, требующий антибиотиков (включая обострения, сообщаемые пациентами), выделение ежедневной мокроты, стабильная в течение 14 или более дней до первого визита в исследование, без изменений в лечении, желание продолжать прием любых других существующих лекарств от хронических заболеваний на протяжении всего исследования, и женщины участники должны быть хирургически стерильными, в постменопаузе или соглашаться на использование эффективных контрацептивов в период лечения исследования.
Критерии исключения следующие: возраст <18 лет, муковисцидоз (CF), хроническая обструктивная болезнь легких (ХОБЛ), курильщики в настоящее время, бывшие курильщицы с возрастом> 20 пачка-лет и бывшие курильщики-мужчины с пачкой-лет> 25 , объем форсированного выдоха за 1 с (FEV 1 ) <30%, при длительном лечении макролидами в течение <1 месяца до присоединения к исследованию, регулярный изотонический солевой раствор, HTS, карбоцистеин или любые мукоактивные препараты, принимаемые в течение последних 30 лет. дней, известная непереносимость или противопоказания к HTS или карбоцистеину, противопоказания или специальные предупреждения против использования карбоцистеина (активная пептическая язва, наследственная непереносимость галактозы, дефицит лактазы Лаппа, мальабсорбция глюкозы-галактозы), неспособность глотать капсулы для приема внутрь, женщины, беременные или кормящие, или участие в другом клиническом исследовании исследуемого лекарственного препарата (ИЛП) в течение 30 дней.Пациенты, которые в настоящее время принимают мукоактивные препараты, могут быть рассмотрены для участия в исследовании CLEAR, если они прекратят их не менее чем на 30 дней до оценки соответствия критериям.
Скрининг и информированное согласие
Письменное информированное согласие будет получено главным исследователем объекта или соответствующим образом обученным уполномоченным лицом. Всем заинтересованным лицам, которые соответствуют критериям отбора по критериям отбора, будет предоставлен информационный лист участника и будет предоставлено столько времени, сколько необходимо для рассмотрения исследования.Информированное согласие будет получено с использованием стандартных процедур (дополнительные файлы 6 и 7).
Вмешательство и компаратор
Вмешательства и компараторы следующие:
Вмешательство 1: стандартный уход и HTS с распылителем два раза в день (MucoClear 6%, PARI Pharma GmbH). Участники будут проинструктированы вводить ампулу 1 × 4 мл два раза в день в течение 52 недель с использованием распылителя eFlow Rapid и контроллера eTrack (PARI Pharma GmbH).
Вмешательство 2: стандартное лечение и карбоцистеин (750 мг три раза в день до визита 3 *, снижение до 750 мг два раза в день) в течение 52 недель.
Вмешательство 3: стандартный уход и комбинация HTS с распылителем два раза в день (MucoClear 6%, PARI Pharma GmbH). Участники будут проинструктированы вводить ампулу 1 × 4 мл два раза в день в течение 52 недель с использованием небулайзера eFlow Rapid небулайзер eFlow quick и контроллера eTrack (PARI Pharma GmbH). Им также будут назначать карбоцистеин (750 мг три раза в день до визита 3 *, снижая до 750 мг два раза в день) в течение 52 недель.
Компаратор: стандартное лечение в течение 52 недель.Пациенты, входящие в стандартную группу лечения, будут использовать методы очистки дыхательных путей при лечении ПБ.
* Визит 3 происходит через 8 недель (± 7 дней) после исходной оценки).
Сопутствующая помощь
Все учреждения, включенные в это исследование, следуют рекомендациям BTS по ведению пациентов с ПЭ. Разрешены любые прописанные лекарства, которые считаются необходимыми для оказания пациенту адекватной медицинской помощи, кроме тех, которые указаны в критериях исключения из исследования. Использование мукоактивных препаратов / изотонического раствора вне назначенного лечения не допускается, за исключением непродолжительных периодов во время обострений.
Прекращение лечения
Все пациенты, отнесенные к группе лечения, включая 6% HTS, пройдут оценку лекарственного ответа до начала HTS в соответствии с рекомендациями для конкретного исследования, и если они не пройдут его, они не будут продолжать исследование. Участники могут отказаться от лечения в любое время без объяснения причин или если прекращение лечения будет сочтено медицинской бригадой в интересах пациента. Предполагаемые причины отмены включают интеркуррентное серьезное заболевание, возникновение непереносимых побочных эффектов, просьбу пациента, нарушения протокола или решение о прекращении приема исследуемого препарата по соображениям безопасности.Участник может быть исключен из исследования по усмотрению исследователя из соображений безопасности.
Подотчетность, соответствие и приверженность исследуемым препаратам
Пациентам будет предложено возвращать все неиспользованные ампулы HTS 6% или карбоцистеин при каждом посещении исследования, чтобы облегчить учет лекарств. Соблюдение режима HTS будет контролироваться с помощью системы небулайзера eFlow с контроллером eTrack (который записывает данные об использовании небулайзера, включая частоту использования, дозировку и обслуживание).Для двух HTS-групп (групп вмешательства) данные учебных визитов из системы небулайзера eFlow с контроллером eTrack будут переданы в Qualcomm Life 2Net Hub, а затем на безопасную облачную платформу. Эти данные не будут проверяться и анализироваться до конца исследования, но будут проверяться еженедельно лицом, не участвующим в проведении исследования, чтобы убедиться, что небулайзерная система eFlow с контроллером eTrack используется правильно и данные передаются правильно.
Исходы
Первичным критерием исхода является среднее количество обострений в течение 52 недель после рандомизации.Вторичные критерии оценки — это качество жизни для конкретного заболевания (респираторные симптомы в области качества жизни — бронхоэктатическая болезнь (QoL-B) [29]), время до следующего обострения, количество дней приема антибиотиков, связанных с обострениями, общий HRQoL (5 измерений Euroqol). 5 уровней (EQ-5D-5 L) [30]), измерение нарушения здоровья с помощью респираторного опросника St Georges (SGRQ) [2]), использование медицинских услуг, количество лет жизни с поправкой на качество (QALY), предпочтения пациентов в отношении лечения , нежелательные явления, функция легких и соблюдение режима пробного лечения в течение 52 недель.
Спирометрия
Всем пациентам будет предоставлен портативный спирометр ( my SpiroSense; PARI GmbH) для выполнения регулярных тестов функции легких дома (дополнительный файл 3) и записи функции легких в начале и в конце обострение. Спирометр my SpiroSense — это цифровой самокалибрующийся прибор. Пациенты будут приносить my SpiroSense для ознакомительных визитов, чтобы его данные можно было импортировать на компьютеры на месте. Данные спирометрии можно просмотреть с помощью программного обеспечения SpiroSense Pro , а также базу данных можно преобразовать и экспортировать в формате Microsoft Excel (.xls) и просмотрел.
Лечение обострения
Если в течение периода лечения пациенты имеют симптомы обострения в течение 48 часов или чувствуют, что им требуется терапия антибиотиками, их попросят вызвать группу исследователей. Обострения будут определяться в соответствии с недавним консенсусом [31]. Комплексный план ведения обострения подробно описан в дополнительном файле 2. Как правило, пациенты будут получать лекарства для экстренной помощи дома, чтобы облегчить дистанционное управление обострениями. В испытании будет использоваться комиссия для классификации обострений.
Опросник по респираторным и системным симптомам (RSSQ)
Член исследовательской группы будет администрировать анкету RSSQ при каждом посещении исследования, чтобы фиксировать изменения предопределенных признаков и симптомов относительно обычных повседневных колебаний [32]. Он охватывает ряд сообщаемых пациентами результатов, связанных с кашлем, мокротой, кровохарканьем, одышкой, летаргией, синусами, аппетитом и лихорадкой [33]. Модифицированные версии RSSQ будут использоваться для сбора сведений о потенциальных обострениях, о которых сообщалось между учебными визитами.
Опросники качества жизни, связанного со здоровьем (HRQoL)
Будут использоваться три опросника HRQoL: QoL-B, SGRQ и EQ-5D-5 L. QoL-B оценивает симптомы, функционирование и HRQoL, характерные для пациентов с BE [ 29, 34, 35]. SGRQ измеряет ухудшение здоровья [2, 34]. EQ-5D-5 L обеспечивает простой описательный профиль и единое значение индекса для состояния здоровья [30].
Анкета по использованию медицинских услуг
Анкета и журнал будут использоваться для регистрации использования участниками медицинских услуг в течение периода исследования, включая подробную информацию о назначенных лекарствах (включая антибиотики).Это будет использоваться для экономического анализа здравоохранения.
Анкета удовлетворенности лечением для лекарств
Во время каждого визита участников (за исключением тех, кто был рандомизирован в группу стандартного ухода) будет спрашивать, что они думают об эффективности, побочных эффектах и удобстве использования лекарства в течение последних 2–3 лет. недель или с момента последнего использования. Пациентам, отнесенным к группе, сочетающей HTS и карбоцистеин (группа вмешательства 3), будет предложено заполнить отдельные анкеты для каждого лечения.
График оценок
Все пациенты будут оцениваться во время исследования в соответствии с графиком оценок, приведенным на рис. 1 и в таблице 1. См. Также Дополнительный файл 8 для контрольного списка SPIRIT.
Рис. 1Схема исследования. БЭ — бронхоэктатическая болезнь; BRONCH-UK, Регистр бронхоэктазов Великобритании; EMBARC, Европейское многоцентровое сотрудничество по аудиту и исследованиям бронхоэктазов; NIHR, Национальный институт медицинских исследований; NICRN, Сеть клинических исследований Северной Ирландии; HTS, гипертонический раствор; QoL-B, качество жизни — бронхоэктазы; HRQoL — качество жизни, связанное со здоровьем; QALY — год жизни с поправкой на качество; SGRQ, Респираторный опросник Святого Георгия
Таблица 1 График оценокРазмер выборки
Требуемый размер выборки — 380 пациентов, включая внутреннего пилота.Основываясь на первичном исходе средних обострений в течение 52 недель и объединенном стандартном отклонении, составляющем 0,9 обострений [36], и при условии, что среднее количество обострений в контрольной группе составляет 0,7, 216 пациентов будет достаточно для выявления средней разницы в частоте обострений. между группами 0,4, с мощностью 90% и уровнем значимости 5%. Чтобы обеспечить возможное взаимодействие между двумя вмешательствами, была включена инфляция на 50%, для чего потребовалось 324 пациента. Кроме того, компенсация 15% выбытия дает в общей сложности 380 пациентов (95 в каждой из четырех групп).Что касается вторичных исходов, такой размер выборки обеспечит более 90% мощности для обнаружения минимально важной разницы в 8 баллов по шкале QoL-B (стандартное отклонение 18) на уровне значимости 5% [18, 29] и 75 % увеличение среднего времени до обострения при мощности 98%. Также было бы достаточно определить средний размер эффекта для других вторичных исходов при 95% мощности и 5% уровне значимости.
Набор
Потенциальные участники могут быть идентифицированы через реестры EMBARC и BRONCH-UK на каждом из участвующих сайтов, по направлениям или во время пребывания в клиниках.Учетные записи Twitter и Facebook (https://twitter.com/TrialCLEAR; https://www.facebook.com/TrialCLEAR/) используются для поощрения участия и осведомленности о испытании. Исследовательская группа будет проводить регулярные телеконференции с сайтами для обзора показателей отбора и набора и решения любых проблем.
Рандомизация и ослепление
Распределение лечения в каждом учреждении будет назначено с использованием скрытого процесса автоматической рандомизации, предоставляемого внешней организацией. Участники, которые дали свое согласие, будут распределены с использованием фиксированного размера блока в одну из четырех групп (три группы вмешательства или одна группа стандартной помощи) в соотношении 1: 1: 1: 1 с использованием центральной системы рандомизации.Рандомизация будет стратифицирована по (1) месту, (2) обострениям за последний год (2-3 раза,> 3 раза) (для минимизации базового дисбаланса в использовании антибиотиков) и (3) текущему использованию макролидов (да, нет) . Это открытое исследование, и пациенты, исследователи и специалисты по оценке результатов будут осведомлены о назначении лечения.
Сбор данных, качество и процедуры
Все данные, собранные во время исследовательских визитов и телефонных разговоров с каждым пациентом, будут записаны в ЧИСТЫХ исходных документах / электронной форме отчета о болезни (CRF).Если участник выбывает в течение первого года участия в исследовании, ему будет предложено посетить последующие визиты для сбора данных о результатах. Если они не хотят присутствовать на сборе данных о результатах, будет запрошено разрешение на доступ к медицинским записям для сбора данных, относящихся к исследованию, например использование антибиотиков. Если участник отказывается от всех частей исследования, его анонимные данные (записанные до момента отказа) будут включены в анализ исследования. Все данные о пациентах будут анонимными.
Управление данными
Данные исследования будут вводиться в электронную форму отчета о случае (CRF) в базе данных клинических испытаний (MACRO) уполномоченным персоналом и обрабатываться в электронном виде в соответствии со стандартными рабочими процедурами Отделения клинических испытаний Северной Ирландии (NICTU) ( СОП) и план управления данными для конкретного исследования (DMP). Запросы данных будут «подавать» в электронном виде с использованием MACRO, когда от персонала сайта требуется разъяснение для проверки данных или недостающих данных. Персонал сайта ответит на запросы данных в электронном виде, обеспечивая внесение необходимых поправок в базу данных клинических испытаний.
Статистический анализ
Базовые характеристики, последующие измерения и данные по безопасности будут описаны с использованием описательных сводных мер в зависимости от масштаба измерения. Первичный анализ будет проводиться на основе модифицированного намерения лечить, состоящего из рандомизированных участников с данными по крайней мере одной оценки эффективности после исходного уровня. Для сравнения групп лечения также может быть проведен анализ по протоколу. Группы будут сравниваться по первичному результату (количество обострений в течение 52 недель) и использованию антибиотиков (количество дней использования антибиотиков в течение 52 недель) с использованием отрицательной биномиальной регрессии с поправкой на исходные характеристики и другие коварианты.QoL-B и другие непрерывные результаты будут сравниваться между группами с использованием анализа ковариации (ANCOVA) с поправкой на исходные характеристики и другие коварианты. Факторный дизайн исследования 2 × 2 позволяет проводить раздельное тестирование эффектов HTS и карбоцистеина на HRQoL и обнаруживать любое взаимодействие между ними. Эти тесты будут реализованы с использованием трех контрастов (представляющих HTS, карбоцистеин и взаимодействие) в моделях. Для определения времени до следующего обострения будут построены кривые Каплана-Мейера, и будет применен лог-ранговый тест для сравнения групп.Анализы будут двусторонними и протестированы на уровне априорной значимости p = 0,05. Первичная временная точка была определена как 52 недели после рандомизации. Нет никакой корректировки для множественного тестирования в разные моменты времени, потому что первичный результат был заранее определен и расставлен по приоритетам. Для обнаружения недостающих данных будут использоваться стандартные подходы.
Оценка экономики здравоохранения
Экономическая оценка в рамках исследования позволит оценить экономическую эффективность четырех вариантов лечения через 26 и 52 недели с точки зрения NHS и личных социальных служб.Будет проведен внутритабличный анализ, в котором четыре группы факторного плана рассматриваются как взаимоисключающие методы лечения. Затем экономические результаты будут оцениваться и представляться отдельно для каждого варианта лечения, так что эффект любого взаимодействия можно увидеть напрямую. Мы оценим стоимость полученного QALY, стоимость предотвращенного обострения и чистую выгоду (NB) в каждой из групп лечения. Будет выполнен регрессионный анализ с элементом взаимодействия в качестве проверки устойчивости и контроля исходных ковариат.Использование участниками медицинских услуг и рецепты (как связанные, так и не связанные с их BE) будут проспективно собираться от исходного уровня до 52 недель с использованием журналов и анкет, вводимых в соответствии с таблицей 1. Затраты будут рассчитываться путем присоединения соответствующих удельных затрат из национальных источников. QALY будет рассчитываться с использованием ответов на EQ-5D-5 L за период исследования. Неопределенность, связанная с коэффициентами приращения затрат и эффективности, будет представлена в виде кривых приемлемости затрат и эффективности, показывающих вероятность того, что терапевтические стратегии будут экономически эффективными при различных пороговых уровнях готовности платить за QALY и за предотвращенное обострение.Чувствительность будет проанализирована для изучения влияния изменений ключевых параметров на экономическую эффективность. Подробные планы статистического и экономического анализа здравоохранения будут завершены до начала анализа.
Мероприятия по мониторингу
Наблюдение за судом будет осуществляться на месте в соответствии с планом мониторинга исследования. Это будет непрерывная деятельность с момента начала до завершения исследования и будет соответствовать принципам надлежащей клинической практики (GCP) и применимым нормативным требованиям.Комитет по мониторингу данных и этике (DMEC) будет защищать права, безопасность и благополучие участников исследования, отслеживать данные и давать рекомендации Руководящему комитету исследования (TSC) относительно того, существуют ли этические или безопасные причины, по которым исследование не следует продолжать. Они будут контролировать общее проведение исследования, чтобы гарантировать достоверность и целостность результатов исследования, и будут встречаться ежегодно. В DMEC будут входить независимые члены, по крайней мере, один статистик и два респираторных специалиста.Устав DMEC детализирует круг ведения DMEC, включая членство, роли и обязанности.
Неблагоприятные события
Все нежелательные явления (НЯ), которые непосредственно наблюдаются и спонтанно сообщаются пациентом, будут регистрироваться в их ИРК. Признаки и симптомы обострения легких, собранные по результатам исследования, не будут регистрироваться как НЯ. Следовательно, если пациенту требуется госпитализация или продление существующей госпитализации в результате обострения, это не будет считаться серьезным нежелательным явлением (SAE).Главный исследователь или назначенное лицо оценит серьезность, серьезность, причинно-следственную связь, серьезность и ожидаемость для каждого НЯ, и о них будет сообщено в соответствии с нормативными требованиями.
Окончание исследования
Основной анализ исследования будет проведен через 52 недели; однако формальное завершение исследования будет в конце 104-недельного периода наблюдения, чтобы установить использование мукоактивных препаратов у участников. Испытание будет прекращено досрочно, если это будет предписано ответственным комитетом по этике исследований (REC), Агентством по регулированию медицины и медицинских товаров (MHRA), спонсором (e.грамм. следуя совету TSC на основе рекомендаций DMEC) или если финансирование исследования прекращается. ИЭК, который первоначально дал положительное заключение об испытании, и MHRA, выдавшее разрешение на проведение клинических испытаний (CTA), будут уведомлены в письменной форме после завершения испытания CLEAR или его досрочного прекращения.
Обучение на объекте
На всех объектах будут проведены комплексные ознакомительные посещения (SIV). PARI или исследовательская группа проведут обучение сотрудников по небулайзерной системе eFlow с контроллером eTrack, SpiroSense Pro и моим спирометром SpiroSense.Последующие курсы повышения квалификации будут проводиться до первого визита пациента, и сайтам будет рекомендовано отправлять вопросы исследовательской группе в любое время. Документ, содержащий часто задаваемые вопросы, будет поддерживаться и распространяться на сайтах вместе с регулярным информационным бюллетенем с подробным описанием любых обновлений и новостей по испытанию, таких как основные этапы набора.
Порядок управления исследованием
Наблюдательные комитеты по исследованию будут созваны для испытания CLEAR. В их число войдут группа управления испытаниями (TMG), TSC и DMEC.NICTU будет способствовать созданию и координации этих комитетов. Все поправки к исследованиям будут обрабатываться NICTU и сообщаться соответствующим образом.
Участие пациентов и общественности
Пользователи услуг участвуют в исследовании CLEAR как в консультативных, так и в совместных целях и повлияли на этот протокол, включая выбор вмешательств и результатов для измерения. Председатель группы поддержки семьи с первичной цилиарной дискинезией в Великобритании и лицо, осуществляющее уход, является со-заявителем на получение гранта на исследование и членом TSC.Исследование зарегистрировано в базе данных открытого доступа INVOLVE, в которой регистрируются исследовательские проекты в области здравоохранения с участием представителей общественности в качестве партнеров в процессе исследования.
Совместное использование данных и доступ к данным
Запросы на совместное использование данных будут рассматриваться в индивидуальном порядке Главным исследователем (CI) и TMG. После публикации основных результатов исследования может появиться возможность провести дополнительный анализ собранных данных. В таких случаях формальные запросы данных будут направлены в CI для обсуждения с TMG.Если в результате такого анализа могут возникнуть публикации, ответственные лица предоставят CI копию предполагаемой рукописи для утверждения перед отправкой в журнал.
Факторный анализ проектирования применительно к производительности параллельных эволюционных алгоритмов | Журнал Бразильского компьютерного общества
Связанные работы
Цели оценки производительности эволюционного алгоритма различаются. В некоторых работах цель состоит в том, чтобы сравнить разные алгоритмы и выяснить, какой из них имеет лучшую производительность.Другие сравнивают один и тот же алгоритм с разными конфигурациями, и цель состоит в том, чтобы выяснить, какая конфигурация улучшает производительность алгоритма. Наша работа связана с последними, особенно с методами, в которых используется план экспериментов и другие статистические методы. Некоторые из работ, представленных в обзоре методов настройки Эйбена и Смита [8], аналогичны нашей.
Мы также связываем нашу работу с оценкой ускорения программ. Туати и др. [9] предложили методологию оценки эффективности с использованием статистических инструментов.Они утверждали, что изменение времени выполнения программы следует держать под контролем и в статистике. Для этого они предложили использовать медианное значение вместо среднего в качестве лучшего показателя производительности, поскольку он более устойчив к выбросам. Центральная предельная теорема применима не к медиане, а к среднему. В своей работе мы используем среднюю статистику, понимая, что это не надежная статистика.
По оценке параллельных эволюционных алгоритмов, Alba et al. [10] представили некоторые параллельные метрики и проиллюстрировали, как их можно использовать с параллельной метаэвристикой.Их определение ортодоксального ускорения используется в этой работе (см. Подраздел «Ускорение»).
Coy et al. [11] применили линейную регрессию, дисперсионный анализ (ANOVA), дробный факторный план и методологию поверхности отклика для корректировки параметров двух эвристик на основе локального поиска, обе детерминированные процедуры. В своей работе мы имеем дело с недетерминированными процедурами.
Czarn et al. [12] изучали влияние двух параметров генетического алгоритма: скорости мутаций и кроссинговера.Они применили тест ANOVA и множественные сравнения, чтобы выяснить значимость влияния двух параметров и их взаимодействия на четыре контрольных функции. Авторы выступают за то, что исходное значение генератора псевдослучайных (PRNG) является фактором, влияющим на изменчивость, и что его влияние должно быть заблокировано. Барц [13] называет семена антитезисом: они используются для запуска последовательности псевдослучайных чисел и могут использоваться для воспроизведения той же последовательности чисел. Здесь мы не блокировали начальный фактор, и мы следовали Rardin и Uzsoy [14], которые рекомендовали выполнить несколько прогонов с разными начальными числами PRNG, контролирующими эволюцию вычислений, чтобы получить представление о надежности процедуры.
Факториальный дизайн применялся для настройки параметров генетического алгоритма в работах Shahsavar et al. [15], Pinho et al. [16], а также Петровский и др. [17]. Ни один из них не обращается к ЧАЗ. Параллелизм и случайность алгоритма создают дополнительные проблемы для применения статистических методов оценки производительности, таких как выбор показателей производительности, распределение данных этих показателей и вариативность, вызванная параллельным выполнением. Эти вопросы решаются в нашей работе.
Концептуальные основы
Концепции, используемые в этой работе, кратко представлены в этом разделе.
Параллельные эволюционные алгоритмы
Советники естественным образом склонны к параллелизму, поскольку большинство их операторов можно легко выполнять параллельно. Как давно понял Дарвин, популяции могут иметь пространственную структуру, и эта пространственная структура может влиять на популяционную динамику [18]. Использование структурированной популяции — пространственного распределения особей в виде набора островов или диффузной сетки — определяет динамические процессы, которые могут иметь место в сложных системах.В популяции panmict все особи являются потенциальными партнерами для спаривания. Мультидемная популяция состоит из изолированных популяций, называемых демами . Каждая дема может развиваться иначе, чем неизолированные. Даже если разнообразие демов невелико, разнообразие всей популяции велико [3].
Существуют различные модели для использования параллелизма советников: модель ведущий-ведомый, мелкозернистая (или ячеечная) модель и крупнозернистая (или островковая) модель.Существуют также гибридные модели, которые представляют собой комбинацию этих трех базовых моделей [10].
Крупнозернистую (или островную) модель легко реализовать, но сложно настроить. Каждая субпопуляция развивается изолированно, и периодически они обмениваются особями с другими субпопуляциями. Этот механизм миграции регулируется набором параметров, таких как частота миграции, топология миграции, стратегия отбора людей для миграции и стратегия размещения иммигрантов. Эта модель реализована в нашем тематическом исследовании.
Эксперименты с алгоритмами
Поскольку алгоритмы представляют собой математические абстракции, некоторые исследователи в области компьютерных наук придерживаются чисто формального подхода к изучению поведения алгоритмов. В какой-то момент алгоритм будет написан на языке программирования и запущен на компьютере. Это превращает математическую абстракцию в реальную материю, которая требует естественнонаучного подхода: экспериментального подхода. Хукер [19, 20] был одним из первых авторов, которые отстаивали, что теоретический подход сам по себе не может объяснить, как алгоритмы работают над решением реальных проблем.Он показал необходимость статистического мышления и принципов в экспериментальном подходе к изучению алгоритмов, как это было сделано в естественных научных экспериментах.
МакГеоч [21], Джонсон [22], Рардин и Узсой [14] также являются авторами-первопроходцами, которые внесли важный вклад в формирование науки об экспериментировании алгоритмов и укрепили использование статистики как систематического способа анализа. Эйбен и Джеласити [23] обратились к необходимости надежной исследовательской методологии, подтверждающей результаты экспериментов с советниками.
Советники — недетерминированные алгоритмы. Их стохастический характер вносит некоторую случайную изменчивость в ответ, предоставляемый алгоритмом: решение, полученное алгоритмом, может значительно варьироваться от одного прогона к другому, и даже когда достигается одно и то же решение, вычислительное время, необходимое для достижения такого решения, обычно составляет разные для разных прогонов одного и того же алгоритма.
Эти характеристики затрудняют теоретический анализ EAs, и большинство исследований с EAs проводится с помощью эмпирического подхода [1].Кроме того, нынешнее разнообразие компьютерных архитектур не может уместиться в одной модели; Эксперименты на современных компьютерах актуальны и необходимы для получения более точных прогнозов производительности и надежности EA.
Схема эксперимента
Эксперименты использовались в различных областях знаний. Статистическое планирование экспериментов основано на новаторской работе сэра Р.А. Фишер в 1920-х — начале 1930-х годов [24]. Его работа оказала глубокое влияние на использование статистики в сельском хозяйстве и смежных науках о жизни.В 1930-х годах применение статистического дизайна в промышленных условиях началось с признания того факта, что многие промышленные эксперименты фундаментально отличаются от своих сельскохозяйственных аналогов: переменную отклика обычно можно наблюдать за более короткое время, чем в сельскохозяйственных экспериментах, и экспериментатор может быстро усвоить важную информацию. из небольшой группы запусков, которые можно использовать для планирования следующего эксперимента. В течение следующих 30 лет методы проектирования распространились в химической и обрабатывающей промышленности.Разработанные эксперименты широко используются в таких областях, как сектор услуг в бизнесе, финансовые услуги и правительственные операции [25].
Монтгомери [25] определяет эксперимент как тест или серию тестов, в которых целенаправленно вносятся изменения во входные переменные — факторы — процесса или системы, чтобы мы могли исследовать и идентифицировать причины изменений, которые могут наблюдаться. в выходном ответе. Статистический дизайн экспериментов относится к планированию эксперимента таким образом, чтобы надлежащие данные собирались и анализировались статистическими методами, что приводило к достоверным и объективным выводам.
План эксперимента основан на трех принципах: рандомизация, репликация и блокировка. Порядок запусков в экспериментальном плане определяется случайным образом. Рандомизация помогает избежать нарушений независимости, вызванных посторонними факторами, и предположение о независимости всегда следует проверять. Репликация — это независимое повторение каждой комбинации факторов. Это позволяет экспериментатору получить оценку экспериментальной ошибки. Блокирование используется для учета изменчивости, вызванной контролируемыми мешающими факторами, для уменьшения и устранения влияния этого фактора на оценку представляющих интерес эффектов.Блокировка не устраняет изменчивость; он только изолирует его эффекты. Мешающий фактор — это фактор, который может повлиять на экспериментальный отклик, но который нас не интересует.
Фазы экспериментального планирования следующие: (1) определение целей эксперимента, (2) выбор показателей производительности, факторов для изучения и факторов, которые должны оставаться постоянными (3) разработка и выполнение эксперимента (сбор данных) , (4) анализ данных и выводы (выполнение последующих прогонов и подтверждающее тестирование для подтверждения выводов), и (5) отчет о результатах эксперимента [26].
Эксперимент EA представляет собой набор реализаций алгоритма, которые выполняются в контролируемых условиях для проверки действительности гипотезы. Эти контролируемые условия представляют собой набор параметров, набор платформ выполнения, набор экземпляров проблемы и набор показателей производительности.
Экспериментальные цели
Вычислительные эксперименты с алгоритмами обычно проводятся для (1) сравнения производительности различных алгоритмов для одного и того же класса задач или (2) характеристики или описания производительности алгоритма по отдельности.Первая мотивация, заключающаяся в сравнении алгоритмов, связана с эффективностью алгоритмов при решении конкретных классов задач. Он часто включает сравнение нового подхода с установленными методами. По последней мотивации эксперименты создаются для изучения данного алгоритма, а не для сравнения его с другими [26]. В данной работе нас интересует последняя мотивация. Как только цель эксперимента будет определена, она будет определять критерии эффективности, как мы опишем ниже.
Показатели производительности
Эксперимент с алгоритмом имеет дело с набором зависимых переменных, называемых показателями производительности, на которые влияет набор независимых переменных, называемых факторами; существуют факторы проблемы, факторы алгоритма и факторы тестовой среды.Поскольку цели эксперимента достигаются путем анализа наблюдений за этими факторами и показателями, их следует выбирать с учетом этой цели.
Стохастическая природа советников вносит случайную изменчивость в ответ, предоставляемый алгоритмом: решение, полученное алгоритмом, может варьироваться от одного прогона к другому, и даже при достижении одного и того же решения время вычислений, необходимое для достижения такого решения обычно отличается для разных прогонов одного и того же алгоритма.В этом случае есть два возможных показателя производительности: качество решения и объем вычислений.
В некоторых случаях, когда сходимость может быть обеспечена, можно было бы рассматривать вычислительные усилия, необходимые для достижения оптимального решения, как единственный значимый показатель эффективности для алгоритма. Объем данной работы связан с такими случаями.
При традиционной оценке производительности компьютеров Хеннесси и Паттерсон [27] рассматривают время выполнения реальных программ как единственный последовательный и надежный показатель производительности.Время выполнения постоянно снижается из-за изменчивости производительности компьютера, особенно для параллельных программ, на которые влияют гонки данных, планирование потоков, порядок синхронизации и конкуренция за общие ресурсы. В [28] показано, что многоядерные процессоры вносят еще большую вариативность во время выполнения.
Время выполнения может быть определено по-разному в зависимости от того, что мы считаем. Наиболее прямое определение времени называется временем настенных часов, временем отклика или прошедшим временем, которое представляет собой задержку для выполнения задачи, включая доступ к диску, доступ к памяти, операции ввода / вывода и накладные расходы операционной системы.
В параллельном режиме время выполнения настенных часов применяется к формуле, называемой ускорением, описанной в следующем разделе. Ускорение является наиболее часто используемым параметром параллельной работы. Другие показатели производительности для параллельных эволюционных алгоритмов, такие как эффективность и инкрементная эффективность, показаны в [10, 29].
Ускорение
Для параллельных детерминированных алгоритмов ускорение означает, насколько параллельный алгоритм быстрее соответствующего наиболее известного последовательного алгоритма.Ускорение определяется соотношением T 1 / T p , где p — количество процессоров, T 1 — время выполнения последовательного алгоритма, а T p — время выполнения параллельного алгоритма с p процессорами.
Для рандомизированных алгоритмов, таких как советники, предыдущее определение ускорения не может применяться напрямую.Поскольку время выполнения советников может варьироваться от одного запуска к другому, алгоритм должен быть воспроизведен, и необходимо использовать среднее время выполнения. Таким образом, ускорение S p для PEA — это соотношение между средним временем выполнения на одном процессоре T¯1 и средним временем выполнения на p процессоров T¯p, как показано в следующем уравнении:
Sp = T¯1T¯p = ∑i = 1kT1i / k∑j = 1mTpj / м
(1)
, где метрики T 1 i и T pj соответствуют времени настенных часов для k последовательных выполнений и m параллельных запусков на процессорах p соответственно.Это определение ускорения принято в данной работе, и оно совпадает с определением взвешенного отношения в уравнении (4).
В [10] авторы также рекомендуют, чтобы PEA вычисляла решения, имеющие такую же точность, как и последовательные. Эта точность может быть оптимальным решением, если оно известно, или приближенным решением, как если бы оба алгоритма производили одно и то же значение в конце. Критерий остановки сравниваемых алгоритмов должен заключаться в нахождении одного и того же решения. Авторы также советуют выполнять параллельный алгоритм на одном процессоре для получения последовательных времен.Таким образом, у нас есть ускорение звука, как практическое, т. Е. Нет необходимости в известном алгоритме, так и ортодоксальное, т. Е. Те же коды, та же точность.
Ускорение S p классифицируется как суперлинейный , когда у нас S p > p , сублинейный когда у нас S p < p и линейный при S p — это примерно p .
Центральная предельная теорема
Пусть X 1 , X 2 ,…, X n будет n -независимыми случайными величинами с конечным средним μ и дисперсией σ 2 . Центральная предельная теорема (CLT) утверждает, что случайная величина
сходится к нормальному распределению N ( n μ , n σ 2 ), поскольку n приближается к ∞ .
Согласно CLT, даже если распределение измерений производительности не является нормальным, распределение выборочного среднего имеет тенденцию к нормальному распределению по мере увеличения размера выборки. Для практических целей обычно считается, что результирующее распределение нормально распределено, когда n ≥ 30 [30]. Экспериментаторы часто ошибаются в распределении измерений производительности и распределении выборочных средних.
Важное применение CLT в этой работе возникает при оценке ускорения как отношения двух средних, T¯p и T¯1.Если количество запусков алгоритма достаточно велико, распределение T¯p и T¯1 будет почти нормальным. Это делает ускорение соотношением двух нормально распределенных случайных величин, и это имеет важные последствия, как мы описываем в следующем разделе.
Соотношение двух независимых нормальных случайных величин
Распределение F z отношения Z = X / Y двух нормальных случайных величин X и Y не обязательно является нормальным.При оценке производительности параллельных генетических алгоритмов (PGA), если мы примем ускорение в качестве меры производительности, нам нужно будет гарантировать, что распределение плотности ускорения приближается к нормальному распределению плотности.
В этом разделе мы описываем две работы, посвященные средней оценке отношения двух случайных величин, которые имеют нормальное распределение: Qiao et al. [7] и Диас-Франсес и Рубио [6].
Рассмотрим выборку из n наблюдений ( X , Y ) из двумерной нормальной популяции N ( μ X , мкм Y , σ X , σ Y , ρ ), мкм x , мкм y ≠ 0 и X и Y не коррелированы.В [7] арифметическое отношение R¯A равно
, а взвешенное отношение R¯W равно
R¯W = X¯Y¯ = ∑Xi / n∑Yi / n = ∑Xi∑Yi .
(4)
Так как X ∼ N ( мкм X , σ X ) и Y ∼ N ( мкм Y , σ Y ) следует, что X¯∼N (μX, σX / n) и Y¯∼N (μY, σY / n).Коэффициент вариации Y равен δ Y = σ Y / мкм Y , а коэффициент вариации Y¯ равен δY¯ = σY / μYn.
Моделирование в [7] показало, что до тех пор, пока δ Y <0,2, R¯W и R¯A являются надежными оценками μ X / мкм Y .В противном случае, если δY¯ <0,2, R¯W является приемлемой оценкой мкм X / мкм Y .
На практике среднее значение генеральной совокупности μ и стандартное отклонение σ , если оно неизвестно, можно оценить с помощью выборочного среднего и стандартного отклонения выборки. В [7] оценщик достаточно большого размера выборки n s определяется как
, где sY2 — выборочная дисперсия, а Y¯ — выборочное среднее.
Другой подход представлен Диас-Франсесом и Рубио в [6]. Они демонстрируют существование нормального приближения к распределению Z = X / Y в интервале I с центром β = E ( X ) / E ( Y ), который дается для случая, когда и X , и Y независимы, имеют положительные средние и их коэффициенты вариации удовлетворяют условиям, сформулированным в теореме 1.
Теорема 1
(Диас-Франсес и Рубио [6]) Пусть X — нормальная случайная величина с положительным средним μ X , дисперсия σX2 и коэффициент вариации δ X = σ X / мкм X такой, что 0 <δ X < λ ≤ 1 , где λ — известная константа . Для каждого ε > 0 существует γ (ε) ∈0, λ2-δX2 , а также нормальная случайная величина Y, не зависящая от X, с положительным средним μ Y , дисперсия σY2 и коэффициент вариации δ Y = σ Y / мкм Y , удовлетворяющие условиям,
0 <δY≤γ (ε) ≤λ2-δX2 <λ≤1,
(6)
, для которого следующий результат имеет значение .
Любой z, принадлежащий интервалу
, где β = мкм X / мкм Y , σZ = βδX2 + δY2 , удовлетворяет тому, что
, где G ( z ) — функция распределения нормальной случайной величины со средним β, дисперсией σZ2 и F Z — функция распределения Z = X / Y .
Теорема 1 утверждает, что для любой нормальной случайной величины X с положительным средним и коэффициентом вариации δ X ≤ 1, существует другая независимая нормальная переменная Y с положительным средним и малым коэффициентом вариации, удовлетворяющая некоторым условиям, так что их отношение Z может быть хорошо аппроксимировано в пределах заданного интервала к нормальному распределению.
Обстоятельства, установленные [7] и [6], при которых отношение двух независимых нормальных значений может использоваться для безопасной оценки отношения средних, проверены в нашей оценке коэффициента ускорения.
Факторы
В общем, эксперименты часто включают несколько факторов, которые могут иметь некоторое влияние на выходную характеристику. В [26] факторы, влияющие на производительность алгоритмов, сгруппированы по проблемам, алгоритмам и факторам тестовой среды.
Факторы проблемы включают в себя множество характеристик проблемы, таких как размеры и структура. Факторы алгоритма, особенно для советников, включают несколько параметров, связанных с его стратегией решения проблемы, например тип отбора, мутации и кроссовера, а в случае PEA — параметры, относящиеся к параллельным стратегиям, такие как параметры миграции.
Необходимо выбрать, какие факторы изучать, какие исправить, а какие игнорировать, и надеяться, что они не повлияют на результаты экспериментов. Выбор экспериментальных факторов и их значений является центральным элементом дизайна эксперимента.
2
k Факториальный планA 2 k факторный план включает k факторов, каждый на двух уровнях. Эти уровни могут быть количественными или качественными. Уровень количественного фактора может быть связан с баллами по числовой шкале, такими как размер населения или количество островов.Для качественных факторов их уровни не могут быть упорядочены по порядку величины, например, топологии или стратегии отбора. Эти два уровня называются «низкий» и «высокий» и обозначаются «-» и «+» соответственно. Неважно, какое из значений коэффициента связано со знаком «+», а какое — со знаком «-», если маркировка согласована.
В начале 2 k факторный план, факторы и уровни указаны. Когда мы объединяем их все, мы получаем матрицу дизайна.В таблице 1 показана матрица факторного плана 2 3 .
Таблица 1 Обозначение коэффициентов и уровня в стандартном порядке или в порядке Йейтса для 2 3 факторный расчетДля каждой комбинации уровней, также называемой обработкой, выполняется исследуемый процесс и собирается переменная отклика y .
После сбора данных можно рассчитать влияние факторов, и с помощью соответствующих статистических тестов мы можем определить, зависит ли выход в значительной степени от значений входных данных.Есть несколько отличных пакетов статистического программного обеспечения, которые полезны для настройки и анализа 2 k проектов. В наших экспериментах мы используем программную среду с открытым исходным кодом R [31] для статистических вычислений и графики.
В основном, средний эффект фактора определяется как изменение реакции, вызванное изменением уровня этого фактора, усредненного по уровням других факторов. Эффект двустороннего взаимодействия AB определяется как средняя разница между эффектом фактора A на высоком уровне фактора B и эффектом A на низком уровне B .Трехстороннее взаимодействие ABC происходит, когда есть какое-либо существенное различие в графиках двустороннего взаимодействия, соответствующих разным уровням третьего фактора. Более подробную информацию об этом и других экспериментальных планах можно найти в [25, 32].
Регрессионная модель 2 k дизайнРезультаты факторного плана 2 k могут быть выражены в терминах регрессионной модели.Для факторного плана 2 2 полная модель эффекта равна
y = β0 + β1×1 + β2×2 + β12x1x2 + ε
(9)
, где y — ответ, β — коэффициенты регрессии, значения которых необходимо определить, x i — это переменные-предикторы, которые представляют уровни кодированных факторов: -1 и +1, а ε — член случайной ошибки. Для оценки неизвестных коэффициентов β используется метод наименьших квадратов [33].
Коэффициенты регрессии связаны с оценками эффекта. Коэффициент β 0 оценивается как среднее значение всех ответов. Оценки β 1 и β 2 составляют половину значения соответствующего основного эффекта. Таким же образом коэффициенты взаимодействия, такие как β 12 , составляют половину значения соответствующего эффекта взаимодействия.
В регрессии коэффициент детерминации R 2 является статистической мерой того, насколько хорошо линия регрессии приближается к реальным точкам данных. R 2 из 1 указывает, что линия регрессии идеально соответствует данным. Скорректированный R 2 почти такой же, как R 2 , но он ухудшает статистику, поскольку в модель включены дополнительные переменные.
Были разработаны другие меры для оценки качества модели. Информационный критерий Акаике (AIC), критерий хи-квадрат, критерий перекрестной проверки и другие методы, используемые для сравнения моделей с различным количеством переменных-предикторов [34].Эти методы полезны при выборе модели, одном из этапов анализа факторного плана 2 k (подраздел «Анализ плана 2 k »), где проверяется, все ли потенциальные переменные-предикторы необходимы или их подмножество является адекватным. Число возможных моделей растет с увеличением числа предикторов, что затрудняет выбор. В настоящее время существует множество процедур автоматического компьютерного поиска, упрощающих эту задачу [33].
Эта модель требует выполнения некоторых предположений: ошибки обычно и независимо распределены с постоянной дисперсией σ 2 . Нарушения основных допущений и адекватности модели можно легко исследовать, исследуя остатки. Остатки — это разница между наблюдаемыми и оценочными значениями. Если модель адекватна, остатки должны быть бесструктурными. Любое предложение шаблона может указывать на другие проблемы, такие как неправильная спецификация модели из-за нелинейности или отсутствия важных переменных-предикторов, наличия выбросов и независимости остатков.
Обычная процедура проверки предположения о нормальности состоит в построении графика нормальной вероятности остатков. Если основное распределение ошибок нормальное, этот график будет напоминать прямую линию. Постоянная дисперсия допущения об ошибке легко проверяется, если мы построим график остатков в сравнении с подобранными значениями. На этом графике не должно быть явных закономерностей. Чтобы проверить независимость, на графике зависимости остатков от времени, если они известны, остатки должны колебаться более или менее случайным образом вокруг нулевого значения базовой линии.
Графический анализ остатков по своей сути субъективен, но часто графики остатков могут выявить проблемы с моделью более четко, чем формальные статистические тесты. Формальные тесты, такие как тест Дарбина-Ватсона (независимость), тест Бреуша-Пагана (постоянная дисперсия) и тест Шапиро-Уилка (нормальность), могут проверить допущения модели [33]. Подробнее о формальных тестах в подразделе «Реализация».
Если происходит нарушение допущений модели, есть две основные альтернативы: (1) отказаться от модели линейной регрессии и разработать и использовать более подходящую модель или (2) применить некоторое преобразование данных.Первый вариант может привести к более сложной модели, чем второй. Иногда нелинейную функцию можно выразить в виде прямой линии с помощью подходящего преобразования. Подробнее о преобразовании данных можно прочитать в [25, 33].
Дисперсионный анализ
Тест дисперсионного анализа (ANOVA) — это статистический тест, который используется для сравнения средних значений двух или более независимых нормальных выборок. Он производит статистику F , которая вычисляет отношение дисперсии между средними значениями к дисперсии в выборках [33].
Допущения ANOVA такие же, как и допущения регрессионной модели, описанные в подразделе «Регрессионная модель плана 2 k ». ANOVA устойчив к предположению нормальности. Если предположение об однородности дисперсий нарушается, на сбалансированную (равные размеры выборки для всех обработок) модель с фиксированным эффектом влияет лишь незначительное влияние на тест ANOVA. Отсутствие независимости членов ошибки может иметь серьезные последствия для выводов при дисперсионном анализе [33].
Анализ 2 k дизайнСтатистический анализ конструкции 2 k следует описанной последовательности шагов:
- 1.
Оценить влияние факторов . Эффекты факторов оцениваются, и их признаки и размеры исследуются для получения предварительной информации о том, какие факторы и взаимодействия могут быть важными и в каких направлениях эти факторы должны быть скорректированы для улучшения реакции.
- 2.
Выполните статистическое тестирование . Многие реализации факторного плана 2 k полагаются на репликации, где каждая реплика представляет собой набор из 2 запусков k . Когда план воспроизводится, для полной модели, как в уравнении (9), можно применить ANOVA, чтобы указать, является ли один фактор более влиятельным, чем другой.
Существуют и другие методы определения ненулевых эффектов. Стандартная ошибка эффектов может быть рассчитана, а затем установлены доверительные интервалы для эффектов. Box et al. [32] устанавливают грубое правило: эффекты, превышающие стандартную ошибку в два или три раза, нелегко объяснить одной лишь случайностью.
Для нереплицированного плана существует метод, предложенный Катбертом Дэниелом [35], в котором эффекты нанесены на график нормальной вероятности.Пренебрежимо малые эффекты обычно распределяются со средним нулем и дисперсией σ 2 и будут иметь тенденцию падать вдоль прямой линии на этом графике. Значимые эффекты будут иметь ненулевые средние и не будут лежать вдоль прямой линии. Оценка погрешности может быть получена с комбинированными незначительными эффектами. Формальные тесты статистической значимости важны для выявления эффектов, вызванных ошибкой выборки.
Не следует путать статистическую значимость с практической значимостью — достаточно ли велик наблюдаемый эффект, чтобы иметь значение.Статистическая значимость не доказывает практического значения, но о практически значимом эффекте не следует заявлять, если он не является статистически значимым [14].
- 3.
Уточните модель . Модель настраивается, так как любой незначительный фактор может быть удален из модели.
- 4.
Проверить соответствие модели . Остаточный анализ выполняется для проверки адекватности модели и допущений. Если обнаруживается, что модель неадекватна или если предположения сильно нарушаются, необходимо уточнить модель (шаг 3).
- 5.