의사결정나무 예제

의사 결정 트리는 예제에 분류를 제공하는 리프 노드와 함께 루트에서 일부 리프 노드로 트리를 정렬하여 예제를 분류합니다. 트리의 각 노드는 일부 특성에 대한 테스트 사례 역할을 하며 해당 노드에서 내림차순의 각 가장자리는 테스트 사례에 대한 가능한 답변 중 하나에 해당합니다. 이 프로세스는 본질적으로 재귀적이며 새 노드에 뿌리를 둔 모든 하위 트리에 대해 반복됩니다. 이 질문에 대한 대답은 `엔트로피`와 `정보 이득`의 값에 있다. 그들이 무엇이며 의사 결정 트리 생성에 어떤 영향을 미치는지 살펴보겠습니다. 나는 당신이 의사 결정 트리를 모델링하기 위해 수학을 사용하는 방법을 좋아한다. 감사합니다 지금, 당신은 재생 여부를 결정하기 위해이 테이블을 사용할 수 있습니다. 그러나 토요일의 날씨 패턴이 테이블의 행과 일치하지 않으면 어떨까요? 이것은 문제가 될 수 있습니다. 결정 트리는 트리와 같은 구조를 따라 최종 결정으로 이어질 수 있는 모든 가능한 경로를 고려하기 때문에 이와 같은 데이터를 나타낼 수 있는 좋은 방법입니다. 의사 결정 트리의 유형은 우리가 가지고있는 대상 변수의 유형을 기반으로합니다. 그것은 두 가지 유형이 될 수 있습니다 : 당신은 나무의 성장을 중지 할 때 물어 볼 수 있습니다? 문제는 일반적으로 기능의 큰 세트를 가지고, 차례로 거대한 나무를 제공 분할의 큰 숫자를 초래한다. 이러한 나무는 복잡하고 과적합으로 이어질 수 있습니다.

그래서, 우리는 중지 할 때 알 필요가? 이 작업을 수행하는 한 가지 방법은 각 리프에 사용할 최소 교육 입력 수를 설정하는 것입니다. 예를 들어 최소 10명의 승객을 사용하여 의사 결정(사망 또는 생존)에 도달하고 10명 미만의 승객이 소요되는 잎을 무시할 수 있습니다. 또 다른 방법은 모델의 최대 깊이를 설정하는 것입니다. 최대 깊이는 루트에서 잎까지의 가장 긴 경로의 길이를 나타냅니다. 엔트로피: 결정 트리의 엔트로피는 균질성을 의미합니다. 데이터가 완전히 균일한 경우 엔트로피는 0이며, 데이터가 분할된 경우(50-50%) 엔트로피는 1입니다. 예제의 도움으로 이것을 이해합시다 · 특성이 다른 클래스의 예제를 얼마나 잘 구별하는지 측정하는 정보성 통계 측정값입니다. 의사 결정 트리, 임의의 숲, 그라데이션 증폭과 같은 방법은 모든 종류의 데이터 과학 문제에 널리 사용되고 있습니다. 조기 정지 및 가지 치기는 별도로 함께 사용할 수 있습니다, 또는 전혀. 포스트 가지 치기 결정 트리는 더 수학적으로 엄격한, 적어도 초기 중지만큼 좋은 나무를 찾는. 조기 중지는 빠른 수정 휴리스틱입니다.

가지 치기와 함께 사용하면 조기 중지하면 시간이 절약 될 수 있습니다. 결국, 왜 다시 가지 치기 만 나무를 구축? 이제 의사 결정 트리가 무엇인지 알아보았으니 내부적으로 어떻게 작동하는지 살펴보겠습니다. 의사 결정 트리를 생성하는 많은 알고리즘이 있지만 가장 좋은 알고리즘 중 하나를 ID3 알고리즘이라고합니다.