mm: thp: set THP defrag by default to madvise and add a stall-free defrag option

author Mel Gorman <mgorman@techsingularity.net>

Thu, 17 Mar 2016 21:19:23 +0000 (14:19 -0700)

committer Linus Torvalds <torvalds@linux-foundation.org>

Thu, 17 Mar 2016 22:09:34 +0000 (15:09 -0700)
author Mel Gorman <mgorman@techsingularity.net>
Thu, 17 Mar 2016 21:19:23 +0000 (14:19 -0700)
committer Linus Torvalds <torvalds@linux-foundation.org>
Thu, 17 Mar 2016 22:09:34 +0000 (15:09 -0700)
diff --git a/Documentation/vm/transhuge.txt b/Documentation/vm/transhuge.txt

index 0dc8632aa01e731d05e6c990e4c22461b499e7ca..d9cb65cf5cfdf786650f3d8345f6d6346f05f930 100644 (file)
--- a/Documentation/vm/transhuge.txt
+++ b/Documentation/vm/transhuge.txt
@@ -113,9 +113,26 @@ guaranteed, but it may be more likely in case the allocation is for a
  MADV_HUGEPAGE region.
  
  echo always >/sys/kernel/mm/transparent_hugepage/defrag
+echo defer >/sys/kernel/mm/transparent_hugepage/defrag
  echo madvise >/sys/kernel/mm/transparent_hugepage/defrag
  echo never >/sys/kernel/mm/transparent_hugepage/defrag
  
+"always" means that an application requesting THP will stall on allocation
+failure and directly reclaim pages and compact memory in an effort to
+allocate a THP immediately. This may be desirable for virtual machines
+that benefit heavily from THP use and are willing to delay the VM start
+to utilise them.
+
+"defer" means that an application will wake kswapd in the background
+to reclaim pages and wake kcompact to compact memory so that THP is
+available in the near future. It's the responsibility of khugepaged
+to then install the THP pages later.
+
+"madvise" will enter direct reclaim like "always" but only for regions
+that are have used madvise(MADV_HUGEPAGE). This is the default behaviour.
+
+"never" should be self-explanatory.
+
  By default kernel tries to use huge zero page on read page fault.
  It's possible to disable huge zero page by writing 0 or enable it
  back by writing 1:
diff --git a/include/linux/gfp.h b/include/linux/gfp.h

index c083d0820a87da39ace173f4ec188ccdf5892d1b..11d56c6e7ef20ed7e9d63c6bdcb2e8e9c8cedcc3 100644 (file)
--- a/include/linux/gfp.h
+++ b/include/linux/gfp.h
@@ -257,7 +257,7 @@ struct vm_area_struct;
  #define GFP_HIGHUSER_MOVABLE   (GFP_HIGHUSER | __GFP_MOVABLE)
  #define GFP_TRANSHUGE  ((GFP_HIGHUSER_MOVABLE | __GFP_COMP | \
                          __GFP_NOMEMALLOC | __GFP_NORETRY | __GFP_NOWARN) & \
-                        ~__GFP_KSWAPD_RECLAIM)
+                        ~__GFP_RECLAIM)
  
  /* Convert GFP flags to their corresponding migrate type */
  #define GFP_MOVABLE_MASK (__GFP_RECLAIMABLE|__GFP_MOVABLE)
diff --git a/include/linux/huge_mm.h b/include/linux/huge_mm.h

index 459fd25b378e73cfd2e911761ad845076be547de..a4cecb4801ec78cbb051edbcbea3f0e6d42d3837 100644 (file)
--- a/include/linux/huge_mm.h
+++ b/include/linux/huge_mm.h
@@ -41,7 +41,8 @@ int vmf_insert_pfn_pmd(struct vm_area_struct *, unsigned long addr, pmd_t *,
  enum transparent_hugepage_flag {
         TRANSPARENT_HUGEPAGE_FLAG,
         TRANSPARENT_HUGEPAGE_REQ_MADV_FLAG,
-       TRANSPARENT_HUGEPAGE_DEFRAG_FLAG,
+       TRANSPARENT_HUGEPAGE_DEFRAG_DIRECT_FLAG,
+       TRANSPARENT_HUGEPAGE_DEFRAG_KSWAPD_FLAG,
         TRANSPARENT_HUGEPAGE_DEFRAG_REQ_MADV_FLAG,
         TRANSPARENT_HUGEPAGE_DEFRAG_KHUGEPAGED_FLAG,
         TRANSPARENT_HUGEPAGE_USE_ZERO_PAGE_FLAG,
@@ -71,12 +72,6 @@ extern bool is_vma_temporary_stack(struct vm_area_struct *vma);
            ((__vma)->vm_flags & VM_HUGEPAGE))) &&                       \
          !((__vma)->vm_flags & VM_NOHUGEPAGE) &&                        \
          !is_vma_temporary_stack(__vma))
-#define transparent_hugepage_defrag(__vma)                             \
-       ((transparent_hugepage_flags &                                  \
-         (1<<TRANSPARENT_HUGEPAGE_DEFRAG_FLAG)) ||                     \
-        (transparent_hugepage_flags &                                  \
-         (1<<TRANSPARENT_HUGEPAGE_DEFRAG_REQ_MADV_FLAG) &&             \
-         (__vma)->vm_flags & VM_HUGEPAGE))
  #define transparent_hugepage_use_zero_page()                           \
         (transparent_hugepage_flags &                                   \
          (1<<TRANSPARENT_HUGEPAGE_USE_ZERO_PAGE_FLAG))
diff --git a/mm/huge_memory.c b/mm/huge_memory.c

index 1dddfb21fc2244d452edb7e2b514fe1ade1b368f..e08b1659ff19c6131d3a9d82c9bab16d06bac551 100644 (file)
--- a/mm/huge_memory.c
+++ b/mm/huge_memory.c
@@ -78,7 +78,7 @@ unsigned long transparent_hugepage_flags __read_mostly =
  #ifdef CONFIG_TRANSPARENT_HUGEPAGE_MADVISE
         (1<<TRANSPARENT_HUGEPAGE_REQ_MADV_FLAG)|
  #endif
-       (1<<TRANSPARENT_HUGEPAGE_DEFRAG_FLAG)|
+       (1<<TRANSPARENT_HUGEPAGE_DEFRAG_REQ_MADV_FLAG)|
         (1<<TRANSPARENT_HUGEPAGE_DEFRAG_KHUGEPAGED_FLAG)|
         (1<<TRANSPARENT_HUGEPAGE_USE_ZERO_PAGE_FLAG);
  
@@ -270,37 +270,35 @@ static struct shrinker huge_zero_page_shrinker = {
  
  #ifdef CONFIG_SYSFS
  
-static ssize_t double_flag_show(struct kobject *kobj,
-                               struct kobj_attribute *attr, char *buf,
-                               enum transparent_hugepage_flag enabled,
-                               enum transparent_hugepage_flag req_madv)
-{
-       if (test_bit(enabled, &transparent_hugepage_flags)) {
-               VM_BUG_ON(test_bit(req_madv, &transparent_hugepage_flags));
-               return sprintf(buf, "[always] madvise never\n");
-       } else if (test_bit(req_madv, &transparent_hugepage_flags))
-               return sprintf(buf, "always [madvise] never\n");
-       else
-               return sprintf(buf, "always madvise [never]\n");
-}
-static ssize_t double_flag_store(struct kobject *kobj,
+static ssize_t triple_flag_store(struct kobject *kobj,
                                  struct kobj_attribute *attr,
                                  const char *buf, size_t count,
                                  enum transparent_hugepage_flag enabled,
+                                enum transparent_hugepage_flag deferred,
                                  enum transparent_hugepage_flag req_madv)
  {
-       if (!memcmp("always", buf,
+       if (!memcmp("defer", buf,
+                   min(sizeof("defer")-1, count))) {
+               if (enabled == deferred)
+                       return -EINVAL;
+               clear_bit(enabled, &transparent_hugepage_flags);
+               clear_bit(req_madv, &transparent_hugepage_flags);
+               set_bit(deferred, &transparent_hugepage_flags);
+       } else if (!memcmp("always", buf,
                     min(sizeof("always")-1, count))) {
-               set_bit(enabled, &transparent_hugepage_flags);
+               clear_bit(deferred, &transparent_hugepage_flags);
                 clear_bit(req_madv, &transparent_hugepage_flags);
+               set_bit(enabled, &transparent_hugepage_flags);
         } else if (!memcmp("madvise", buf,
                            min(sizeof("madvise")-1, count))) {
                 clear_bit(enabled, &transparent_hugepage_flags);
+               clear_bit(deferred, &transparent_hugepage_flags);
                 set_bit(req_madv, &transparent_hugepage_flags);
         } else if (!memcmp("never", buf,
                            min(sizeof("never")-1, count))) {
                 clear_bit(enabled, &transparent_hugepage_flags);
                 clear_bit(req_madv, &transparent_hugepage_flags);
+               clear_bit(deferred, &transparent_hugepage_flags);
         } else
                 return -EINVAL;
  
@@ -310,17 +308,22 @@ static ssize_t double_flag_store(struct kobject *kobj,
  static ssize_t enabled_show(struct kobject *kobj,
                             struct kobj_attribute *attr, char *buf)
  {
-       return double_flag_show(kobj, attr, buf,
-                               TRANSPARENT_HUGEPAGE_FLAG,
-                               TRANSPARENT_HUGEPAGE_REQ_MADV_FLAG);
+       if (test_bit(TRANSPARENT_HUGEPAGE_FLAG, &transparent_hugepage_flags))
+               return sprintf(buf, "[always] madvise never\n");
+       else if (test_bit(TRANSPARENT_HUGEPAGE_REQ_MADV_FLAG, &transparent_hugepage_flags))
+               return sprintf(buf, "always [madvise] never\n");
+       else
+               return sprintf(buf, "always madvise [never]\n");
  }
+
  static ssize_t enabled_store(struct kobject *kobj,
                              struct kobj_attribute *attr,
                              const char *buf, size_t count)
  {
         ssize_t ret;
  
-       ret = double_flag_store(kobj, attr, buf, count,
+       ret = triple_flag_store(kobj, attr, buf, count,
+                               TRANSPARENT_HUGEPAGE_FLAG,
                                 TRANSPARENT_HUGEPAGE_FLAG,
                                 TRANSPARENT_HUGEPAGE_REQ_MADV_FLAG);
  
@@ -378,16 +381,23 @@ static ssize_t single_flag_store(struct kobject *kobj,
  static ssize_t defrag_show(struct kobject *kobj,
                            struct kobj_attribute *attr, char *buf)
  {
-       return double_flag_show(kobj, attr, buf,
-                               TRANSPARENT_HUGEPAGE_DEFRAG_FLAG,
-                               TRANSPARENT_HUGEPAGE_DEFRAG_REQ_MADV_FLAG);
+       if (test_bit(TRANSPARENT_HUGEPAGE_DEFRAG_DIRECT_FLAG, &transparent_hugepage_flags))
+               return sprintf(buf, "[always] defer madvise never\n");
+       if (test_bit(TRANSPARENT_HUGEPAGE_DEFRAG_KSWAPD_FLAG, &transparent_hugepage_flags))
+               return sprintf(buf, "always [defer] madvise never\n");
+       else if (test_bit(TRANSPARENT_HUGEPAGE_DEFRAG_REQ_MADV_FLAG, &transparent_hugepage_flags))
+               return sprintf(buf, "always defer [madvise] never\n");
+       else
+               return sprintf(buf, "always defer madvise [never]\n");
+
  }
  static ssize_t defrag_store(struct kobject *kobj,
                             struct kobj_attribute *attr,
                             const char *buf, size_t count)
  {
-       return double_flag_store(kobj, attr, buf, count,
-                                TRANSPARENT_HUGEPAGE_DEFRAG_FLAG,
+       return triple_flag_store(kobj, attr, buf, count,
+                                TRANSPARENT_HUGEPAGE_DEFRAG_DIRECT_FLAG,
+                                TRANSPARENT_HUGEPAGE_DEFRAG_KSWAPD_FLAG,
                                  TRANSPARENT_HUGEPAGE_DEFRAG_REQ_MADV_FLAG);
  }
  static struct kobj_attribute defrag_attr =
@@ -843,9 +853,30 @@ static int __do_huge_pmd_anonymous_page(struct mm_struct *mm,
         return 0;
  }
  
-static inline gfp_t alloc_hugepage_gfpmask(int defrag, gfp_t extra_gfp)
+/*
+ * If THP is set to always then directly reclaim/compact as necessary
+ * If set to defer then do no reclaim and defer to khugepaged
+ * If set to madvise and the VMA is flagged then directly reclaim/compact
+ */
+static inline gfp_t alloc_hugepage_direct_gfpmask(struct vm_area_struct *vma)
+{
+       gfp_t reclaim_flags = 0;
+
+       if (test_bit(TRANSPARENT_HUGEPAGE_DEFRAG_REQ_MADV_FLAG, &transparent_hugepage_flags) &&
+           (vma->vm_flags & VM_HUGEPAGE))
+               reclaim_flags = __GFP_DIRECT_RECLAIM;
+       else if (test_bit(TRANSPARENT_HUGEPAGE_DEFRAG_KSWAPD_FLAG, &transparent_hugepage_flags))
+               reclaim_flags = __GFP_KSWAPD_RECLAIM;
+       else if (test_bit(TRANSPARENT_HUGEPAGE_DEFRAG_DIRECT_FLAG, &transparent_hugepage_flags))
+               reclaim_flags = __GFP_DIRECT_RECLAIM;
+
+       return GFP_TRANSHUGE | reclaim_flags;
+}
+
+/* Defrag for khugepaged will enter direct reclaim/compaction if necessary */
+static inline gfp_t alloc_hugepage_khugepaged_gfpmask(void)
  {
-       return (GFP_TRANSHUGE & ~(defrag ? 0 : __GFP_RECLAIM)) | extra_gfp;
+       return GFP_TRANSHUGE | (khugepaged_defrag() ? __GFP_DIRECT_RECLAIM : 0);
  }
  
  /* Caller must hold page table lock. */
@@ -919,7 +950,7 @@ int do_huge_pmd_anonymous_page(struct mm_struct *mm, struct vm_area_struct *vma,
                 }
                 return ret;
         }
-       gfp = alloc_hugepage_gfpmask(transparent_hugepage_defrag(vma), 0);
+       gfp = alloc_hugepage_direct_gfpmask(vma);
         page = alloc_hugepage_vma(gfp, vma, haddr, HPAGE_PMD_ORDER);
         if (unlikely(!page)) {
                 count_vm_event(THP_FAULT_FALLBACK);
@@ -1279,7 +1310,7 @@ int do_huge_pmd_wp_page(struct mm_struct *mm, struct vm_area_struct *vma,
  alloc:
         if (transparent_hugepage_enabled(vma) &&
             !transparent_hugepage_debug_cow()) {
-               huge_gfp = alloc_hugepage_gfpmask(transparent_hugepage_defrag(vma), 0);
+               huge_gfp = alloc_hugepage_direct_gfpmask(vma);
                 new_page = alloc_hugepage_vma(huge_gfp, vma, haddr, HPAGE_PMD_ORDER);
         } else
                 new_page = NULL;
@@ -2249,11 +2280,12 @@ static int khugepaged_find_target_node(void)
         return 0;
  }
  
-static inline struct page *alloc_hugepage(int defrag)
+static inline struct page *alloc_khugepaged_hugepage(void)
  {
         struct page *page;
  
-       page = alloc_pages(alloc_hugepage_gfpmask(defrag, 0), HPAGE_PMD_ORDER);
+       page = alloc_pages(alloc_hugepage_khugepaged_gfpmask(),
+                          HPAGE_PMD_ORDER);
         if (page)
                 prep_transhuge_page(page);
         return page;
@@ -2264,7 +2296,7 @@ static struct page *khugepaged_alloc_hugepage(bool *wait)
         struct page *hpage;
  
         do {
-               hpage = alloc_hugepage(khugepaged_defrag());
+               hpage = alloc_khugepaged_hugepage();
                 if (!hpage) {
                         count_vm_event(THP_COLLAPSE_ALLOC_FAILED);
                         if (!*wait)
@@ -2335,8 +2367,7 @@ static void collapse_huge_page(struct mm_struct *mm,
         VM_BUG_ON(address & ~HPAGE_PMD_MASK);
  
         /* Only allocate from the target node */
-       gfp = alloc_hugepage_gfpmask(khugepaged_defrag(), __GFP_OTHER_NODE) |
-               __GFP_THISNODE;
+       gfp = alloc_hugepage_khugepaged_gfpmask() | __GFP_OTHER_NODE | __GFP_THISNODE;
  
         /* release the mmap_sem read lock. */
         new_page = khugepaged_alloc_page(hpage, gfp, mm, address, node);
diff --git a/mm/page_alloc.c b/mm/page_alloc.c

index d156310aedeb7a7161e2763b326ce3800616bd07..096a00d98a45e90ad02818020324767366d19165 100644 (file)
--- a/mm/page_alloc.c
+++ b/mm/page_alloc.c
@@ -3119,14 +3119,6 @@ __alloc_pages_slowpath(gfp_t gfp_mask, unsigned int order,
                                 (__GFP_ATOMIC|__GFP_DIRECT_RECLAIM)))
                 gfp_mask &= ~__GFP_ATOMIC;
  
-       /*
-        * If this allocation cannot block and it is for a specific node, then
-        * fail early.  There's no need to wakeup kswapd or retry for a
-        * speculative node-specific allocation.
-        */
-       if (IS_ENABLED(CONFIG_NUMA) && (gfp_mask & __GFP_THISNODE) && !can_direct_reclaim)
-               goto nopage;
-
  retry:
         if (gfp_mask & __GFP_KSWAPD_RECLAIM)
                 wake_all_kswapds(order, ac);
diff --git a/mm/slab.c b/mm/slab.c

index 56dd0df2a8ce52e9f40d1ddaf259cbaab42cfe56..e1f6c27c3db5c028ed4ffc963756f3005805400e 100644 (file)
--- a/mm/slab.c
+++ b/mm/slab.c
@@ -670,7 +670,7 @@ static inline void *____cache_alloc_node(struct kmem_cache *cachep,
  
  static inline gfp_t gfp_exact_node(gfp_t flags)
  {
-       return flags;
+       return flags & ~__GFP_NOFAIL;
  }
  
  #else  /* CONFIG_NUMA */
@@ -841,12 +841,12 @@ static inline int cache_free_alien(struct kmem_cache *cachep, void *objp)
  }
  
  /*
- * Construct gfp mask to allocate from a specific node but do not direct reclaim
- * or warn about failures. kswapd may still wake to reclaim in the background.
+ * Construct gfp mask to allocate from a specific node but do not reclaim or
+ * warn about failures.
   */
  static inline gfp_t gfp_exact_node(gfp_t flags)
  {
-       return (flags | __GFP_THISNODE | __GFP_NOWARN) & ~__GFP_DIRECT_RECLAIM;
+       return (flags | __GFP_THISNODE | __GFP_NOWARN) & ~(__GFP_RECLAIM|__GFP_NOFAIL);
  }
  #endif
  
diff --git a/mm/slub.c b/mm/slub.c

index 2f2f04d39104e9769d01be4bca4dffa3da607a20..64ed5f3a3046222caa6bc426303788ce4a40cb0f 100644 (file)
--- a/mm/slub.c
+++ b/mm/slub.c
@@ -1426,7 +1426,7 @@ static struct page *allocate_slab(struct kmem_cache *s, gfp_t flags, int node)
          */
         alloc_gfp = (flags | __GFP_NOWARN | __GFP_NORETRY) & ~__GFP_NOFAIL;
         if ((alloc_gfp & __GFP_DIRECT_RECLAIM) && oo_order(oo) > oo_order(s->min))
-               alloc_gfp = (alloc_gfp | __GFP_NOMEMALLOC) & ~__GFP_DIRECT_RECLAIM;
+               alloc_gfp = (alloc_gfp | __GFP_NOMEMALLOC) & ~(__GFP_RECLAIM|__GFP_NOFAIL);
  
         page = alloc_slab_page(s, alloc_gfp, node, oo);
         if (unlikely(!page)) {
author	Mel Gorman <mgorman@techsingularity.net>
	Thu, 17 Mar 2016 21:19:23 +0000 (14:19 -0700)
committer	Linus Torvalds <torvalds@linux-foundation.org>
	Thu, 17 Mar 2016 22:09:34 +0000 (15:09 -0700)
Documentation/vm/transhuge.txt		patch \| blob \| history
include/linux/gfp.h		patch \| blob \| history
include/linux/huge_mm.h		patch \| blob \| history
mm/huge_memory.c		patch \| blob \| history
mm/page_alloc.c		patch \| blob \| history
mm/slab.c		patch \| blob \| history
mm/slub.c		patch \| blob \| history