From 4b0489e2f3c1136b206e93915ebedcc207d70969 Mon Sep 17 00:00:00 2001
From: Ika <ikatyang@gmail.com>
Date: Sun, 1 Sep 2019 14:30:33 +0800
Subject: [PATCH 01/27] fix: allow lowercase unicode escape (#440)

---
 cli/src/generate/prepare_grammar/expand_tokens.rs | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/cli/src/generate/prepare_grammar/expand_tokens.rs b/cli/src/generate/prepare_grammar/expand_tokens.rs
index 2b88762b..9b594f3c 100644
--- a/cli/src/generate/prepare_grammar/expand_tokens.rs
+++ b/cli/src/generate/prepare_grammar/expand_tokens.rs
@@ -12,7 +12,7 @@ use std::i32;
 
 lazy_static! {
     static ref CURLY_BRACE_REGEX: Regex =
-        Regex::new(r#"(^|[^\\])\{([^}]*[^0-9A-F,}][^}]*)\}"#).unwrap();
+        Regex::new(r#"(^|[^\\])\{([^}]*[^0-9A-Fa-f,}][^}]*)\}"#).unwrap();
 }
 
 const ALLOWED_REDUNDANT_ESCAPED_CHARS: [char; 4] = ['!', '\'', '"', '/'];
@@ -653,12 +653,15 @@ mod tests {
                     Rule::pattern(r#"\{[ab]{3}\}"#),
                     // Unicode codepoints
                     Rule::pattern(r#"\u{1000A}"#),
+                    // Unicode codepoints (lowercase)
+                    Rule::pattern(r#"\u{1000b}"#),
                 ],
                 separators: vec![],
                 examples: vec![
                     ("u{1234} ok", Some((0, "u{1234}"))),
                     ("{aba}}", Some((1, "{aba}"))),
                     ("\u{1000A}", Some((2, "\u{1000A}"))),
+                    ("\u{1000b}", Some((3, "\u{1000b}"))),
                 ],
             },
         ];

From 1b033fdfa45faf14672f5f8895aef85eb136da75 Mon Sep 17 00:00:00 2001
From: Ika <ikatyang@gmail.com>
Date: Sun, 1 Sep 2019 23:52:39 +0800
Subject: [PATCH 02/27] feat(cli): support snapshot testing with `--update`
 flag

This PR adds an `--update` flag to the `tree-sitter test` command, which adds the ability to replace the _expected_ output in the corpus.txt with the _actual_ output produced by the parser, that is, we can now simply use this `--update` flag to write all the corresponding parser output back to the corpus.txt, and we just need to check the output without typing its actual sexp.

- use the same output format as `tree-sitter parse`, except there won't be any position information printed.
- the corpus.txt won't be touched if there's no difference between the _expected_ output and the _actual_ output in that file.
- if there're differences between _expected_ and _actual_, only the test case that is different will be replaced, the rest test cases will stay as-is. (All the delimiters `===`/`---` will be normalized as 80-column long, though.)
- this flag also works with `--filter` flag.
---
 cli/src/lib.rs               |   1 +
 cli/src/main.rs              |   6 +-
 cli/src/parse.rs             |  53 +-------
 cli/src/print.rs             |  60 +++++++++
 cli/src/test.rs              | 251 ++++++++++++++++++++++++++++-------
 cli/src/tests/corpus_test.rs |   8 +-
 6 files changed, 274 insertions(+), 105 deletions(-)
 create mode 100644 cli/src/print.rs

diff --git a/cli/src/lib.rs b/cli/src/lib.rs
index 33a9904f..e996083a 100644
--- a/cli/src/lib.rs
+++ b/cli/src/lib.rs
@@ -9,6 +9,7 @@ pub mod test;
 pub mod util;
 pub mod wasm;
 pub mod web_ui;
+pub mod print;
 
 #[cfg(test)]
 mod tests;
diff --git a/cli/src/main.rs b/cli/src/main.rs
index 59d04a97..7a5adbf1 100644
--- a/cli/src/main.rs
+++ b/cli/src/main.rs
@@ -83,7 +83,8 @@ fn run() -> error::Result<()> {
                         .takes_value(true),
                 )
                 .arg(Arg::with_name("debug").long("debug").short("d"))
-                .arg(Arg::with_name("debug-graph").long("debug-graph").short("D")),
+                .arg(Arg::with_name("debug-graph").long("debug-graph").short("D"))
+                .arg(Arg::with_name("update").long("update").short("u")),
         )
         .subcommand(
             SubCommand::with_name("highlight")
@@ -150,9 +151,10 @@ fn run() -> error::Result<()> {
         let debug = matches.is_present("debug");
         let debug_graph = matches.is_present("debug-graph");
         let filter = matches.value_of("filter");
+        let update = matches.is_present("update");
         let corpus_path = current_dir.join("corpus");
         if let Some(language) = loader.languages_at_path(&current_dir)?.first() {
-            test::run_tests_at_path(*language, &corpus_path, debug, debug_graph, filter)?;
+            test::run_tests_at_path(*language, &corpus_path, debug, debug_graph, filter, update)?;
         } else {
             eprintln!("No language found");
         }
diff --git a/cli/src/parse.rs b/cli/src/parse.rs
index d1ddb499..065ffb02 100644
--- a/cli/src/parse.rs
+++ b/cli/src/parse.rs
@@ -1,4 +1,5 @@
 use super::error::{Error, Result};
+use super::print::print_tree;
 use super::util;
 use std::io::{self, Write};
 use std::path::Path;
@@ -81,57 +82,7 @@ pub fn parse_file_at_path(
         let mut cursor = tree.walk();
 
         if !quiet {
-            let mut needs_newline = false;
-            let mut indent_level = 0;
-            let mut did_visit_children = false;
-            loop {
-                let node = cursor.node();
-                let is_named = node.is_named();
-                if did_visit_children {
-                    if is_named {
-                        stdout.write(b")")?;
-                        needs_newline = true;
-                    }
-                    if cursor.goto_next_sibling() {
-                        did_visit_children = false;
-                    } else if cursor.goto_parent() {
-                        did_visit_children = true;
-                        indent_level -= 1;
-                    } else {
-                        break;
-                    }
-                } else {
-                    if is_named {
-                        if needs_newline {
-                            stdout.write(b"\n")?;
-                        }
-                        for _ in 0..indent_level {
-                            stdout.write(b"  ")?;
-                        }
-                        let start = node.start_position();
-                        let end = node.end_position();
-                        if let Some(field_name) = cursor.field_name() {
-                            write!(&mut stdout, "{}: ", field_name)?;
-                        }
-                        write!(
-                            &mut stdout,
-                            "({} [{}, {}] - [{}, {}]",
-                            node.kind(),
-                            start.row,
-                            start.column,
-                            end.row,
-                            end.column
-                        )?;
-                        needs_newline = true;
-                    }
-                    if cursor.goto_first_child() {
-                        did_visit_children = false;
-                        indent_level += 1;
-                    } else {
-                        did_visit_children = true;
-                    }
-                }
-            }
+            print_tree(&mut stdout, &mut cursor, true)?;
             cursor.reset(tree.root_node());
             println!("");
         }
diff --git a/cli/src/print.rs b/cli/src/print.rs
new file mode 100644
index 00000000..7a57c625
--- /dev/null
+++ b/cli/src/print.rs
@@ -0,0 +1,60 @@
+use super::error::{Result};
+use std::io::{Write};
+use tree_sitter::{TreeCursor};
+
+pub fn print_tree(output: &mut Write, cursor: &mut TreeCursor, prints_position: bool) -> Result<()> {
+    let mut needs_newline = false;
+    let mut indent_level = 0;
+    let mut did_visit_children = false;
+    loop {
+        let node = cursor.node();
+        let is_named = node.is_named();
+        if did_visit_children {
+            if is_named {
+                output.write(b")")?;
+                needs_newline = true;
+            }
+            if cursor.goto_next_sibling() {
+                did_visit_children = false;
+            } else if cursor.goto_parent() {
+                did_visit_children = true;
+                indent_level -= 1;
+            } else {
+                break;
+            }
+        } else {
+            if is_named {
+                if needs_newline {
+                    output.write(b"\n")?;
+                }
+                for _ in 0..indent_level {
+                    output.write(b"  ")?;
+                }
+                if let Some(field_name) = cursor.field_name() {
+                    write!(output, "{}: ", field_name)?;
+                }
+                write!(output, "({}", node.kind())?;
+                if prints_position {
+                    let start = node.start_position();
+                    let end = node.end_position();
+                    write!(
+                        output,
+                        " [{}, {}] - [{}, {}]",
+                        start.row,
+                        start.column,
+                        end.row,
+                        end.column
+                    )?;
+                }
+                needs_newline = true;
+            }
+            if cursor.goto_first_child() {
+                did_visit_children = false;
+                indent_level += 1;
+            } else {
+                did_visit_children = true;
+            }
+        }
+    }
+    return Ok(());
+}
diff --git a/cli/src/test.rs b/cli/src/test.rs
index f742e887..7a08e805 100644
--- a/cli/src/test.rs
+++ b/cli/src/test.rs
@@ -1,4 +1,5 @@
 use super::error::{Error, Result};
+use super::print::print_tree;
 use super::util;
 use ansi_term::Colour;
 use difference::{Changeset, Difference};
@@ -8,7 +9,7 @@ use regex::Regex;
 use std::char;
 use std::fs;
 use std::io::{self, Write};
-use std::path::Path;
+use std::path::{Path, PathBuf};
 use std::str;
 use tree_sitter::{Language, LogType, Parser};
 
@@ -30,6 +31,7 @@ pub enum TestEntry {
     Group {
         name: String,
         children: Vec<TestEntry>,
+        file_path: Option<PathBuf>,
     },
     Example {
         name: String,
@@ -44,6 +46,7 @@ impl Default for TestEntry {
         TestEntry::Group {
             name: String::new(),
             children: Vec::new(),
+            file_path: None,
         }
     }
 }
@@ -54,43 +57,52 @@ pub fn run_tests_at_path(
     debug: bool,
     debug_graph: bool,
     filter: Option<&str>,
+    update: bool,
 ) -> Result<()> {
-    let test_entry = parse_tests(path)?;
+    let test_entry = parse_tests(path, false)?;
     let mut _log_session = None;
     let mut parser = Parser::new();
     parser.set_language(language).map_err(|e| e.to_string())?;
 
-    if debug_graph {
-        _log_session = Some(util::log_graphs(&mut parser, "log.html")?);
-    } else if debug {
-        parser.set_logger(Some(Box::new(|log_type, message| {
-            if log_type == LogType::Lex {
-                io::stderr().write(b"  ").unwrap();
-            }
-            write!(&mut io::stderr(), "{}\n", message).unwrap();
-        })));
-    }
-
-    let mut failures = Vec::new();
-    if let TestEntry::Group { children, .. } = test_entry {
-        for child in children {
-            run_tests(&mut parser, child, filter, 0, &mut failures)?;
+    if !update {
+        if debug_graph {
+            _log_session = Some(util::log_graphs(&mut parser, "log.html")?);
+        } else if debug {
+            parser.set_logger(Some(Box::new(|log_type, message| {
+                if log_type == LogType::Lex {
+                    io::stderr().write(b"  ").unwrap();
+                }
+                write!(&mut io::stderr(), "{}\n", message).unwrap();
+            })));
         }
     }
 
-    if failures.len() > 0 {
+    let mut diffs = Vec::new();
+    let mut update_entries = Vec::new();
+    run_tests(&mut parser, test_entry, filter, update, &mut update_entries, -1, &mut diffs)?;
+
+    if diffs.len() > 0 {
         println!("");
 
-        if failures.len() == 1 {
-            println!("1 failure:")
+        let diff_name = if update { "update" } else { "failure" };
+        if diffs.len() == 1 {
+            println!("1 {}:", diff_name)
         } else {
-            println!("{} failures:", failures.len())
+            println!("{} {}s:", diffs.len(), diff_name)
         }
 
-        print_diff_key();
-        for (i, (name, actual, expected)) in failures.iter().enumerate() {
+        if update {
+            print_update_diff_key();
+        } else {
+            print_diff_key();
+        }
+        for (i, (name, parsed, provided)) in diffs.iter().enumerate() {
             println!("\n  {}. {}:", i + 1, name);
-            print_diff(actual, expected);
+            if update {
+                print_update_diff(provided, parsed);
+            } else {
+                print_diff(parsed, provided);
+            }
         }
         Error::err(String::new())
     } else {
@@ -99,14 +111,40 @@ pub fn run_tests_at_path(
 }
 
 pub fn print_diff_key() {
+    print_diff_key_with_colors("actual", "expected", Colour::Red, Colour::Green);
+}
+
+fn print_update_diff_key() {
+    print_diff_key_with_colors("original", "updated", Colour::Yellow, Colour::Green);
+}
+
+fn print_diff_key_with_colors(
+    actual_name: &str,
+    expected_name: &str,
+    actual_color: Colour,
+    expected_color: Colour,
+) {
     println!(
         "\n{} / {}",
-        Colour::Green.paint("expected"),
-        Colour::Red.paint("actual")
+        expected_color.paint(expected_name),
+        actual_color.paint(actual_name)
     );
 }
 
 pub fn print_diff(actual: &String, expected: &String) {
+    print_diff_with_colors(actual, expected, Colour::Red, Colour::Green);
+}
+
+fn print_update_diff(actual: &String, expected: &String) {
+    print_diff_with_colors(actual, expected, Colour::Yellow, Colour::Green);
+}
+
+fn print_diff_with_colors(
+    actual: &String,
+    expected: &String,
+    actual_color: Colour,
+    expected_color: Colour,
+) {
     let changeset = Changeset::new(actual, expected, " ");
     print!("    ");
     for diff in &changeset.diffs {
@@ -115,10 +153,10 @@ pub fn print_diff(actual: &String, expected: &String) {
                 print!("{}{}", part, changeset.split);
             }
             Difference::Add(part) => {
-                print!("{}{}", Colour::Green.paint(part), changeset.split);
+                print!("{}{}", expected_color.paint(part), changeset.split);
             }
             Difference::Rem(part) => {
-                print!("{}{}", Colour::Red.paint(part), changeset.split);
+                print!("{}{}", actual_color.paint(part), changeset.split);
             }
         }
     }
@@ -129,8 +167,10 @@ fn run_tests(
     parser: &mut Parser,
     test_entry: TestEntry,
     filter: Option<&str>,
+    update: bool,
+    update_entries: &mut Vec<(String, String, String)>,
     mut indent_level: i32,
-    failures: &mut Vec<(String, String, String)>,
+    diffs: &mut Vec<(String, String, String)>,
 ) -> Result<()> {
     match test_entry {
         TestEntry::Example {
@@ -141,39 +181,97 @@ fn run_tests(
         } => {
             if let Some(filter) = filter {
                 if !name.contains(filter) {
+                    if update {
+                        let input = String::from_utf8(input).unwrap();
+                        update_entries.push((name, input, output));
+                    }
                     return Ok(());
                 }
             }
             let tree = parser.parse(&input, None).unwrap();
-            let mut actual = tree.root_node().to_sexp();
+            let mut parsed = tree.root_node().to_sexp();
             if !has_fields {
-                actual = strip_sexp_fields(actual);
+                parsed = strip_sexp_fields(parsed);
             }
             for _ in 0..indent_level {
                 print!("  ");
             }
-            if actual == output {
+            let provided = normalize_sexp(&output);
+            if parsed == provided {
                 println!("✓ {}", Colour::Green.paint(&name));
+                if update {
+                    let input = String::from_utf8(input).unwrap();
+                    update_entries.push((name, input, output));
+                }
             } else {
-                println!("✗ {}", Colour::Red.paint(&name));
-                failures.push((name, actual, output));
+                if update {
+                    let input = String::from_utf8(input).unwrap();
+                    let mut fixed_output = Vec::new();
+                    let mut cursor = tree.walk();
+                    print_tree(&mut fixed_output, &mut cursor, false)?;
+                    let fixed_output = String::from_utf8(fixed_output).unwrap();
+                    update_entries.push((name.clone(), input, fixed_output));
+                    println!("✓ {}", Colour::Yellow.paint(&name));
+                } else {
+                    println!("✗ {}", Colour::Red.paint(&name));
+                }
+                diffs.push((name, parsed, provided));
             }
         }
-        TestEntry::Group { name, children } => {
-            for _ in 0..indent_level {
-                print!("  ");
+        TestEntry::Group { name, children, file_path } => {
+            if indent_level >= 0 {
+                for _ in 0..indent_level {
+                    print!("  ");
+                }
+                println!("{}:", name);
             }
-            println!("{}:", name);
+
+            let diff_count = diffs.len();
+
             indent_level += 1;
             for child in children {
-                run_tests(parser, child, filter, indent_level, failures)?;
+                run_tests(parser, child, filter, update, update_entries, indent_level, diffs)?;
+            }
+
+            if let Some(file_path) = file_path {
+                if update && diffs.len() - diff_count > 0 {
+                    write_tests(&file_path, &update_entries)?;
+                }
+                update_entries.clear();
             }
         }
     }
     Ok(())
 }
 
-pub fn parse_tests(path: &Path) -> io::Result<TestEntry> {
+fn write_tests(file_path: &Path, update_entries: &Vec<(String, String, String)>) -> Result<()> {
+    let mut buffer = fs::File::create(file_path)?;
+    write_tests_to_buffer(&mut buffer, update_entries)
+}
+
+fn write_tests_to_buffer(
+    buffer: &mut Write,
+    update_entries: &Vec<(String, String, String)>,
+) -> Result<()> {
+    for (i, (name, input, output)) in update_entries.iter().enumerate() {
+        if i > 0 {
+            write!(buffer, "\n")?;
+        }
+        write!(
+            buffer,
+            "{}\n{}\n{}\n{}\n{}\n\n{}\n",
+            "=".repeat(80),
+            name,
+            "=".repeat(80),
+            input,
+            "-".repeat(80),
+            output.trim()
+        )?;
+    }
+    Ok(())
+}
+
+pub fn parse_tests(path: &Path, norm_sexp: bool) -> io::Result<TestEntry> {
     let name = path
         .file_stem()
         .and_then(|s| s.to_str())
@@ -189,13 +287,13 @@ pub fn parse_tests(path: &Path) -> io::Result<TestEntry> {
                 .unwrap_or("")
                 .starts_with(".");
             if !hidden {
-                children.push(parse_tests(&entry.path())?);
+                children.push(parse_tests(&entry.path(), norm_sexp)?);
             }
         }
-        Ok(TestEntry::Group { name, children })
+        Ok(TestEntry::Group { name, children, file_path: None })
     } else {
         let content = fs::read_to_string(path)?;
-        Ok(parse_test_content(name, content))
+        Ok(parse_test_content(name, content, Some(path.to_path_buf()), norm_sexp))
     }
 }
 
@@ -203,7 +301,12 @@ pub fn strip_sexp_fields(sexp: String) -> String {
     SEXP_FIELD_REGEX.replace_all(&sexp, " (").to_string()
 }
 
-fn parse_test_content(name: String, content: String) -> TestEntry {
+fn parse_test_content(
+    name: String,
+    content: String,
+    file_path: Option<PathBuf>,
+    norm_sexp: bool,
+) -> TestEntry {
     let mut children = Vec::new();
     let bytes = content.as_bytes();
     let mut previous_name = String::new();
@@ -224,8 +327,11 @@ fn parse_test_content(name: String, content: String) -> TestEntry {
                 );
                 if let Ok(output) = str::from_utf8(&bytes[divider_end..header_start]) {
                     let input = bytes[previous_header_end..divider_start].to_vec();
-                    let output = WHITESPACE_REGEX.replace_all(output.trim(), " ").to_string();
-                    let output = output.replace(" )", ")");
+                    let output = if norm_sexp {
+                        normalize_sexp(output)
+                    } else {
+                        output.to_owned()
+                    };
                     let has_fields = SEXP_FIELD_REGEX.is_match(&output);
                     children.push(TestEntry::Example {
                         name: previous_name,
@@ -241,7 +347,13 @@ fn parse_test_content(name: String, content: String) -> TestEntry {
             .to_string();
         previous_header_end = header_end;
     }
-    TestEntry::Group { name, children }
+    TestEntry::Group { name, children, file_path }
+}
+
+fn normalize_sexp(sexp: &str) -> String {
+    let sexp = WHITESPACE_REGEX.replace_all(sexp.trim(), " ").to_string();
+    let sexp = sexp.replace(" )", ")");
+    return sexp;
 }
 
 #[cfg(test)]
@@ -273,6 +385,8 @@ d
         "#
             .trim()
             .to_string(),
+            None,
+            true,
         );
 
         assert_eq!(
@@ -292,8 +406,49 @@ d
                         output: "(d)".to_string(),
                         has_fields: false,
                     },
-                ]
+                ],
+                file_path: None
             }
         );
     }
+
+    #[test]
+    fn test_write_tests_to_buffer() {
+        let mut buffer = Vec::new();
+        let update_entries = vec![
+            (
+                "title 1".to_string(),
+                "input 1".to_string(),
+                "output 1".to_string(),
+            ),
+            (
+                "title 2".to_string(),
+                "input 2".to_string(),
+                "output 2".to_string(),
+            ),
+        ];
+        write_tests_to_buffer(&mut buffer, &update_entries).unwrap();
+        assert_eq!(
+            String::from_utf8(buffer).unwrap(),
+            r#"
+================================================================================
+title 1
+================================================================================
+input 1
+--------------------------------------------------------------------------------
+
+output 1
+
+================================================================================
+title 2
+================================================================================
+input 2
+--------------------------------------------------------------------------------
+
+output 2
+"#
+            .trim_start()
+            .to_string()
+        );
+    }
 }
diff --git a/cli/src/tests/corpus_test.rs b/cli/src/tests/corpus_test.rs
index a8adce5f..dae87542 100644
--- a/cli/src/tests/corpus_test.rs
+++ b/cli/src/tests/corpus_test.rs
@@ -59,8 +59,8 @@ fn test_real_language_corpus_files() {
         let language = get_language(language_name);
         let corpus_dir = grammars_dir.join(language_name).join("corpus");
         let error_corpus_file = error_corpus_dir.join(&format!("{}_errors.txt", language_name));
-        let main_tests = parse_tests(&corpus_dir).unwrap();
-        let error_tests = parse_tests(&error_corpus_file).unwrap_or(TestEntry::default());
+        let main_tests = parse_tests(&corpus_dir, true).unwrap();
+        let error_tests = parse_tests(&error_corpus_file, true).unwrap_or(TestEntry::default());
         let mut tests = flatten_tests(main_tests);
         tests.extend(flatten_tests(error_tests));
 
@@ -243,7 +243,7 @@ fn test_feature_corpus_files() {
             let corpus_path = test_path.join("corpus.txt");
             let c_code = generate_result.unwrap().1;
             let language = get_test_language(language_name, &c_code, Some(&test_path));
-            let test = parse_tests(&corpus_path).unwrap();
+            let test = parse_tests(&corpus_path, true).unwrap();
             let tests = flatten_tests(test);
 
             if !tests.is_empty() {
@@ -381,7 +381,7 @@ fn flatten_tests(test: TestEntry) -> Vec<(String, Vec<u8>, String, bool)> {
                 }
                 result.push((name, input, output, has_fields));
             }
-            TestEntry::Group { mut name, children } => {
+            TestEntry::Group { mut name, children, .. } => {
                 if !prefix.is_empty() {
                     name.insert_str(0, " - ");
                     name.insert_str(0, prefix);

From 807fdf3ef0bbefade37607e923ab3893a420d50b Mon Sep 17 00:00:00 2001
From: Ika <ikatyang@gmail.com>
Date: Fri, 6 Sep 2019 10:42:37 +0800
Subject: [PATCH 03/27] Revert "feat(cli): support snapshot testing with
 `--update` flag"

This reverts commit 1b033fdfa45faf14672f5f8895aef85eb136da75.
---
 cli/src/lib.rs               |   1 -
 cli/src/main.rs              |   6 +-
 cli/src/parse.rs             |  53 +++++++-
 cli/src/print.rs             |  60 ---------
 cli/src/test.rs              | 251 +++++++----------------------------
 cli/src/tests/corpus_test.rs |   8 +-
 6 files changed, 105 insertions(+), 274 deletions(-)
 delete mode 100644 cli/src/print.rs

diff --git a/cli/src/lib.rs b/cli/src/lib.rs
index e996083a..33a9904f 100644
--- a/cli/src/lib.rs
+++ b/cli/src/lib.rs
@@ -9,7 +9,6 @@ pub mod test;
 pub mod util;
 pub mod wasm;
 pub mod web_ui;
-pub mod print;
 
 #[cfg(test)]
 mod tests;
diff --git a/cli/src/main.rs b/cli/src/main.rs
index 7a5adbf1..59d04a97 100644
--- a/cli/src/main.rs
+++ b/cli/src/main.rs
@@ -83,8 +83,7 @@ fn run() -> error::Result<()> {
                         .takes_value(true),
                 )
                 .arg(Arg::with_name("debug").long("debug").short("d"))
-                .arg(Arg::with_name("debug-graph").long("debug-graph").short("D"))
-                .arg(Arg::with_name("update").long("update").short("u")),
+                .arg(Arg::with_name("debug-graph").long("debug-graph").short("D")),
         )
         .subcommand(
             SubCommand::with_name("highlight")
@@ -151,10 +150,9 @@ fn run() -> error::Result<()> {
         let debug = matches.is_present("debug");
         let debug_graph = matches.is_present("debug-graph");
         let filter = matches.value_of("filter");
-        let update = matches.is_present("update");
         let corpus_path = current_dir.join("corpus");
         if let Some(language) = loader.languages_at_path(&current_dir)?.first() {
-            test::run_tests_at_path(*language, &corpus_path, debug, debug_graph, filter, update)?;
+            test::run_tests_at_path(*language, &corpus_path, debug, debug_graph, filter)?;
         } else {
             eprintln!("No language found");
         }
diff --git a/cli/src/parse.rs b/cli/src/parse.rs
index 065ffb02..d1ddb499 100644
--- a/cli/src/parse.rs
+++ b/cli/src/parse.rs
@@ -1,5 +1,4 @@
 use super::error::{Error, Result};
-use super::print::print_tree;
 use super::util;
 use std::io::{self, Write};
 use std::path::Path;
@@ -82,7 +81,57 @@ pub fn parse_file_at_path(
         let mut cursor = tree.walk();
 
         if !quiet {
-            print_tree(&mut stdout, &mut cursor, true)?;
+            let mut needs_newline = false;
+            let mut indent_level = 0;
+            let mut did_visit_children = false;
+            loop {
+                let node = cursor.node();
+                let is_named = node.is_named();
+                if did_visit_children {
+                    if is_named {
+                        stdout.write(b")")?;
+                        needs_newline = true;
+                    }
+                    if cursor.goto_next_sibling() {
+                        did_visit_children = false;
+                    } else if cursor.goto_parent() {
+                        did_visit_children = true;
+                        indent_level -= 1;
+                    } else {
+                        break;
+                    }
+                } else {
+                    if is_named {
+                        if needs_newline {
+                            stdout.write(b"\n")?;
+                        }
+                        for _ in 0..indent_level {
+                            stdout.write(b"  ")?;
+                        }
+                        let start = node.start_position();
+                        let end = node.end_position();
+                        if let Some(field_name) = cursor.field_name() {
+                            write!(&mut stdout, "{}: ", field_name)?;
+                        }
+                        write!(
+                            &mut stdout,
+                            "({} [{}, {}] - [{}, {}]",
+                            node.kind(),
+                            start.row,
+                            start.column,
+                            end.row,
+                            end.column
+                        )?;
+                        needs_newline = true;
+                    }
+                    if cursor.goto_first_child() {
+                        did_visit_children = false;
+                        indent_level += 1;
+                    } else {
+                        did_visit_children = true;
+                    }
+                }
+            }
             cursor.reset(tree.root_node());
             println!("");
         }
diff --git a/cli/src/print.rs b/cli/src/print.rs
deleted file mode 100644
index 7a57c625..00000000
--- a/cli/src/print.rs
+++ /dev/null
@@ -1,60 +0,0 @@
-use super::error::{Result};
-use std::io::{Write};
-use tree_sitter::{TreeCursor};
-
-pub fn print_tree(output: &mut Write, cursor: &mut TreeCursor, prints_position: bool) -> Result<()> {
-    let mut needs_newline = false;
-    let mut indent_level = 0;
-    let mut did_visit_children = false;
-    loop {
-        let node = cursor.node();
-        let is_named = node.is_named();
-        if did_visit_children {
-            if is_named {
-                output.write(b")")?;
-                needs_newline = true;
-            }
-            if cursor.goto_next_sibling() {
-                did_visit_children = false;
-            } else if cursor.goto_parent() {
-                did_visit_children = true;
-                indent_level -= 1;
-            } else {
-                break;
-            }
-        } else {
-            if is_named {
-                if needs_newline {
-                    output.write(b"\n")?;
-                }
-                for _ in 0..indent_level {
-                    output.write(b"  ")?;
-                }
-                if let Some(field_name) = cursor.field_name() {
-                    write!(output, "{}: ", field_name)?;
-                }
-                write!(output, "({}", node.kind())?;
-                if prints_position {
-                    let start = node.start_position();
-                    let end = node.end_position();
-                    write!(
-                        output,
-                        " [{}, {}] - [{}, {}]",
-                        start.row,
-                        start.column,
-                        end.row,
-                        end.column
-                    )?;
-                }
-                needs_newline = true;
-            }
-            if cursor.goto_first_child() {
-                did_visit_children = false;
-                indent_level += 1;
-            } else {
-                did_visit_children = true;
-            }
-        }
-    }
-    return Ok(());
-}
diff --git a/cli/src/test.rs b/cli/src/test.rs
index 7a08e805..f742e887 100644
--- a/cli/src/test.rs
+++ b/cli/src/test.rs
@@ -1,5 +1,4 @@
 use super::error::{Error, Result};
-use super::print::print_tree;
 use super::util;
 use ansi_term::Colour;
 use difference::{Changeset, Difference};
@@ -9,7 +8,7 @@ use regex::Regex;
 use std::char;
 use std::fs;
 use std::io::{self, Write};
-use std::path::{Path, PathBuf};
+use std::path::Path;
 use std::str;
 use tree_sitter::{Language, LogType, Parser};
 
@@ -31,7 +30,6 @@ pub enum TestEntry {
     Group {
         name: String,
         children: Vec<TestEntry>,
-        file_path: Option<PathBuf>,
     },
     Example {
         name: String,
@@ -46,7 +44,6 @@ impl Default for TestEntry {
         TestEntry::Group {
             name: String::new(),
             children: Vec::new(),
-            file_path: None,
         }
     }
 }
@@ -57,52 +54,43 @@ pub fn run_tests_at_path(
     debug: bool,
     debug_graph: bool,
     filter: Option<&str>,
-    update: bool,
 ) -> Result<()> {
-    let test_entry = parse_tests(path, false)?;
+    let test_entry = parse_tests(path)?;
     let mut _log_session = None;
     let mut parser = Parser::new();
     parser.set_language(language).map_err(|e| e.to_string())?;
 
-    if !update {
-        if debug_graph {
-            _log_session = Some(util::log_graphs(&mut parser, "log.html")?);
-        } else if debug {
-            parser.set_logger(Some(Box::new(|log_type, message| {
-                if log_type == LogType::Lex {
-                    io::stderr().write(b"  ").unwrap();
-                }
-                write!(&mut io::stderr(), "{}\n", message).unwrap();
-            })));
+    if debug_graph {
+        _log_session = Some(util::log_graphs(&mut parser, "log.html")?);
+    } else if debug {
+        parser.set_logger(Some(Box::new(|log_type, message| {
+            if log_type == LogType::Lex {
+                io::stderr().write(b"  ").unwrap();
+            }
+            write!(&mut io::stderr(), "{}\n", message).unwrap();
+        })));
+    }
+
+    let mut failures = Vec::new();
+    if let TestEntry::Group { children, .. } = test_entry {
+        for child in children {
+            run_tests(&mut parser, child, filter, 0, &mut failures)?;
         }
     }
 
-    let mut diffs = Vec::new();
-    let mut update_entries = Vec::new();
-    run_tests(&mut parser, test_entry, filter, update, &mut update_entries, -1, &mut diffs)?;
-
-    if diffs.len() > 0 {
+    if failures.len() > 0 {
         println!("");
 
-        let diff_name = if update { "update" } else { "failure" };
-        if diffs.len() == 1 {
-            println!("1 {}:", diff_name)
+        if failures.len() == 1 {
+            println!("1 failure:")
         } else {
-            println!("{} {}s:", diffs.len(), diff_name)
+            println!("{} failures:", failures.len())
         }
 
-        if update {
-            print_update_diff_key();
-        } else {
-            print_diff_key();
-        }
-        for (i, (name, parsed, provided)) in diffs.iter().enumerate() {
+        print_diff_key();
+        for (i, (name, actual, expected)) in failures.iter().enumerate() {
             println!("\n  {}. {}:", i + 1, name);
-            if update {
-                print_update_diff(provided, parsed);
-            } else {
-                print_diff(parsed, provided);
-            }
+            print_diff(actual, expected);
         }
         Error::err(String::new())
     } else {
@@ -111,40 +99,14 @@ pub fn run_tests_at_path(
 }
 
 pub fn print_diff_key() {
-    print_diff_key_with_colors("actual", "expected", Colour::Red, Colour::Green);
-}
-
-fn print_update_diff_key() {
-    print_diff_key_with_colors("original", "updated", Colour::Yellow, Colour::Green);
-}
-
-fn print_diff_key_with_colors(
-    actual_name: &str,
-    expected_name: &str,
-    actual_color: Colour,
-    expected_color: Colour,
-) {
     println!(
         "\n{} / {}",
-        expected_color.paint(expected_name),
-        actual_color.paint(actual_name)
+        Colour::Green.paint("expected"),
+        Colour::Red.paint("actual")
     );
 }
 
 pub fn print_diff(actual: &String, expected: &String) {
-    print_diff_with_colors(actual, expected, Colour::Red, Colour::Green);
-}
-
-fn print_update_diff(actual: &String, expected: &String) {
-    print_diff_with_colors(actual, expected, Colour::Yellow, Colour::Green);
-}
-
-fn print_diff_with_colors(
-    actual: &String,
-    expected: &String,
-    actual_color: Colour,
-    expected_color: Colour,
-) {
     let changeset = Changeset::new(actual, expected, " ");
     print!("    ");
     for diff in &changeset.diffs {
@@ -153,10 +115,10 @@ fn print_diff_with_colors(
                 print!("{}{}", part, changeset.split);
             }
             Difference::Add(part) => {
-                print!("{}{}", expected_color.paint(part), changeset.split);
+                print!("{}{}", Colour::Green.paint(part), changeset.split);
             }
             Difference::Rem(part) => {
-                print!("{}{}", actual_color.paint(part), changeset.split);
+                print!("{}{}", Colour::Red.paint(part), changeset.split);
             }
         }
     }
@@ -167,10 +129,8 @@ fn run_tests(
     parser: &mut Parser,
     test_entry: TestEntry,
     filter: Option<&str>,
-    update: bool,
-    update_entries: &mut Vec<(String, String, String)>,
     mut indent_level: i32,
-    diffs: &mut Vec<(String, String, String)>,
+    failures: &mut Vec<(String, String, String)>,
 ) -> Result<()> {
     match test_entry {
         TestEntry::Example {
@@ -181,97 +141,39 @@ fn run_tests(
         } => {
             if let Some(filter) = filter {
                 if !name.contains(filter) {
-                    if update {
-                        let input = String::from_utf8(input).unwrap();
-                        update_entries.push((name, input, output));
-                    }
                     return Ok(());
                 }
             }
             let tree = parser.parse(&input, None).unwrap();
-            let mut parsed = tree.root_node().to_sexp();
+            let mut actual = tree.root_node().to_sexp();
             if !has_fields {
-                parsed = strip_sexp_fields(parsed);
+                actual = strip_sexp_fields(actual);
             }
             for _ in 0..indent_level {
                 print!("  ");
             }
-            let provided = normalize_sexp(&output);
-            if parsed == provided {
+            if actual == output {
                 println!("✓ {}", Colour::Green.paint(&name));
-                if update {
-                    let input = String::from_utf8(input).unwrap();
-                    update_entries.push((name, input, output));
-                }
             } else {
-                if update {
-                    let input = String::from_utf8(input).unwrap();
-                    let mut fixed_output = Vec::new();
-                    let mut cursor = tree.walk();
-                    print_tree(&mut fixed_output, &mut cursor, false)?;
-                    let fixed_output = String::from_utf8(fixed_output).unwrap();
-                    update_entries.push((name.clone(), input, fixed_output));
-                    println!("✓ {}", Colour::Yellow.paint(&name));
-                } else {
-                    println!("✗ {}", Colour::Red.paint(&name));
-                }
-                diffs.push((name, parsed, provided));
+                println!("✗ {}", Colour::Red.paint(&name));
+                failures.push((name, actual, output));
             }
         }
-        TestEntry::Group { name, children, file_path } => {
-            if indent_level >= 0 {
-                for _ in 0..indent_level {
-                    print!("  ");
-                }
-                println!("{}:", name);
+        TestEntry::Group { name, children } => {
+            for _ in 0..indent_level {
+                print!("  ");
             }
-
-            let diff_count = diffs.len();
-
+            println!("{}:", name);
             indent_level += 1;
             for child in children {
-                run_tests(parser, child, filter, update, update_entries, indent_level, diffs)?;
-            }
-
-            if let Some(file_path) = file_path {
-                if update && diffs.len() - diff_count > 0 {
-                    write_tests(&file_path, &update_entries)?;
-                }
-                update_entries.clear();
+                run_tests(parser, child, filter, indent_level, failures)?;
             }
         }
     }
     Ok(())
 }
 
-fn write_tests(file_path: &Path, update_entries: &Vec<(String, String, String)>) -> Result<()> {
-    let mut buffer = fs::File::create(file_path)?;
-    write_tests_to_buffer(&mut buffer, update_entries)
-}
-
-fn write_tests_to_buffer(
-    buffer: &mut Write,
-    update_entries: &Vec<(String, String, String)>,
-) -> Result<()> {
-    for (i, (name, input, output)) in update_entries.iter().enumerate() {
-        if i > 0 {
-            write!(buffer, "\n")?;
-        }
-        write!(
-            buffer,
-            "{}\n{}\n{}\n{}\n{}\n\n{}\n",
-            "=".repeat(80),
-            name,
-            "=".repeat(80),
-            input,
-            "-".repeat(80),
-            output.trim()
-        )?;
-    }
-    Ok(())
-}
-
-pub fn parse_tests(path: &Path, norm_sexp: bool) -> io::Result<TestEntry> {
+pub fn parse_tests(path: &Path) -> io::Result<TestEntry> {
     let name = path
         .file_stem()
         .and_then(|s| s.to_str())
@@ -287,13 +189,13 @@ pub fn parse_tests(path: &Path, norm_sexp: bool) -> io::Result<TestEntry> {
                 .unwrap_or("")
                 .starts_with(".");
             if !hidden {
-                children.push(parse_tests(&entry.path(), norm_sexp)?);
+                children.push(parse_tests(&entry.path())?);
             }
         }
-        Ok(TestEntry::Group { name, children, file_path: None })
+        Ok(TestEntry::Group { name, children })
     } else {
         let content = fs::read_to_string(path)?;
-        Ok(parse_test_content(name, content, Some(path.to_path_buf()), norm_sexp))
+        Ok(parse_test_content(name, content))
     }
 }
 
@@ -301,12 +203,7 @@ pub fn strip_sexp_fields(sexp: String) -> String {
     SEXP_FIELD_REGEX.replace_all(&sexp, " (").to_string()
 }
 
-fn parse_test_content(
-    name: String,
-    content: String,
-    file_path: Option<PathBuf>,
-    norm_sexp: bool,
-) -> TestEntry {
+fn parse_test_content(name: String, content: String) -> TestEntry {
     let mut children = Vec::new();
     let bytes = content.as_bytes();
     let mut previous_name = String::new();
@@ -327,11 +224,8 @@ fn parse_test_content(
                 );
                 if let Ok(output) = str::from_utf8(&bytes[divider_end..header_start]) {
                     let input = bytes[previous_header_end..divider_start].to_vec();
-                    let output = if norm_sexp {
-                        normalize_sexp(output)
-                    } else {
-                        output.to_owned()
-                    };
+                    let output = WHITESPACE_REGEX.replace_all(output.trim(), " ").to_string();
+                    let output = output.replace(" )", ")");
                     let has_fields = SEXP_FIELD_REGEX.is_match(&output);
                     children.push(TestEntry::Example {
                         name: previous_name,
@@ -347,13 +241,7 @@ fn parse_test_content(
             .to_string();
         previous_header_end = header_end;
     }
-    TestEntry::Group { name, children, file_path }
-}
-
-fn normalize_sexp(sexp: &str) -> String {
-    let sexp = WHITESPACE_REGEX.replace_all(sexp.trim(), " ").to_string();
-    let sexp = sexp.replace(" )", ")");
-    return sexp;
+    TestEntry::Group { name, children }
 }
 
 #[cfg(test)]
@@ -385,8 +273,6 @@ d
         "#
             .trim()
             .to_string(),
-            None,
-            true,
         );
 
         assert_eq!(
@@ -406,49 +292,8 @@ d
                         output: "(d)".to_string(),
                         has_fields: false,
                     },
-                ],
-                file_path: None
+                ]
             }
         );
     }
-
-    #[test]
-    fn test_write_tests_to_buffer() {
-        let mut buffer = Vec::new();
-        let update_entries = vec![
-            (
-                "title 1".to_string(),
-                "input 1".to_string(),
-                "output 1".to_string(),
-            ),
-            (
-                "title 2".to_string(),
-                "input 2".to_string(),
-                "output 2".to_string(),
-            ),
-        ];
-        write_tests_to_buffer(&mut buffer, &update_entries).unwrap();
-        assert_eq!(
-            String::from_utf8(buffer).unwrap(),
-            r#"
-================================================================================
-title 1
-================================================================================
-input 1
---------------------------------------------------------------------------------
-
-output 1
-
-================================================================================
-title 2
-================================================================================
-input 2
---------------------------------------------------------------------------------
-
-output 2
-"#
-            .trim_start()
-            .to_string()
-        );
-    }
 }
diff --git a/cli/src/tests/corpus_test.rs b/cli/src/tests/corpus_test.rs
index dae87542..a8adce5f 100644
--- a/cli/src/tests/corpus_test.rs
+++ b/cli/src/tests/corpus_test.rs
@@ -59,8 +59,8 @@ fn test_real_language_corpus_files() {
         let language = get_language(language_name);
         let corpus_dir = grammars_dir.join(language_name).join("corpus");
         let error_corpus_file = error_corpus_dir.join(&format!("{}_errors.txt", language_name));
-        let main_tests = parse_tests(&corpus_dir, true).unwrap();
-        let error_tests = parse_tests(&error_corpus_file, true).unwrap_or(TestEntry::default());
+        let main_tests = parse_tests(&corpus_dir).unwrap();
+        let error_tests = parse_tests(&error_corpus_file).unwrap_or(TestEntry::default());
         let mut tests = flatten_tests(main_tests);
         tests.extend(flatten_tests(error_tests));
 
@@ -243,7 +243,7 @@ fn test_feature_corpus_files() {
             let corpus_path = test_path.join("corpus.txt");
             let c_code = generate_result.unwrap().1;
             let language = get_test_language(language_name, &c_code, Some(&test_path));
-            let test = parse_tests(&corpus_path, true).unwrap();
+            let test = parse_tests(&corpus_path).unwrap();
             let tests = flatten_tests(test);
 
             if !tests.is_empty() {
@@ -381,7 +381,7 @@ fn flatten_tests(test: TestEntry) -> Vec<(String, Vec<u8>, String, bool)> {
                 }
                 result.push((name, input, output, has_fields));
             }
-            TestEntry::Group { mut name, children, .. } => {
+            TestEntry::Group { mut name, children } => {
                 if !prefix.is_empty() {
                     name.insert_str(0, " - ");
                     name.insert_str(0, prefix);

From d88dae7a3e15f8130a6b54f2f900ed2b109a7613 Mon Sep 17 00:00:00 2001
From: Ika <ikatyang@gmail.com>
Date: Fri, 6 Sep 2019 10:57:59 +0800
Subject: [PATCH 04/27] feat(cli): support snapshot testing with `--update`
 flag This PR adds an `--update` flag to the `tree-sitter test` command, which
 adds the ability to replace the _expected_ output in the corpus.txt with the
 _actual_ output produced by the parser, that is, we can now simply use this
 `--update` flag to write all the corresponding parser output back to the
 corpus.txt, and we just need to check the output without typing its actual
 sexp.

- use the same output format as `tree-sitter parse`, except there won't be any position information printed.
- the corpus.txt won't be touched if there's no difference between the _expected_ output and the _actual_ output in that file.
- if there're differences between _expected_ and _actual_, _expected_ will be replaced by _actual_ and the whole file will be reformatted, i.e., all the output sexp will be formatted just like the output from `tree-sitter parse` and all the delimiters `===`/`---` will be normalized as 80-column long.
- this flag also works with `--filter` flag.
---
 cli/src/main.rs              |   4 +-
 cli/src/test.rs              | 240 +++++++++++++++++++++++++++++++----
 cli/src/tests/corpus_test.rs |   2 +-
 3 files changed, 216 insertions(+), 30 deletions(-)

diff --git a/cli/src/main.rs b/cli/src/main.rs
index 59d04a97..84b13da8 100644
--- a/cli/src/main.rs
+++ b/cli/src/main.rs
@@ -82,6 +82,7 @@ fn run() -> error::Result<()> {
                         .short("f")
                         .takes_value(true),
                 )
+                .arg(Arg::with_name("update").long("update").short("u"))
                 .arg(Arg::with_name("debug").long("debug").short("d"))
                 .arg(Arg::with_name("debug-graph").long("debug-graph").short("D")),
         )
@@ -150,9 +151,10 @@ fn run() -> error::Result<()> {
         let debug = matches.is_present("debug");
         let debug_graph = matches.is_present("debug-graph");
         let filter = matches.value_of("filter");
+        let update = matches.is_present("update");
         let corpus_path = current_dir.join("corpus");
         if let Some(language) = loader.languages_at_path(&current_dir)?.first() {
-            test::run_tests_at_path(*language, &corpus_path, debug, debug_graph, filter)?;
+            test::run_tests_at_path(*language, &corpus_path, debug, debug_graph, filter, update)?;
         } else {
             eprintln!("No language found");
         }
diff --git a/cli/src/test.rs b/cli/src/test.rs
index c0f5e6a7..c57d72ad 100644
--- a/cli/src/test.rs
+++ b/cli/src/test.rs
@@ -6,9 +6,10 @@ use lazy_static::lazy_static;
 use regex::bytes::{Regex as ByteRegex, RegexBuilder as ByteRegexBuilder};
 use regex::Regex;
 use std::char;
+use std::fmt::Write as FmtWrite;
 use std::fs;
 use std::io::{self, Write};
-use std::path::Path;
+use std::path::{Path, PathBuf};
 use std::str;
 use tree_sitter::{Language, LogType, Parser};
 
@@ -30,6 +31,7 @@ pub enum TestEntry {
     Group {
         name: String,
         children: Vec<TestEntry>,
+        file_path: Option<PathBuf>,
     },
     Example {
         name: String,
@@ -44,6 +46,7 @@ impl Default for TestEntry {
         TestEntry::Group {
             name: String::new(),
             children: Vec::new(),
+            file_path: None,
         }
     }
 }
@@ -54,6 +57,7 @@ pub fn run_tests_at_path(
     debug: bool,
     debug_graph: bool,
     filter: Option<&str>,
+    update: bool,
 ) -> Result<()> {
     let test_entry = parse_tests(path)?;
     let mut _log_session = None;
@@ -72,27 +76,37 @@ pub fn run_tests_at_path(
     }
 
     let mut failures = Vec::new();
-    if let TestEntry::Group { children, .. } = test_entry {
-        for child in children {
-            run_tests(&mut parser, child, filter, 0, &mut failures)?;
-        }
-    }
+    let mut corrected_entries = Vec::new();
+    run_tests(&mut parser, test_entry, filter, 0, &mut failures, update, &mut corrected_entries)?;
 
     if failures.len() > 0 {
         println!("");
 
-        if failures.len() == 1 {
-            println!("1 failure:")
-        } else {
-            println!("{} failures:", failures.len())
-        }
+        if update {
+            if failures.len() == 1 {
+                println!("1 update:\n")
+            } else {
+                println!("{} updates:\n", failures.len())
+            }
 
-        print_diff_key();
-        for (i, (name, actual, expected)) in failures.iter().enumerate() {
-            println!("\n  {}. {}:", i + 1, name);
-            print_diff(actual, expected);
+            for (i, (name, ..)) in failures.iter().enumerate() {
+                println!("  {}. {}", i + 1, name);
+            }
+            Ok(())
+        } else {
+            if failures.len() == 1 {
+                println!("1 failure:")
+            } else {
+                println!("{} failures:", failures.len())
+            }
+
+            print_diff_key();
+            for (i, (name, actual, expected)) in failures.iter().enumerate() {
+                println!("\n  {}. {}:", i + 1, name);
+                print_diff(actual, expected);
+            }
+            Error::err(String::new())
         }
-        Error::err(String::new())
     } else {
         Ok(())
     }
@@ -131,6 +145,8 @@ fn run_tests(
     filter: Option<&str>,
     mut indent_level: i32,
     failures: &mut Vec<(String, String, String)>,
+    update: bool,
+    corrected_entries: &mut Vec<(String, String, String)>,
 ) -> Result<()> {
     match test_entry {
         TestEntry::Example {
@@ -141,6 +157,11 @@ fn run_tests(
         } => {
             if let Some(filter) = filter {
                 if !name.contains(filter) {
+                    if update {
+                        let input = String::from_utf8(input).unwrap();
+                        let output = format_sexp(&output);
+                        corrected_entries.push((name, input, output));
+                    }
                     return Ok(());
                 }
             }
@@ -154,25 +175,126 @@ fn run_tests(
             }
             if actual == output {
                 println!("✓ {}", Colour::Green.paint(&name));
+                if update {
+                    let input = String::from_utf8(input).unwrap();
+                    let output = format_sexp(&output);
+                    corrected_entries.push((name, input, output));
+                }
             } else {
-                println!("✗ {}", Colour::Red.paint(&name));
+                if update {
+                    let input = String::from_utf8(input).unwrap();
+                    let output = format_sexp(&actual);
+                    corrected_entries.push((name.clone(), input, output));
+                    println!("✓ {}", Colour::Blue.paint(&name));
+                } else {
+                    println!("✗ {}", Colour::Red.paint(&name));
+                }
                 failures.push((name, actual, output));
             }
         }
-        TestEntry::Group { name, children } => {
-            for _ in 0..indent_level {
-                print!("  ");
+        TestEntry::Group { name, children, file_path } => {
+            if indent_level > 0 {
+                for _ in 0..indent_level {
+                    print!("  ");
+                }
+                println!("{}:", name);
             }
-            println!("{}:", name);
+
+            let failure_count = failures.len();
+
             indent_level += 1;
             for child in children {
-                run_tests(parser, child, filter, indent_level, failures)?;
+                run_tests(parser, child, filter, indent_level, failures, update, corrected_entries)?;
+            }
+
+            if let Some(file_path) = file_path {
+                if update && failures.len() - failure_count > 0 {
+                    write_tests(&file_path, corrected_entries)?;
+                }
+                corrected_entries.clear();
             }
         }
     }
     Ok(())
 }
 
+fn format_sexp(sexp: &String) -> String {
+    let mut formatted = String::new();
+
+    let mut indent_level = 0;
+    let mut has_field = false;
+    let mut s_iter = sexp.split(|c| c == ' ' || c == ')');
+    while let Some(s) = s_iter.next() {
+        if s.is_empty() {
+            // ")"
+            indent_level -= 1;
+            write!(formatted, ")").unwrap();
+        } else if s.starts_with('(') {
+            if has_field {
+                has_field = false;
+            } else {
+                if indent_level > 0 {
+                    writeln!(formatted, "").unwrap();
+                    for _ in 0..indent_level {
+                        write!(formatted, "  ").unwrap();
+                    }
+                }
+                indent_level += 1;
+            }
+
+            // "(node_name"
+            write!(formatted, "{}", s).unwrap();
+
+            let mut c_iter = s.chars();
+            c_iter.next();
+            let second_char = c_iter.next().unwrap();
+            if second_char == 'M' {
+                // "(MISSING node_name"
+                let s = s_iter.next().unwrap();
+                write!(formatted, " {}", s).unwrap();
+            }
+        } else if s.ends_with(':') {
+            // "field:"
+            writeln!(formatted, "").unwrap();
+            for _ in 0..indent_level {
+                write!(formatted, "  ").unwrap();
+            }
+            write!(formatted, "{} ", s).unwrap();
+            has_field = true;
+            indent_level += 1;
+        }
+    }
+
+    formatted
+}
+
+fn write_tests(file_path: &Path, corrected_entries: &Vec<(String, String, String)>) -> Result<()> {
+    let mut buffer = fs::File::create(file_path)?;
+    write_tests_to_buffer(&mut buffer, corrected_entries)
+}
+
+fn write_tests_to_buffer(
+    buffer: &mut Write,
+    corrected_entries: &Vec<(String, String, String)>,
+) -> Result<()> {
+    for (i, (name, input, output)) in corrected_entries.iter().enumerate() {
+        if i > 0 {
+            write!(buffer, "\n")?;
+        }
+        write!(
+            buffer,
+            "{}\n{}\n{}\n{}\n{}\n\n{}\n",
+            "=".repeat(80),
+            name,
+            "=".repeat(80),
+            input,
+            "-".repeat(80),
+            output.trim()
+        )?;
+    }
+    Ok(())
+}
+
 pub fn parse_tests(path: &Path) -> io::Result<TestEntry> {
     let name = path
         .file_stem()
@@ -188,10 +310,10 @@ pub fn parse_tests(path: &Path) -> io::Result<TestEntry> {
                 children.push(parse_tests(&entry.path())?);
             }
         }
-        Ok(TestEntry::Group { name, children })
+        Ok(TestEntry::Group { name, children, file_path: None })
     } else {
         let content = fs::read_to_string(path)?;
-        Ok(parse_test_content(name, content))
+        Ok(parse_test_content(name, content, Some(path.to_path_buf())))
     }
 }
 
@@ -199,7 +321,7 @@ pub fn strip_sexp_fields(sexp: String) -> String {
     SEXP_FIELD_REGEX.replace_all(&sexp, " (").to_string()
 }
 
-fn parse_test_content(name: String, content: String) -> TestEntry {
+fn parse_test_content(name: String, content: String, file_path: Option<PathBuf>) -> TestEntry {
     let mut children = Vec::new();
     let bytes = content.as_bytes();
     let mut prev_name = String::new();
@@ -250,7 +372,7 @@ fn parse_test_content(name: String, content: String) -> TestEntry {
             .to_string();
         prev_header_end = header_end;
     }
-    TestEntry::Group { name, children }
+    TestEntry::Group { name, children, file_path }
 }
 
 #[cfg(test)]
@@ -282,6 +404,7 @@ d
         "#
             .trim()
             .to_string(),
+            None,
         );
 
         assert_eq!(
@@ -301,7 +424,8 @@ d
                         output: "(d)".to_string(),
                         has_fields: false,
                     },
-                ]
+                ],
+                file_path: None,
             }
         );
     }
@@ -334,6 +458,7 @@ abc
         "#
             .trim()
             .to_string(),
+            None,
         );
 
         assert_eq!(
@@ -353,8 +478,67 @@ abc
                         output: "(c (d))".to_string(),
                         has_fields: false,
                     },
-                ]
+                ],
+                file_path: None,
             }
         );
     }
+
+    #[test]
+    fn test_format_sexp() {
+        assert_eq!(
+            format_sexp(&"(a b: (c) (d) e: (f (g (h (MISSING i)))))".to_string()),
+            r#"
+(a
+  b: (c)
+  (d)
+  e: (f
+    (g
+      (h
+        (MISSING i)))))
+"#
+            .trim()
+            .to_string()
+        );
+    }
+
+    #[test]
+    fn test_write_tests_to_buffer() {
+        let mut buffer = Vec::new();
+        let corrected_entries = vec![
+            (
+                "title 1".to_string(),
+                "input 1".to_string(),
+                "output 1".to_string(),
+            ),
+            (
+                "title 2".to_string(),
+                "input 2".to_string(),
+                "output 2".to_string(),
+            ),
+        ];
+        write_tests_to_buffer(&mut buffer, &corrected_entries).unwrap();
+        assert_eq!(
+            String::from_utf8(buffer).unwrap(),
+            r#"
+================================================================================
+title 1
+================================================================================
+input 1
+--------------------------------------------------------------------------------
+
+output 1
+
+================================================================================
+title 2
+================================================================================
+input 2
+--------------------------------------------------------------------------------
+
+output 2
+"#
+            .trim_start()
+            .to_string()
+        );
+    }
 }
diff --git a/cli/src/tests/corpus_test.rs b/cli/src/tests/corpus_test.rs
index a8adce5f..ed6226f2 100644
--- a/cli/src/tests/corpus_test.rs
+++ b/cli/src/tests/corpus_test.rs
@@ -381,7 +381,7 @@ fn flatten_tests(test: TestEntry) -> Vec<(String, Vec<u8>, String, bool)> {
                 }
                 result.push((name, input, output, has_fields));
             }
-            TestEntry::Group { mut name, children } => {
+            TestEntry::Group { mut name, children, .. } => {
                 if !prefix.is_empty() {
                     name.insert_str(0, " - ");
                     name.insert_str(0, prefix);

From f191858bae95d2daab860d8104a9e9f60cd1d351 Mon Sep 17 00:00:00 2001
From: Ika <ikatyang@gmail.com>
Date: Thu, 3 Oct 2019 21:24:17 +0800
Subject: [PATCH 05/27] fix: handle UNEXPECTED node

---
 cli/src/test.rs | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/cli/src/test.rs b/cli/src/test.rs
index c57d72ad..544ec249 100644
--- a/cli/src/test.rs
+++ b/cli/src/test.rs
@@ -248,8 +248,8 @@ fn format_sexp(sexp: &String) -> String {
             let mut c_iter = s.chars();
             c_iter.next();
             let second_char = c_iter.next().unwrap();
-            if second_char == 'M' {
-                // "(MISSING node_name"
+            if second_char == 'M' || second_char == 'U' {
+                // "(MISSING node_name" or "(UNEXPECTED 'x'"
                 let s = s_iter.next().unwrap();
                 write!(formatted, " {}", s).unwrap();
             }

From 96f259d8c56b2cf567de042b416445f1ad2634a2 Mon Sep 17 00:00:00 2001
From: Max Brunsfeld <maxbrunsfeld@gmail.com>
Date: Thu, 3 Dec 2020 09:48:20 -0800
Subject: [PATCH 06/27] Run rustfmt

---
 cli/src/test.rs | 40 ++++++++++++++++++++++++++++++++++------
 1 file changed, 34 insertions(+), 6 deletions(-)

diff --git a/cli/src/test.rs b/cli/src/test.rs
index 50c27220..c8cfe89f 100644
--- a/cli/src/test.rs
+++ b/cli/src/test.rs
@@ -77,7 +77,15 @@ pub fn run_tests_at_path(
 
     let mut failures = Vec::new();
     let mut corrected_entries = Vec::new();
-    run_tests(&mut parser, test_entry, filter, 0, &mut failures, update, &mut corrected_entries)?;
+    run_tests(
+        &mut parser,
+        test_entry,
+        filter,
+        0,
+        &mut failures,
+        update,
+        &mut corrected_entries,
+    )?;
 
     if failures.len() > 0 {
         println!("");
@@ -210,7 +218,11 @@ fn run_tests(
                 failures.push((name, actual, output));
             }
         }
-        TestEntry::Group { name, children, file_path } => {
+        TestEntry::Group {
+            name,
+            children,
+            file_path,
+        } => {
             if indent_level > 0 {
                 for _ in 0..indent_level {
                     print!("  ");
@@ -222,7 +234,15 @@ fn run_tests(
 
             indent_level += 1;
             for child in children {
-                run_tests(parser, child, filter, indent_level, failures, update, corrected_entries)?;
+                run_tests(
+                    parser,
+                    child,
+                    filter,
+                    indent_level,
+                    failures,
+                    update,
+                    corrected_entries,
+                )?;
             }
 
             if let Some(file_path) = file_path {
@@ -292,7 +312,7 @@ fn write_tests(file_path: &Path, corrected_entries: &Vec<(String, String, String
 }
 
 fn write_tests_to_buffer(
-    buffer: &mut Write,
+    buffer: &mut impl Write,
     corrected_entries: &Vec<(String, String, String)>,
 ) -> Result<()> {
     for (i, (name, input, output)) in corrected_entries.iter().enumerate() {
@@ -328,7 +348,11 @@ pub fn parse_tests(path: &Path) -> io::Result<TestEntry> {
                 children.push(parse_tests(&entry.path())?);
             }
         }
-        Ok(TestEntry::Group { name, children, file_path: None })
+        Ok(TestEntry::Group {
+            name,
+            children,
+            file_path: None,
+        })
     } else {
         let content = fs::read_to_string(path)?;
         Ok(parse_test_content(name, content, Some(path.to_path_buf())))
@@ -390,7 +414,11 @@ fn parse_test_content(name: String, content: String, file_path: Option<PathBuf>)
             .to_string();
         prev_header_end = header_end;
     }
-    TestEntry::Group { name, children, file_path }
+    TestEntry::Group {
+        name,
+        children,
+        file_path,
+    }
 }
 
 #[cfg(test)]

From 94c61de35358bacab8251c47081b85ae84d9b86c Mon Sep 17 00:00:00 2001
From: Max Brunsfeld <maxbrunsfeld@gmail.com>
Date: Wed, 2 Dec 2020 16:12:01 -0800
Subject: [PATCH 07/27] Update JS error recovery test to reflect grammar change

---
 test/fixtures/error_corpus/javascript_errors.txt | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/test/fixtures/error_corpus/javascript_errors.txt b/test/fixtures/error_corpus/javascript_errors.txt
index ad71037c..4359ae68 100644
--- a/test/fixtures/error_corpus/javascript_errors.txt
+++ b/test/fixtures/error_corpus/javascript_errors.txt
@@ -148,7 +148,8 @@ const h = `i ${j(k} l`
   (lexical_declaration
     (variable_declarator
       (identifier)
-      (template_string (template_substitution (identifier) (ERROR)))))
+      (template_string (template_substitution
+        (augmented_assignment_expression (identifier) (MISSING identifier))))))
   (lexical_declaration
     (variable_declarator
       (identifier)

From 5008700735be65bb81cf3de5b292708778c3562a Mon Sep 17 00:00:00 2001
From: Max Brunsfeld <maxbrunsfeld@gmail.com>
Date: Fri, 4 Dec 2020 14:36:28 -0800
Subject: [PATCH 08/27] wasm: Look for both loadWebAssemblyModule and
 loadSideModule

See https://github.com/emscripten-core/emscripten/pull/12969
---
 lib/binding_web/binding.js | 8 +++++++-
 1 file changed, 7 insertions(+), 1 deletion(-)

diff --git a/lib/binding_web/binding.js b/lib/binding_web/binding.js
index b060715f..e22d5b5b 100644
--- a/lib/binding_web/binding.js
+++ b/lib/binding_web/binding.js
@@ -878,8 +878,14 @@ class Language {
           }));
     }
 
+    // emscripten-core/emscripten#12969
+    const loadModule =
+      typeof loadSideModule === 'function'
+      ? loadSideModule
+      : loadWebAssemblyModule;
+
     return bytes
-      .then(bytes => loadSideModule(bytes, {loadAsync: true}))
+      .then(bytes => loadModule(bytes, {loadAsync: true}))
       .then(mod => {
         const symbolNames = Object.keys(mod)
         const functionName = symbolNames.find(key =>

From e5ef2f2aa3c6d2cafcdd01e81f0852cb4cd21280 Mon Sep 17 00:00:00 2001
From: Jim Hester <james.f.hester@gmail.com>
Date: Mon, 7 Dec 2020 09:05:03 -0500
Subject: [PATCH 09/27] Add link to R tree sitter grammar

---
 docs/index.md | 1 +
 1 file changed, 1 insertion(+)

diff --git a/docs/index.md b/docs/index.md
index eca3f1a9..1293ec48 100644
--- a/docs/index.md
+++ b/docs/index.md
@@ -46,6 +46,7 @@ Parsers for these languages are fairly complete:
 * [Python](https://github.com/tree-sitter/tree-sitter-python)
 * [Ruby](https://github.com/tree-sitter/tree-sitter-ruby)
 * [Rust](https://github.com/tree-sitter/tree-sitter-rust)
+* [R](https://github.com/r-lib/tree-sitter-r)
 * [SystemRDL](https://github.com/SystemRDL/tree-sitter-systemrdl)
 * [TOML](https://github.com/ikatyang/tree-sitter-toml)
 * [TypeScript](https://github.com/tree-sitter/tree-sitter-typescript)

From 0f492e4254aab125d5828ed95a506ddb684c9201 Mon Sep 17 00:00:00 2001
From: Max Brunsfeld <maxbrunsfeld@gmail.com>
Date: Fri, 11 Dec 2020 13:47:20 -0800
Subject: [PATCH 10/27] Include ts_tree_copy in wasm build

Fixes #846
---
 lib/binding_web/exports.json      |  1 +
 lib/binding_web/test/tree-test.js | 25 +++++++++++++++++++++++++
 2 files changed, 26 insertions(+)

diff --git a/lib/binding_web/exports.json b/lib/binding_web/exports.json
index 72105158..d0173f3a 100644
--- a/lib/binding_web/exports.json
+++ b/lib/binding_web/exports.json
@@ -79,6 +79,7 @@
   "_ts_query_predicates_for_pattern",
   "_ts_query_string_count",
   "_ts_query_string_value_for_id",
+  "_ts_tree_copy",
   "_ts_tree_cursor_current_field_id_wasm",
   "_ts_tree_cursor_current_node_id_wasm",
   "_ts_tree_cursor_current_node_is_missing_wasm",
diff --git a/lib/binding_web/test/tree-test.js b/lib/binding_web/test/tree-test.js
index ccb7a830..8c04e63e 100644
--- a/lib/binding_web/test/tree-test.js
+++ b/lib/binding_web/test/tree-test.js
@@ -323,6 +323,31 @@ describe("Tree", () => {
       assert(!cursor.gotoParent());
     })
   });
+
+  describe(".copy", () => {
+    it("creates another tree that remains stable if the original tree is edited", () => {
+      input = 'abc + cde';
+      tree = parser.parse(input);
+      assert.equal(
+        tree.rootNode.toString(),
+        "(program (expression_statement (binary_expression left: (identifier) right: (identifier))))"
+      );
+
+      const tree2 = tree.copy();
+      ([input, edit] = spliceInput(input, 3, 0, '123'));
+      assert.equal(input, 'abc123 + cde');
+      tree.edit(edit);
+
+      const leftNode = tree.rootNode.firstChild.firstChild.firstChild;
+      const leftNode2 = tree2.rootNode.firstChild.firstChild.firstChild;
+      const rightNode = tree.rootNode.firstChild.firstChild.lastChild;
+      const rightNode2 = tree2.rootNode.firstChild.firstChild.lastChild;
+      assert.equal(leftNode.endIndex, 6)
+      assert.equal(leftNode2.endIndex, 3)
+      assert.equal(rightNode.startIndex, 9)
+      assert.equal(rightNode2.startIndex, 6)
+    });
+  });
 });
 
 function spliceInput(input, startIndex, lengthRemoved, newText) {

From 4336d9c8c50ca700556be2ece99bf9d4d743c13f Mon Sep 17 00:00:00 2001
From: Henrique Oliveira Pinto <henriqueponde90@gmail.com>
Date: Fri, 11 Dec 2020 17:57:15 -0500
Subject: [PATCH 11/27] Update binding_web/README.md releases link

The previous link pointed to a specific version and it made me think that the project had no releases for a year!
---
 lib/binding_web/README.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/lib/binding_web/README.md b/lib/binding_web/README.md
index ba1b4cb6..dc0d44ba 100644
--- a/lib/binding_web/README.md
+++ b/lib/binding_web/README.md
@@ -7,7 +7,7 @@ WebAssembly bindings to the [Tree-sitter](https://github.com/tree-sitter/tree-si
 
 ### Setup
 
-You can download the the `tree-sitter.js` and `tree-sitter.wasm` files from [the latest GitHub release](https://github.com/tree-sitter/tree-sitter/releases/tag/0.14.7) and load them using a standalone script:
+You can download the the `tree-sitter.js` and `tree-sitter.wasm` files from [the latest GitHub release](https://github.com/tree-sitter/tree-sitter/releases) and load them using a standalone script:
 
 ```html
 <script src="/the/path/to/tree-sitter.js"/>

From f025f9aa711db7273d241e72fd4cc7a6b6f8f585 Mon Sep 17 00:00:00 2001
From: Henrique Oliveira Pinto <henriqueponde90@gmail.com>
Date: Fri, 11 Dec 2020 17:58:47 -0500
Subject: [PATCH 12/27] Point directly to releases/latest

---
 lib/binding_web/README.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/lib/binding_web/README.md b/lib/binding_web/README.md
index dc0d44ba..c02d0336 100644
--- a/lib/binding_web/README.md
+++ b/lib/binding_web/README.md
@@ -7,7 +7,7 @@ WebAssembly bindings to the [Tree-sitter](https://github.com/tree-sitter/tree-si
 
 ### Setup
 
-You can download the the `tree-sitter.js` and `tree-sitter.wasm` files from [the latest GitHub release](https://github.com/tree-sitter/tree-sitter/releases) and load them using a standalone script:
+You can download the the `tree-sitter.js` and `tree-sitter.wasm` files from [the latest GitHub release](https://github.com/tree-sitter/tree-sitter/releases/latest) and load them using a standalone script:
 
 ```html
 <script src="/the/path/to/tree-sitter.js"/>

From d6cfe3ed1d7b02363fa62ae1819c16921e8dd861 Mon Sep 17 00:00:00 2001
From: Max Brunsfeld <maxbrunsfeld@gmail.com>
Date: Fri, 11 Dec 2020 15:57:32 -0800
Subject: [PATCH 13/27] web: 0.18

---
 lib/binding_web/package.json | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/lib/binding_web/package.json b/lib/binding_web/package.json
index 8c61cf75..25aeb862 100644
--- a/lib/binding_web/package.json
+++ b/lib/binding_web/package.json
@@ -1,6 +1,6 @@
 {
   "name": "web-tree-sitter",
-  "version": "0.17.1",
+  "version": "0.18.0",
   "description": "Tree-sitter bindings for the web",
   "main": "tree-sitter.js",
   "types": "tree-sitter-web.d.ts",

From 915834c1136efb3e6466738ad70d18a277b48c0e Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Ka=CC=81ja=20Lis=CC=8Ckova=CC=81?= <developer@0xADD1E.me>
Date: Sun, 20 Dec 2020 16:09:17 -0600
Subject: [PATCH 14/27] Update CC to version with better target support

This is just a minimal set of changes to dependencies.
macOS aarch64 support was only introduced in `cc` version 1.0.58, so this now allows tree-sitter to build natively on M1 computers
---
 Cargo.lock     | 4 ++--
 cli/Cargo.toml | 2 +-
 lib/Cargo.toml | 2 +-
 3 files changed, 4 insertions(+), 4 deletions(-)

diff --git a/Cargo.lock b/Cargo.lock
index cd411095..3bed7004 100644
--- a/Cargo.lock
+++ b/Cargo.lock
@@ -123,9 +123,9 @@ dependencies = [
 
 [[package]]
 name = "cc"
-version = "1.0.25"
+version = "1.0.66"
 source = "registry+https://github.com/rust-lang/crates.io-index"
-checksum = "f159dfd43363c4d08055a07703eb7a3406b0dac4d0584d96965a3262db3c9d16"
+checksum = "4c0496836a84f8d0495758516b8621a622beb77c0fed418570e50764093ced48"
 
 [[package]]
 name = "cfg-if"
diff --git a/cli/Cargo.toml b/cli/Cargo.toml
index 48dbbff7..819a13c3 100644
--- a/cli/Cargo.toml
+++ b/cli/Cargo.toml
@@ -20,7 +20,7 @@ harness = false
 
 [dependencies]
 ansi_term = "0.11"
-cc = "1.0"
+cc = "^1.0.58"
 atty = "0.2"
 clap = "2.32"
 difference = "2.0"
diff --git a/lib/Cargo.toml b/lib/Cargo.toml
index 8f88966f..e8305c0e 100644
--- a/lib/Cargo.toml
+++ b/lib/Cargo.toml
@@ -24,7 +24,7 @@ include = [
 regex = "1"
 
 [build-dependencies]
-cc = "1.0"
+cc = "^1.0.58"
 
 [lib]
 path = "binding_rust/lib.rs"

From 391fc8c340d8ae2693530ac88f5e7f78fc467dc0 Mon Sep 17 00:00:00 2001
From: Max Brunsfeld <maxbrunsfeld@gmail.com>
Date: Sun, 20 Dec 2020 19:34:45 -0800
Subject: [PATCH 15/27] Update unit tests to expect ruby grammar change

---
 cli/src/tests/tags_test.rs                 | 10 ++++------
 test/fixtures/error_corpus/ruby_errors.txt |  2 +-
 2 files changed, 5 insertions(+), 7 deletions(-)

diff --git a/cli/src/tests/tags_test.rs b/cli/src/tests/tags_test.rs
index 2b058c0b..628c0bf6 100644
--- a/cli/src/tests/tags_test.rs
+++ b/cli/src/tests/tags_test.rs
@@ -70,7 +70,7 @@ const RUBY_TAG_QUERY: &'static str = r#"
 (method
     name: (_) @name) @definition.method
 
-(method_call
+(call
     method: (identifier) @name) @reference.call
 
 (setter (identifier) @ignore)
@@ -317,19 +317,17 @@ fn test_tags_with_parse_error() {
     assert!(failed, "syntax error should have been detected");
 
     assert_eq!(
-        newtags.iter()
+        newtags
+            .iter()
             .map(|t| (
                 substr(source, &t.name_range),
                 tags_config.syntax_type_name(t.syntax_type_id)
             ))
             .collect::<Vec<_>>(),
-        &[
-            ("Fine", "class"),
-        ]
+        &[("Fine", "class"),]
     );
 }
 
-
 #[test]
 fn test_tags_via_c_api() {
     allocations::record(|| {
diff --git a/test/fixtures/error_corpus/ruby_errors.txt b/test/fixtures/error_corpus/ruby_errors.txt
index 49dc2b32..df160811 100644
--- a/test/fixtures/error_corpus/ruby_errors.txt
+++ b/test/fixtures/error_corpus/ruby_errors.txt
@@ -10,7 +10,7 @@ c
 ---
 
 (program
-  (method_call
+  (call
     method: (identifier)
     (ERROR (heredoc_beginning))
     arguments: (argument_list

From e13581b041fb0cd6571f7241229e8081d2b3e72b Mon Sep 17 00:00:00 2001
From: Aron Griffis <aron@scampersand.com>
Date: Tue, 22 Dec 2020 15:19:35 -0500
Subject: [PATCH 16/27] Fix build with GCC 11

It seems redundant to array_init() when the structure is zeroed already
in the static assignment. But probably the fact that this code juggles
between TSTreeCursor and TreeCursor, without using a union, leaves the
compiler unable to tell that it's been initialized.

Fixes https://github.com/tree-sitter/tree-sitter/issues/853
---
 lib/src/tree_cursor.c | 1 +
 1 file changed, 1 insertion(+)

diff --git a/lib/src/tree_cursor.c b/lib/src/tree_cursor.c
index 98b86605..4c6f1b82 100644
--- a/lib/src/tree_cursor.c
+++ b/lib/src/tree_cursor.c
@@ -448,6 +448,7 @@ TSTreeCursor ts_tree_cursor_copy(const TSTreeCursor *_cursor) {
   TSTreeCursor res = {NULL, NULL, {0, 0}};
   TreeCursor *copy = (TreeCursor *)&res;
   copy->tree = cursor->tree;
+  array_init(&copy->stack);
   array_push_all(&copy->stack, &cursor->stack);
   return res;
 }

From 9e087127737d8ccdfaf7b319b4e8ae22fa0202ae Mon Sep 17 00:00:00 2001
From: Yijun Yu <y.yu@open.ac.uk>
Date: Mon, 4 Jan 2021 22:07:38 +0000
Subject: [PATCH 17/27] Add --xml option to save the parsed code into XML,
 using node.start_byte() and node.end_byte()

---
 Cargo.lock       | 16 ++++++++++++++
 cli/Cargo.toml   |  1 +
 cli/src/main.rs  |  3 +++
 cli/src/parse.rs | 55 ++++++++++++++++++++++++++++++++++++++++++++++++
 4 files changed, 75 insertions(+)

diff --git a/Cargo.lock b/Cargo.lock
index 3bed7004..bbe511f0 100644
--- a/Cargo.lock
+++ b/Cargo.lock
@@ -272,6 +272,15 @@ version = "0.3.0"
 source = "registry+https://github.com/rust-lang/crates.io-index"
 checksum = "9b919933a397b79c37e33b77bb2aa3dc8eb6e165ad809e58ff75bc7db2e34574"
 
+[[package]]
+name = "html-escape"
+version = "0.2.6"
+source = "registry+https://github.com/rust-lang/crates.io-index"
+checksum = "d348900ce941b7474395ba922ed3735a517df4546a2939ddb416ce85eeaa988e"
+dependencies = [
+ "utf8-width",
+]
+
 [[package]]
 name = "idna"
 version = "0.1.5"
@@ -841,6 +850,7 @@ dependencies = [
  "difference",
  "dirs",
  "glob",
+ "html-escape",
  "lazy_static",
  "libloading",
  "log",
@@ -940,6 +950,12 @@ version = "1.0.2"
 source = "registry+https://github.com/rust-lang/crates.io-index"
 checksum = "796f7e48bef87609f7ade7e06495a87d5cd06c7866e6a5cbfceffc558a243737"
 
+[[package]]
+name = "utf8-width"
+version = "0.1.4"
+source = "registry+https://github.com/rust-lang/crates.io-index"
+checksum = "9071ac216321a4470a69fb2b28cfc68dcd1a39acd877c8be8e014df6772d8efa"
+
 [[package]]
 name = "vec_map"
 version = "0.8.1"
diff --git a/cli/Cargo.toml b/cli/Cargo.toml
index 819a13c3..7a5639b6 100644
--- a/cli/Cargo.toml
+++ b/cli/Cargo.toml
@@ -36,6 +36,7 @@ serde_derive = "1.0"
 smallbitvec = "2.3.0"
 tiny_http = "0.6"
 webbrowser = "0.5.1"
+html-escape = "0.2.6"
 
 [dependencies.tree-sitter]
 version = ">= 0.17.0"
diff --git a/cli/src/main.rs b/cli/src/main.rs
index 36ca5b77..1cf90c67 100644
--- a/cli/src/main.rs
+++ b/cli/src/main.rs
@@ -63,6 +63,7 @@ fn run() -> error::Result<()> {
                 .arg(Arg::with_name("scope").long("scope").takes_value(true))
                 .arg(Arg::with_name("debug").long("debug").short("d"))
                 .arg(Arg::with_name("debug-graph").long("debug-graph").short("D"))
+                .arg(Arg::with_name("debug-xml").long("xml").short("x"))
                 .arg(Arg::with_name("quiet").long("quiet").short("q"))
                 .arg(Arg::with_name("stat").long("stat").short("s"))
                 .arg(Arg::with_name("time").long("time").short("t"))
@@ -222,6 +223,7 @@ fn run() -> error::Result<()> {
     } else if let Some(matches) = matches.subcommand_matches("parse") {
         let debug = matches.is_present("debug");
         let debug_graph = matches.is_present("debug-graph");
+        let debug_xml = matches.is_present("debug-xml");
         let quiet = matches.is_present("quiet");
         let time = matches.is_present("time");
         let edits = matches
@@ -257,6 +259,7 @@ fn run() -> error::Result<()> {
                 timeout,
                 debug,
                 debug_graph,
+                debug_xml,
                 Some(&cancellation_flag),
             )?;
 
diff --git a/cli/src/parse.rs b/cli/src/parse.rs
index 4d66df1d..5266b19f 100644
--- a/cli/src/parse.rs
+++ b/cli/src/parse.rs
@@ -40,6 +40,7 @@ pub fn parse_file_at_path(
     timeout: u64,
     debug: bool,
     debug_graph: bool,
+    debug_xml: bool,
     cancellation_flag: Option<&AtomicUsize>,
 ) -> Result<bool> {
     let mut _log_session = None;
@@ -151,6 +152,60 @@ pub fn parse_file_at_path(
             println!("");
         }
 
+        if debug_xml {
+            let mut needs_newline = false;
+            let mut indent_level = 0;
+            let mut did_visit_children = false;
+            let mut tags: Vec<&str> = Vec::new();
+            loop {
+                let node = cursor.node();
+                let is_named = node.is_named();
+                if did_visit_children {
+                    if is_named {
+                        let tag = tags.pop();
+                        write!(&mut stdout, "</{}>\n", tag.expect("there is a tag"))?;
+                        needs_newline = true;
+                    }
+                    if cursor.goto_next_sibling() {
+                        did_visit_children = false;
+                    } else if cursor.goto_parent() {
+                        did_visit_children = true;
+                        indent_level -= 1;
+                    } else {
+                        break;
+                    }
+                } else {
+                    if is_named {
+                        if needs_newline {
+                            stdout.write(b"\n")?;
+                        }
+                        for _ in 0..indent_level {
+                            stdout.write(b"  ")?;
+                        }
+                        write!(&mut stdout, "<{}", node.kind())?;
+                        if let Some(field_name) = cursor.field_name() {
+                            write!(&mut stdout, " type=\"{}\"", field_name)?;
+                        }
+                        write!(&mut stdout, ">")?;
+                        tags.push(node.kind());
+                        needs_newline = true;
+                    }
+                    if cursor.goto_first_child() {
+                        did_visit_children = false;
+                        indent_level += 1;
+                    } else {
+                        did_visit_children = true;
+                        let start = node.start_byte();
+                        let end = node.end_byte();
+                        let value = std::str::from_utf8(&source_code[start..end]).expect("has a string");
+                        write!(&mut stdout, "{}", html_escape::encode_text(value))?;
+                    }
+                }
+            }
+            cursor.reset(tree.root_node());
+            println!("");
+        }
+
         let mut first_error = None;
         loop {
             let node = cursor.node();

From 1dc127e5dae7550a58a09886a19fdea19196bcf1 Mon Sep 17 00:00:00 2001
From: Max Brunsfeld <maxbrunsfeld@gmail.com>
Date: Thu, 7 Jan 2021 17:07:29 -0800
Subject: [PATCH 18/27] 0.18.0

---
 Cargo.lock           | 2 +-
 cli/Cargo.toml       | 2 +-
 cli/npm/package.json | 2 +-
 3 files changed, 3 insertions(+), 3 deletions(-)

diff --git a/Cargo.lock b/Cargo.lock
index bbe511f0..c13deb13 100644
--- a/Cargo.lock
+++ b/Cargo.lock
@@ -841,7 +841,7 @@ dependencies = [
 
 [[package]]
 name = "tree-sitter-cli"
-version = "0.17.3"
+version = "0.18.0"
 dependencies = [
  "ansi_term",
  "atty",
diff --git a/cli/Cargo.toml b/cli/Cargo.toml
index 7a5639b6..47becc3d 100644
--- a/cli/Cargo.toml
+++ b/cli/Cargo.toml
@@ -1,7 +1,7 @@
 [package]
 name = "tree-sitter-cli"
 description = "CLI tool for developing, testing, and using Tree-sitter parsers"
-version = "0.17.3"
+version = "0.18.0"
 authors = ["Max Brunsfeld <maxbrunsfeld@gmail.com>"]
 edition = "2018"
 license = "MIT"
diff --git a/cli/npm/package.json b/cli/npm/package.json
index 4c6dfe90..85cf5da6 100644
--- a/cli/npm/package.json
+++ b/cli/npm/package.json
@@ -1,6 +1,6 @@
 {
   "name": "tree-sitter-cli",
-  "version": "0.17.3",
+  "version": "0.18.0",
   "author": "Max Brunsfeld",
   "license": "MIT",
   "repository": {

From 6557564b92caf327e931c396f86da03174d77437 Mon Sep 17 00:00:00 2001
From: hvithrafn <hvithrafn@users.noreply.github.com>
Date: Thu, 21 Jan 2021 20:36:06 -0700
Subject: [PATCH 19/27] Add a non-default export for Parser

---
 lib/binding_web/binding.js | 1 +
 1 file changed, 1 insertion(+)

diff --git a/lib/binding_web/binding.js b/lib/binding_web/binding.js
index e22d5b5b..20a29905 100644
--- a/lib/binding_web/binding.js
+++ b/lib/binding_web/binding.js
@@ -1145,3 +1145,4 @@ function marshalEdit(edit) {
 }
 
 Parser.Language = Language;
+Parser.Parser = Parser;

From c994adbf61790f834381b3dae051a445513a05ce Mon Sep 17 00:00:00 2001
From: hvithrafn <hvithrafn@users.noreply.github.com>
Date: Mon, 25 Jan 2021 00:12:35 -0700
Subject: [PATCH 20/27] Modify Language.load to accept bytes directly

---
 lib/binding_web/binding.js           | 41 ++++++++++++++++------------
 lib/binding_web/tree-sitter-web.d.ts |  2 +-
 2 files changed, 24 insertions(+), 19 deletions(-)

diff --git a/lib/binding_web/binding.js b/lib/binding_web/binding.js
index 20a29905..47d72742 100644
--- a/lib/binding_web/binding.js
+++ b/lib/binding_web/binding.js
@@ -856,26 +856,31 @@ class Language {
     );
   }
 
-  static load(url) {
+  static load(input) {
     let bytes;
-    if (
-      typeof process !== 'undefined' &&
-      process.versions &&
-      process.versions.node
-    ) {
-      const fs = require('fs');
-      bytes = Promise.resolve(fs.readFileSync(url));
+    if (input instanceof Uint8Array) {
+      bytes = Promise.resolve(input);
     } else {
-      bytes = fetch(url)
-        .then(response => response.arrayBuffer()
-          .then(buffer => {
-            if (response.ok) {
-              return new Uint8Array(buffer);
-            } else {
-              const body = new TextDecoder('utf-8').decode(buffer);
-              throw new Error(`Language.load failed with status ${response.status}.\n\n${body}`)
-            }
-          }));
+      const url = input;
+      if (
+        typeof process !== 'undefined' &&
+        process.versions &&
+        process.versions.node
+      ) {
+        const fs = require('fs');
+        bytes = Promise.resolve(fs.readFileSync(url));
+      } else {
+        bytes = fetch(url)
+          .then(response => response.arrayBuffer()
+            .then(buffer => {
+              if (response.ok) {
+                return new Uint8Array(buffer);
+              } else {
+                const body = new TextDecoder('utf-8').decode(buffer);
+                throw new Error(`Language.load failed with status ${response.status}.\n\n${body}`)
+              }
+            }));
+      }
     }
 
     // emscripten-core/emscripten#12969
diff --git a/lib/binding_web/tree-sitter-web.d.ts b/lib/binding_web/tree-sitter-web.d.ts
index 092c9353..172d2cd6 100644
--- a/lib/binding_web/tree-sitter-web.d.ts
+++ b/lib/binding_web/tree-sitter-web.d.ts
@@ -127,7 +127,7 @@ declare module 'web-tree-sitter' {
     }
 
     class Language {
-      static load(path: string): Promise<Language>;
+      static load(input: string | Uint8Array): Promise<Language>;
 
       readonly version: number;
       readonly fieldCount: number;

From ab78ab3f9b82cb405ca279031f511903175c6015 Mon Sep 17 00:00:00 2001
From: Max Brunsfeld <maxbrunsfeld@gmail.com>
Date: Thu, 28 Jan 2021 14:58:29 -0800
Subject: [PATCH 21/27] Represent CharacterSet internally as a vector of ranges

---
 cli/src/generate/build_tables/mod.rs          |   6 +-
 cli/src/generate/nfa.rs                       | 718 +++++++++---------
 .../generate/prepare_grammar/expand_tokens.rs |  14 +-
 cli/src/generate/render.rs                    |  30 +-
 4 files changed, 403 insertions(+), 365 deletions(-)

diff --git a/cli/src/generate/build_tables/mod.rs b/cli/src/generate/build_tables/mod.rs
index 2e5d2f57..fba0fef3 100644
--- a/cli/src/generate/build_tables/mod.rs
+++ b/cli/src/generate/build_tables/mod.rs
@@ -13,7 +13,7 @@ use self::minimize_parse_table::minimize_parse_table;
 use self::token_conflicts::TokenConflictMap;
 use crate::error::Result;
 use crate::generate::grammars::{InlinedProductionMap, LexicalGrammar, SyntaxGrammar};
-use crate::generate::nfa::{CharacterSet, NfaCursor};
+use crate::generate::nfa::NfaCursor;
 use crate::generate::node_types::VariableInfo;
 use crate::generate::rules::{AliasMap, Symbol, SymbolType, TokenSet};
 use crate::generate::tables::{LexTable, ParseAction, ParseTable, ParseTableEntry};
@@ -472,10 +472,8 @@ fn all_chars_are_alphabetical(cursor: &NfaCursor) -> bool {
     cursor.transition_chars().all(|(chars, is_sep)| {
         if is_sep {
             true
-        } else if let CharacterSet::Include(chars) = chars {
-            chars.iter().all(|c| c.is_alphabetic() || *c == '_')
         } else {
-            false
+            chars.chars().all(|c| c.is_alphabetic() || c == '_')
         }
     })
 }
diff --git a/cli/src/generate/nfa.rs b/cli/src/generate/nfa.rs
index 4cbfaaa3..99f595d0 100644
--- a/cli/src/generate/nfa.rs
+++ b/cli/src/generate/nfa.rs
@@ -6,10 +6,9 @@ use std::fmt;
 use std::mem::swap;
 use std::ops::Range;
 
-#[derive(Clone, Debug, PartialEq, Eq, Hash)]
-pub enum CharacterSet {
-    Include(Vec<char>),
-    Exclude(Vec<char>),
+#[derive(Clone, PartialEq, Eq, Hash)]
+pub struct CharacterSet {
+    ranges: Vec<Range<u32>>,
 }
 
 #[derive(Debug, PartialEq, Eq)]
@@ -52,142 +51,233 @@ impl Default for Nfa {
     }
 }
 
+const END: u32 = char::MAX as u32 + 1;
+
 impl CharacterSet {
     pub fn empty() -> Self {
-        CharacterSet::Include(Vec::new())
+        CharacterSet { ranges: Vec::new() }
     }
 
-    pub fn negate(self) -> CharacterSet {
-        match self {
-            CharacterSet::Include(chars) => CharacterSet::Exclude(chars),
-            CharacterSet::Exclude(chars) => CharacterSet::Include(chars),
+    pub fn from_range(mut first: char, mut last: char) -> Self {
+        if first > last {
+            swap(&mut first, &mut last);
+        }
+        CharacterSet {
+            ranges: vec![(first as u32)..(last as u32 + 1)],
         }
     }
 
-    pub fn add_char(self, c: char) -> Self {
-        if let CharacterSet::Include(mut chars) = self {
-            if let Err(i) = chars.binary_search(&c) {
-                chars.insert(i, c);
+    pub fn from_char(c: char) -> Self {
+        CharacterSet {
+            ranges: vec![(c as u32)..(c as u32 + 1)],
+        }
+    }
+
+    pub fn negate(mut self) -> CharacterSet {
+        let mut i = 0;
+        let mut previous_end = 0;
+        while i < self.ranges.len() {
+            let range = &mut self.ranges[i];
+            let start = previous_end;
+            previous_end = range.end;
+            if start < range.start {
+                self.ranges[i] = start..range.start;
+                i += 1;
+            } else {
+                self.ranges.remove(i);
             }
-            CharacterSet::Include(chars)
-        } else {
-            panic!("Called add with a negated character set");
         }
+        if previous_end < END {
+            self.ranges.push(previous_end..END);
+        }
+        self
     }
 
-    pub fn add_range(self, start: char, end: char) -> Self {
-        if let CharacterSet::Include(mut chars) = self {
-            let mut c = start as u32;
-            while c <= end as u32 {
-                chars.push(char::from_u32(c).unwrap());
-                c += 1;
+    pub fn add_char(mut self, c: char) -> Self {
+        self.add_int_range(0, c as u32, c as u32 + 1);
+        self
+    }
+
+    pub fn add_range(mut self, start: char, end: char) -> Self {
+        self.add_int_range(0, start as u32, end as u32 + 1);
+        self
+    }
+
+    pub fn add(mut self, other: &CharacterSet) -> Self {
+        let mut index = 0;
+        for range in &other.ranges {
+            index = self.add_int_range(index, range.start as u32, range.end as u32);
+        }
+        self
+    }
+
+    fn add_int_range(&mut self, mut i: usize, start: u32, end: u32) -> usize {
+        while i < self.ranges.len() {
+            let range = &mut self.ranges[i];
+            if range.start > end {
+                self.ranges.insert(i, start..end);
+                return i;
             }
-            chars.sort_unstable();
-            chars.dedup();
-            CharacterSet::Include(chars)
-        } else {
-            panic!("Called add with a negated character set");
-        }
-    }
-
-    pub fn add(self, other: &CharacterSet) -> Self {
-        match self {
-            CharacterSet::Include(mut chars) => match other {
-                CharacterSet::Include(other_chars) => {
-                    chars.extend(other_chars);
-                    chars.sort_unstable();
-                    chars.dedup();
-                    CharacterSet::Include(chars)
-                }
-                CharacterSet::Exclude(other_chars) => {
-                    let excluded_chars = other_chars
-                        .iter()
-                        .cloned()
-                        .filter(|c| !chars.contains(&c))
-                        .collect();
-                    CharacterSet::Exclude(excluded_chars)
-                }
-            },
-            CharacterSet::Exclude(mut chars) => match other {
-                CharacterSet::Include(other_chars) => {
-                    chars.retain(|c| !other_chars.contains(&c));
-                    CharacterSet::Exclude(chars)
-                }
-                CharacterSet::Exclude(other_chars) => {
-                    chars.retain(|c| other_chars.contains(&c));
-                    CharacterSet::Exclude(chars)
-                }
-            },
+            if range.end >= start {
+                range.end = range.end.max(end);
+                range.start = range.start.min(start);
+                return i;
+            }
+            i += 1;
         }
+        self.ranges.push(start..end);
+        i
     }
 
     pub fn does_intersect(&self, other: &CharacterSet) -> bool {
-        match self {
-            CharacterSet::Include(chars) => match other {
-                CharacterSet::Include(other_chars) => compare_chars(chars, other_chars).common,
-                CharacterSet::Exclude(other_chars) => compare_chars(chars, other_chars).left_only,
-            },
-            CharacterSet::Exclude(chars) => match other {
-                CharacterSet::Include(other_chars) => compare_chars(chars, other_chars).right_only,
-                CharacterSet::Exclude(_) => true,
-            },
+        let mut left_ranges = self.ranges.iter();
+        let mut right_ranges = other.ranges.iter();
+        let mut left_range = left_ranges.next();
+        let mut right_range = right_ranges.next();
+        while let (Some(left), Some(right)) = (&left_range, &right_range) {
+            if left.end <= right.start {
+                left_range = left_ranges.next();
+            } else if left.start >= right.end {
+                right_range = right_ranges.next();
+            } else {
+                return true;
+            }
         }
+        false
     }
 
     pub fn remove_intersection(&mut self, other: &mut CharacterSet) -> CharacterSet {
-        match self {
-            CharacterSet::Include(chars) => match other {
-                CharacterSet::Include(other_chars) => {
-                    CharacterSet::Include(remove_chars(chars, other_chars, true))
+        let mut intersection = Vec::new();
+        let mut left_i = 0;
+        let mut right_i = 0;
+        while left_i < self.ranges.len() && right_i < other.ranges.len() {
+            let left = &mut self.ranges[left_i];
+            let right = &mut other.ranges[right_i];
+
+            match left.start.cmp(&right.start) {
+                Ordering::Less => {
+                    // [ L ]
+                    //     [ R ]
+                    if left.end <= right.start {
+                        left_i += 1;
+                        continue;
+                    }
+
+                    match left.end.cmp(&right.end) {
+                        // [ L ]
+                        //   [ R ]
+                        Ordering::Less => {
+                            intersection.push(right.start..left.end);
+                            swap(&mut left.end, &mut right.start);
+                            left_i += 1;
+                        }
+
+                        // [  L  ]
+                        //   [ R ]
+                        Ordering::Equal => {
+                            intersection.push(right.clone());
+                            left.end = right.start;
+                            other.ranges.remove(right_i);
+                        }
+
+                        // [   L   ]
+                        //   [ R ]
+                        Ordering::Greater => {
+                            intersection.push(right.clone());
+                            let new_range = left.start..right.start;
+                            left.start = right.end;
+                            self.ranges.insert(left_i, new_range);
+                            other.ranges.remove(right_i);
+                            left_i += 1;
+                        }
+                    }
                 }
-                CharacterSet::Exclude(other_chars) => {
-                    let mut removed = remove_chars(chars, other_chars, false);
-                    add_chars(other_chars, chars);
-                    swap(&mut removed, chars);
-                    CharacterSet::Include(removed)
+                Ordering::Equal => {
+                    // [ L ]
+                    // [  R  ]
+                    if left.end < right.end {
+                        intersection.push(left.start..left.end);
+                        right.start = left.end;
+                        self.ranges.remove(left_i);
+                    }
+                    // [ L ]
+                    // [ R ]
+                    else if left.end == right.end {
+                        intersection.push(left.clone());
+                        self.ranges.remove(left_i);
+                        other.ranges.remove(right_i);
+                    }
+                    // [  L  ]
+                    // [ R ]
+                    else if left.end > right.end {
+                        intersection.push(right.clone());
+                        left.start = right.end;
+                        other.ranges.remove(right_i);
+                    }
                 }
-            },
-            CharacterSet::Exclude(chars) => match other {
-                CharacterSet::Include(other_chars) => {
-                    let mut removed = remove_chars(other_chars, chars, false);
-                    add_chars(chars, other_chars);
-                    swap(&mut removed, other_chars);
-                    CharacterSet::Include(removed)
+                Ordering::Greater => {
+                    //     [ L ]
+                    // [ R ]
+                    if left.start >= right.end {
+                        right_i += 1;
+                        continue;
+                    }
+
+                    match left.end.cmp(&right.end) {
+                        //   [ L ]
+                        // [   R   ]
+                        Ordering::Less => {
+                            intersection.push(left.clone());
+                            let new_range = right.start..left.start;
+                            right.start = left.end;
+                            other.ranges.insert(right_i, new_range);
+                            self.ranges.remove(left_i);
+                            right_i += 1;
+                        }
+
+                        //   [ L ]
+                        // [  R  ]
+                        Ordering::Equal => {
+                            intersection.push(left.clone());
+                            right.end = left.start;
+                            self.ranges.remove(left_i);
+                        }
+
+                        //   [   L   ]
+                        // [   R   ]
+                        Ordering::Greater => {
+                            intersection.push(left.start..right.end);
+                            swap(&mut left.start, &mut right.end);
+                            right_i += 1;
+                        }
+                    }
                 }
-                CharacterSet::Exclude(other_chars) => {
-                    let mut result_exclusion = chars.clone();
-                    result_exclusion.extend(other_chars.iter().cloned());
-                    result_exclusion.sort_unstable();
-                    result_exclusion.dedup();
-                    remove_chars(chars, other_chars, true);
-                    let mut included_characters = Vec::new();
-                    let mut other_included_characters = Vec::new();
-                    swap(&mut included_characters, other_chars);
-                    swap(&mut other_included_characters, chars);
-                    *self = CharacterSet::Include(included_characters);
-                    *other = CharacterSet::Include(other_included_characters);
-                    CharacterSet::Exclude(result_exclusion)
-                }
-            },
+            }
         }
+        CharacterSet {
+            ranges: intersection,
+        }
+    }
+
+    pub fn iter<'a>(&'a self) -> impl Iterator<Item = u32> + 'a {
+        self.ranges.iter().flat_map(|r| r.clone())
+    }
+
+    pub fn chars<'a>(&'a self) -> impl Iterator<Item = char> + 'a {
+        self.iter().filter_map(char::from_u32)
     }
 
     pub fn is_empty(&self) -> bool {
-        if let CharacterSet::Include(c) = self {
-            c.is_empty()
-        } else {
-            false
-        }
+        self.ranges.is_empty()
     }
 
-    pub fn ranges<'a>(
-        chars: &'a Vec<char>,
+    pub fn simplify_ignoring<'a>(
+        &'a self,
         ruled_out_characters: &'a HashSet<u32>,
-    ) -> impl Iterator<Item = Range<char>> + 'a {
+    ) -> Vec<Range<char>> {
         let mut prev_range: Option<Range<char>> = None;
-        chars
-            .iter()
-            .map(|c| (*c, false))
+        self.chars()
+            .map(|c| (c, false))
             .chain(Some(('\0', true)))
             .filter_map(move |(c, done)| {
                 if done {
@@ -212,35 +302,40 @@ impl CharacterSet {
                     None
                 }
             })
+            .collect()
     }
 
-    #[cfg(test)]
     pub fn contains(&self, c: char) -> bool {
-        match self {
-            CharacterSet::Include(chars) => chars.contains(&c),
-            CharacterSet::Exclude(chars) => !chars.contains(&c),
-        }
+        self.ranges.iter().any(|r| r.contains(&(c as u32)))
     }
 }
 
 impl Ord for CharacterSet {
     fn cmp(&self, other: &CharacterSet) -> Ordering {
-        match self {
-            CharacterSet::Include(chars) => {
-                if let CharacterSet::Include(other_chars) = other {
-                    order_chars(chars, other_chars)
-                } else {
-                    Ordering::Less
-                }
+        let count_cmp = self
+            .ranges
+            .iter()
+            .map(|r| r.len())
+            .sum::<usize>()
+            .cmp(&other.ranges.iter().map(|r| r.len()).sum());
+        if count_cmp != Ordering::Equal {
+            return count_cmp;
+        }
+
+        for (left_range, right_range) in self.ranges.iter().zip(other.ranges.iter()) {
+            let cmp = left_range.len().cmp(&right_range.len());
+            if cmp != Ordering::Equal {
+                return cmp;
             }
-            CharacterSet::Exclude(chars) => {
-                if let CharacterSet::Exclude(other_chars) = other {
-                    order_chars(chars, other_chars)
-                } else {
-                    Ordering::Greater
+
+            for (left, right) in left_range.clone().zip(right_range.clone()) {
+                let cmp = left.cmp(&right);
+                if cmp != Ordering::Equal {
+                    return cmp;
                 }
             }
         }
+        return Ordering::Equal;
     }
 }
 
@@ -250,89 +345,22 @@ impl PartialOrd for CharacterSet {
     }
 }
 
-fn add_chars(left: &mut Vec<char>, right: &Vec<char>) {
-    for c in right {
-        match left.binary_search(c) {
-            Err(i) => left.insert(i, *c),
-            _ => {}
+impl fmt::Debug for CharacterSet {
+    fn fmt(&self, f: &mut fmt::Formatter) -> fmt::Result {
+        write!(f, "CharacterSet [")?;
+        let mut set = self.clone();
+        if self.contains(char::MAX) {
+            write!(f, "^ ")?;
+            set = set.negate();
         }
-    }
-}
-
-fn remove_chars(left: &mut Vec<char>, right: &mut Vec<char>, mutate_right: bool) -> Vec<char> {
-    let mut result = Vec::new();
-    right.retain(|right_char| {
-        if let Some(index) = left.iter().position(|left_char| *left_char == *right_char) {
-            left.remove(index);
-            result.push(*right_char);
-            false || !mutate_right
-        } else {
-            true
-        }
-    });
-    result
-}
-
-struct SetComparision {
-    left_only: bool,
-    common: bool,
-    right_only: bool,
-}
-
-fn compare_chars(left: &Vec<char>, right: &Vec<char>) -> SetComparision {
-    let mut result = SetComparision {
-        left_only: false,
-        common: false,
-        right_only: false,
-    };
-    let mut left = left.iter().cloned();
-    let mut right = right.iter().cloned();
-    let mut i = left.next();
-    let mut j = right.next();
-    while let (Some(left_char), Some(right_char)) = (i, j) {
-        if left_char < right_char {
-            i = left.next();
-            result.left_only = true;
-        } else if left_char > right_char {
-            j = right.next();
-            result.right_only = true;
-        } else {
-            i = left.next();
-            j = right.next();
-            result.common = true;
-        }
-    }
-
-    match (i, j) {
-        (Some(_), _) => result.left_only = true,
-        (_, Some(_)) => result.right_only = true,
-        _ => {}
-    }
-
-    result
-}
-
-fn order_chars(chars: &Vec<char>, other_chars: &Vec<char>) -> Ordering {
-    if chars.is_empty() {
-        if other_chars.is_empty() {
-            Ordering::Equal
-        } else {
-            Ordering::Less
-        }
-    } else if other_chars.is_empty() {
-        Ordering::Greater
-    } else {
-        let cmp = chars.len().cmp(&other_chars.len());
-        if cmp != Ordering::Equal {
-            return cmp;
-        }
-        for (c, other_c) in chars.iter().zip(other_chars.iter()) {
-            let cmp = c.cmp(other_c);
-            if cmp != Ordering::Equal {
-                return cmp;
+        for (i, c) in set.chars().enumerate() {
+            if i > 0 {
+                write!(f, ", ")?;
             }
+            write!(f, "{:?}", c)?;
         }
-        Ordering::Equal
+        write!(f, "]")?;
+        Ok(())
     }
 }
 
@@ -624,48 +652,46 @@ mod tests {
             // multiple negated character classes
             (
                 vec![
-                    (CharacterSet::Include(vec!['a']), false, 0, 1),
-                    (CharacterSet::Exclude(vec!['a', 'b', 'c']), false, 0, 2),
-                    (CharacterSet::Include(vec!['g']), false, 0, 6),
-                    (CharacterSet::Exclude(vec!['d', 'e', 'f']), false, 0, 3),
-                    (CharacterSet::Exclude(vec!['g', 'h', 'i']), false, 0, 4),
-                    (CharacterSet::Include(vec!['g']), false, 0, 5),
+                    (CharacterSet::from_char('a'), false, 0, 1),
+                    (CharacterSet::from_range('a', 'c').negate(), false, 0, 2),
+                    (CharacterSet::from_char('g'), false, 0, 6),
+                    (CharacterSet::from_range('d', 'f').negate(), false, 0, 3),
+                    (CharacterSet::from_range('g', 'i').negate(), false, 0, 4),
+                    (CharacterSet::from_char('g'), false, 0, 5),
                 ],
                 vec![
                     NfaTransition {
-                        characters: CharacterSet::Include(vec!['a']),
+                        characters: CharacterSet::from_char('a'),
                         precedence: 0,
                         states: vec![1, 3, 4],
                         is_separator: false,
                     },
                     NfaTransition {
-                        characters: CharacterSet::Include(vec!['g']),
+                        characters: CharacterSet::from_char('g'),
                         precedence: 0,
                         states: vec![2, 3, 5, 6],
                         is_separator: false,
                     },
                     NfaTransition {
-                        characters: CharacterSet::Include(vec!['b', 'c']),
+                        characters: CharacterSet::from_range('b', 'c'),
                         precedence: 0,
                         states: vec![3, 4],
                         is_separator: false,
                     },
                     NfaTransition {
-                        characters: CharacterSet::Include(vec!['h', 'i']),
+                        characters: CharacterSet::from_range('h', 'i'),
                         precedence: 0,
                         states: vec![2, 3],
                         is_separator: false,
                     },
                     NfaTransition {
-                        characters: CharacterSet::Include(vec!['d', 'e', 'f']),
+                        characters: CharacterSet::from_range('d', 'f'),
                         precedence: 0,
                         states: vec![2, 4],
                         is_separator: false,
                     },
                     NfaTransition {
-                        characters: CharacterSet::Exclude(vec![
-                            'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i',
-                        ]),
+                        characters: CharacterSet::from_range('a', 'i').negate(),
                         precedence: 0,
                         states: vec![2, 3, 4],
                         is_separator: false,
@@ -675,21 +701,21 @@ mod tests {
             // disjoint characters with same state
             (
                 vec![
-                    (CharacterSet::Include(vec!['a']), false, 0, 1),
-                    (CharacterSet::Include(vec!['b']), false, 0, 2),
-                    (CharacterSet::Include(vec!['c']), false, 0, 1),
-                    (CharacterSet::Include(vec!['d']), false, 0, 1),
-                    (CharacterSet::Include(vec!['e']), false, 0, 2),
+                    (CharacterSet::from_char('a'), false, 0, 1),
+                    (CharacterSet::from_char('b'), false, 0, 2),
+                    (CharacterSet::from_char('c'), false, 0, 1),
+                    (CharacterSet::from_char('d'), false, 0, 1),
+                    (CharacterSet::from_char('e'), false, 0, 2),
                 ],
                 vec![
                     NfaTransition {
-                        characters: CharacterSet::Include(vec!['a', 'c', 'd']),
+                        characters: CharacterSet::empty().add_char('a').add_range('c', 'd'),
                         precedence: 0,
                         states: vec![1],
                         is_separator: false,
                     },
                     NfaTransition {
-                        characters: CharacterSet::Include(vec!['b', 'e']),
+                        characters: CharacterSet::empty().add_char('b').add_char('e'),
                         precedence: 0,
                         states: vec![2],
                         is_separator: false,
@@ -698,119 +724,129 @@ mod tests {
             ),
         ];
 
-        for row in table.iter() {
+        for (i, row) in table.iter().enumerate() {
             assert_eq!(
                 NfaCursor::group_transitions(
                     row.0
                         .iter()
                         .map(|(chars, is_sep, prec, state)| (chars, *is_sep, *prec, *state))
                 ),
-                row.1
+                row.1,
+                "row {}",
+                i
             );
         }
     }
 
     #[test]
     fn test_character_set_remove_intersection() {
-        // A whitelist and an overlapping whitelist.
-        // Both sets contain 'c', 'd', and 'f'
-        let mut a = CharacterSet::empty().add_range('a', 'f');
-        let mut b = CharacterSet::empty().add_range('c', 'h');
-        assert_eq!(
-            a.remove_intersection(&mut b),
-            CharacterSet::empty().add_range('c', 'f')
-        );
-        assert_eq!(a, CharacterSet::empty().add_range('a', 'b'));
-        assert_eq!(b, CharacterSet::empty().add_range('g', 'h'));
+        struct Row {
+            left: CharacterSet,
+            right: CharacterSet,
+            left_only: CharacterSet,
+            right_only: CharacterSet,
+            intersection: CharacterSet,
+        }
 
-        let mut a = CharacterSet::empty().add_range('a', 'f');
-        let mut b = CharacterSet::empty().add_range('c', 'h');
-        assert_eq!(
-            b.remove_intersection(&mut a),
-            CharacterSet::empty().add_range('c', 'f')
-        );
-        assert_eq!(a, CharacterSet::empty().add_range('a', 'b'));
-        assert_eq!(b, CharacterSet::empty().add_range('g', 'h'));
+        let rows = [
+            // [ L ]
+            //     [ R ]
+            Row {
+                left: CharacterSet::from_range('a', 'f'),
+                right: CharacterSet::from_range('g', 'm'),
+                left_only: CharacterSet::from_range('a', 'f'),
+                right_only: CharacterSet::from_range('g', 'm'),
+                intersection: CharacterSet::empty(),
+            },
+            // [ L ]
+            //   [ R ]
+            Row {
+                left: CharacterSet::from_range('a', 'f'),
+                right: CharacterSet::from_range('c', 'i'),
+                left_only: CharacterSet::from_range('a', 'b'),
+                right_only: CharacterSet::from_range('g', 'i'),
+                intersection: CharacterSet::from_range('c', 'f'),
+            },
+            // [  L  ]
+            //   [ R ]
+            Row {
+                left: CharacterSet::from_range('a', 'f'),
+                right: CharacterSet::from_range('d', 'f'),
+                left_only: CharacterSet::from_range('a', 'c'),
+                right_only: CharacterSet::empty(),
+                intersection: CharacterSet::from_range('d', 'f'),
+            },
+            // [   L   ]
+            //   [ R ]
+            Row {
+                left: CharacterSet::from_range('a', 'm'),
+                right: CharacterSet::from_range('d', 'f'),
+                left_only: CharacterSet::empty()
+                    .add_range('a', 'c')
+                    .add_range('g', 'm'),
+                right_only: CharacterSet::empty(),
+                intersection: CharacterSet::from_range('d', 'f'),
+            },
+            // [ L1 ] [ L2 ]
+            //    [  R  ]
+            Row {
+                left: CharacterSet::empty()
+                    .add_range('a', 'e')
+                    .add_range('h', 'l'),
+                right: CharacterSet::from_range('c', 'i'),
+                left_only: CharacterSet::empty()
+                    .add_range('a', 'b')
+                    .add_range('j', 'l'),
+                right_only: CharacterSet::from_range('f', 'g'),
+                intersection: CharacterSet::empty()
+                    .add_range('c', 'e')
+                    .add_range('h', 'i'),
+            },
+        ];
 
-        // A whitelist and a larger whitelist.
-        let mut a = CharacterSet::empty().add_char('c');
-        let mut b = CharacterSet::empty().add_range('a', 'e');
-        assert_eq!(
-            a.remove_intersection(&mut b),
-            CharacterSet::empty().add_char('c')
-        );
-        assert_eq!(a, CharacterSet::empty());
-        assert_eq!(
-            b,
-            CharacterSet::empty()
-                .add_range('a', 'b')
-                .add_range('d', 'e')
-        );
+        for (i, row) in rows.iter().enumerate() {
+            let mut left = row.left.clone();
+            let mut right = row.right.clone();
+            assert_eq!(
+                left.remove_intersection(&mut right),
+                row.intersection,
+                "row {}a: {:?} && {:?}",
+                i,
+                row.left,
+                row.right
+            );
+            assert_eq!(
+                left, row.left_only,
+                "row {}a: {:?} - {:?}",
+                i, row.left, row.right
+            );
+            assert_eq!(
+                right, row.right_only,
+                "row {}a: {:?} - {:?}",
+                i, row.right, row.left
+            );
 
-        let mut a = CharacterSet::empty().add_char('c');
-        let mut b = CharacterSet::empty().add_range('a', 'e');
-        assert_eq!(
-            b.remove_intersection(&mut a),
-            CharacterSet::empty().add_char('c')
-        );
-        assert_eq!(a, CharacterSet::empty());
-        assert_eq!(
-            b,
-            CharacterSet::empty()
-                .add_range('a', 'b')
-                .add_range('d', 'e')
-        );
-
-        // An inclusion and an intersecting exclusion.
-        // Both sets contain 'e', 'f', and 'm'
-        let mut a = CharacterSet::empty()
-            .add_range('c', 'h')
-            .add_range('k', 'm');
-        let mut b = CharacterSet::empty()
-            .add_range('a', 'd')
-            .add_range('g', 'l')
-            .negate();
-        assert_eq!(
-            a.remove_intersection(&mut b),
-            CharacterSet::Include(vec!['e', 'f', 'm'])
-        );
-        assert_eq!(a, CharacterSet::Include(vec!['c', 'd', 'g', 'h', 'k', 'l']));
-        assert_eq!(b, CharacterSet::empty().add_range('a', 'm').negate());
-
-        let mut a = CharacterSet::empty()
-            .add_range('c', 'h')
-            .add_range('k', 'm');
-        let mut b = CharacterSet::empty()
-            .add_range('a', 'd')
-            .add_range('g', 'l')
-            .negate();
-        assert_eq!(
-            b.remove_intersection(&mut a),
-            CharacterSet::Include(vec!['e', 'f', 'm'])
-        );
-        assert_eq!(a, CharacterSet::Include(vec!['c', 'd', 'g', 'h', 'k', 'l']));
-        assert_eq!(b, CharacterSet::empty().add_range('a', 'm').negate());
-
-        // An exclusion and an overlapping inclusion.
-        // Both sets exclude 'c', 'd', and 'e'
-        let mut a = CharacterSet::empty().add_range('a', 'e').negate();
-        let mut b = CharacterSet::empty().add_range('c', 'h').negate();
-        assert_eq!(
-            a.remove_intersection(&mut b),
-            CharacterSet::empty().add_range('a', 'h').negate(),
-        );
-        assert_eq!(a, CharacterSet::Include(vec!['f', 'g', 'h']));
-        assert_eq!(b, CharacterSet::Include(vec!['a', 'b']));
-
-        // An exclusion and a larger exclusion.
-        let mut a = CharacterSet::empty().add_range('b', 'c').negate();
-        let mut b = CharacterSet::empty().add_range('a', 'd').negate();
-        assert_eq!(
-            a.remove_intersection(&mut b),
-            CharacterSet::empty().add_range('a', 'd').negate(),
-        );
-        assert_eq!(a, CharacterSet::empty().add_char('a').add_char('d'));
-        assert_eq!(b, CharacterSet::empty());
+            let mut left = row.left.clone();
+            let mut right = row.right.clone();
+            assert_eq!(
+                right.remove_intersection(&mut left),
+                row.intersection,
+                "row {}b: {:?} && {:?}",
+                i,
+                row.left,
+                row.right
+            );
+            assert_eq!(
+                left, row.left_only,
+                "row {}b: {:?} - {:?}",
+                i, row.left, row.right
+            );
+            assert_eq!(
+                right, row.right_only,
+                "row {}b: {:?} - {:?}",
+                i, row.right, row.left
+            );
+        }
     }
 
     #[test]
@@ -834,29 +870,29 @@ mod tests {
         assert!(!b.does_intersect(&a));
 
         let (a, b) = (
-            CharacterSet::Include(vec!['b']),
-            CharacterSet::Exclude(vec!['a', 'b', 'c']),
+            CharacterSet::from_char('b'),
+            CharacterSet::from_range('a', 'c'),
+        );
+        assert!(a.does_intersect(&b));
+        assert!(b.does_intersect(&a));
+
+        let (a, b) = (
+            CharacterSet::from_char('b'),
+            CharacterSet::from_range('a', 'c').negate(),
         );
         assert!(!a.does_intersect(&b));
         assert!(!b.does_intersect(&a));
 
         let (a, b) = (
-            CharacterSet::Include(vec!['b']),
-            CharacterSet::Exclude(vec!['a', 'c']),
+            CharacterSet::from_char('a').negate(),
+            CharacterSet::from_char('a').negate(),
         );
         assert!(a.does_intersect(&b));
         assert!(b.does_intersect(&a));
 
         let (a, b) = (
-            CharacterSet::Exclude(vec!['a']),
-            CharacterSet::Exclude(vec!['a']),
-        );
-        assert!(a.does_intersect(&b));
-        assert!(b.does_intersect(&a));
-
-        let (a, b) = (
-            CharacterSet::Include(vec!['c']),
-            CharacterSet::Exclude(vec!['a']),
+            CharacterSet::from_char('c'),
+            CharacterSet::from_char('a').negate(),
         );
         assert!(a.does_intersect(&b));
         assert!(b.does_intersect(&a));
@@ -898,7 +934,11 @@ mod tests {
                 .into_iter()
                 .map(|c: &char| *c as u32)
                 .collect();
-            let ranges = CharacterSet::ranges(chars, &ruled_out_chars).collect::<Vec<_>>();
+            let mut set = CharacterSet::empty();
+            for c in chars {
+                set = set.add_char(*c);
+            }
+            let ranges = set.simplify_ignoring(&ruled_out_chars);
             assert_eq!(ranges, *expected_ranges);
         }
     }
diff --git a/cli/src/generate/prepare_grammar/expand_tokens.rs b/cli/src/generate/prepare_grammar/expand_tokens.rs
index 9b594f3c..92c54b71 100644
--- a/cli/src/generate/prepare_grammar/expand_tokens.rs
+++ b/cli/src/generate/prepare_grammar/expand_tokens.rs
@@ -198,11 +198,11 @@ impl NfaBuilder {
             Ast::Empty(_) => Ok(false),
             Ast::Flags(_) => Err(Error::regex("Flags are not supported")),
             Ast::Literal(literal) => {
-                self.push_advance(CharacterSet::Include(vec![literal.c]), next_state_id);
+                self.push_advance(CharacterSet::from_char(literal.c), next_state_id);
                 Ok(true)
             }
             Ast::Dot(_) => {
-                self.push_advance(CharacterSet::Exclude(vec!['\n']), next_state_id);
+                self.push_advance(CharacterSet::from_char('\n').negate(), next_state_id);
                 Ok(true)
             }
             Ast::Assertion(_) => Err(Error::regex("Assertions are not supported")),
@@ -344,11 +344,9 @@ impl NfaBuilder {
 
     fn expand_character_class(&self, item: &ClassSetItem) -> Result<CharacterSet> {
         match item {
-            ClassSetItem::Empty(_) => Ok(CharacterSet::Include(Vec::new())),
-            ClassSetItem::Literal(literal) => Ok(CharacterSet::Include(vec![literal.c])),
-            ClassSetItem::Range(range) => {
-                Ok(CharacterSet::empty().add_range(range.start.c, range.end.c))
-            }
+            ClassSetItem::Empty(_) => Ok(CharacterSet::empty()),
+            ClassSetItem::Literal(literal) => Ok(CharacterSet::from_char(literal.c)),
+            ClassSetItem::Range(range) => Ok(CharacterSet::from_range(range.start.c, range.end.c)),
             ClassSetItem::Union(union) => {
                 let mut result = CharacterSet::empty();
                 for item in &union.items {
@@ -366,7 +364,7 @@ impl NfaBuilder {
 
     fn expand_perl_character_class(&self, item: &ClassPerlKind) -> CharacterSet {
         match item {
-            ClassPerlKind::Digit => CharacterSet::empty().add_range('0', '9'),
+            ClassPerlKind::Digit => CharacterSet::from_range('0', '9'),
             ClassPerlKind::Space => CharacterSet::empty()
                 .add_char(' ')
                 .add_char('\t')
diff --git a/cli/src/generate/render.rs b/cli/src/generate/render.rs
index 58d99cc4..362f357c 100644
--- a/cli/src/generate/render.rs
+++ b/cli/src/generate/render.rs
@@ -1,5 +1,4 @@
 use super::grammars::{ExternalToken, LexicalGrammar, SyntaxGrammar, VariableType};
-use super::nfa::CharacterSet;
 use super::rules::{Alias, AliasMap, Symbol, SymbolType};
 use super::tables::{
     AdvanceAction, FieldLocation, GotoAction, LexState, LexTable, ParseAction, ParseTable,
@@ -659,21 +658,19 @@ impl Generator {
                     .advance_actions
                     .iter()
                     .map(|(chars, action)| {
-                        let (chars, is_included) = match chars {
-                            CharacterSet::Include(c) => (c, true),
-                            CharacterSet::Exclude(c) => (c, false),
-                        };
-                        let mut call_id = None;
-                        let mut ranges =
-                            CharacterSet::ranges(chars, &ruled_out_chars).collect::<Vec<_>>();
+                        let is_included = !chars.contains(std::char::MAX);
+                        let mut ranges;
                         if is_included {
-                            ruled_out_chars.extend(chars.iter().map(|c| *c as u32));
+                            ranges = chars.simplify_ignoring(&ruled_out_chars);
+                            ruled_out_chars.extend(chars.iter());
                         } else {
+                            ranges = chars.clone().negate().simplify_ignoring(&ruled_out_chars);
                             ranges.insert(0, '\0'..'\0')
                         }
 
                         // Record any large character sets so that they can be extracted
                         // into helper functions, reducing code duplication.
+                        let mut call_id = None;
                         if extract_helper_functions && ranges.len() > LARGE_CHARACTER_RANGE_COUNT {
                             let char_set_symbol = self
                                 .symbol_for_advance_action(action, &lex_table)
@@ -887,11 +884,16 @@ impl Generator {
                     add!(self, " &&{}lookahead != ", line_break);
                     self.add_character(range.end);
                 } else {
-                    add!(self, "(lookahead < ");
-                    self.add_character(range.start);
-                    add!(self, " || ");
-                    self.add_character(range.end);
-                    add!(self, " < lookahead)");
+                    if range.start != '\0' {
+                        add!(self, "(lookahead < ");
+                        self.add_character(range.start);
+                        add!(self, " || ");
+                        self.add_character(range.end);
+                        add!(self, " < lookahead)");
+                    } else {
+                        add!(self, "lookahead > ");
+                        self.add_character(range.end);
+                    }
                 }
             }
             did_add = true;

From 2b9e5f6c4b40a6ef04f11450d4e598eeabcd24fe Mon Sep 17 00:00:00 2001
From: Andrew Hlynskyi <ahlincq@gmail.com>
Date: Fri, 29 Jan 2021 12:57:43 +0200
Subject: [PATCH 22/27] Fix hiding problems in
 ./build/Debug/tree_sitter_*_binding

In debug building modules also may happen errors and a current implementation
completely hides them, so errors like 'undefined symbol' can't be
easily identified due to wrong traceback and error message.
---
 cli/src/generate/templates/index.js | 10 +++++++---
 1 file changed, 7 insertions(+), 3 deletions(-)

diff --git a/cli/src/generate/templates/index.js b/cli/src/generate/templates/index.js
index 8f342b15..e6746235 100644
--- a/cli/src/generate/templates/index.js
+++ b/cli/src/generate/templates/index.js
@@ -1,10 +1,14 @@
 try {
   module.exports = require("./build/Release/tree_sitter_PARSER_NAME_binding");
 } catch (error) {
-  try {
-    module.exports = require("./build/Debug/tree_sitter_PARSER_NAME_binding");
-  } catch (_) {
+  if (error.code !== 'MODULE_NOT_FOUND')
     throw error
+  else try {
+    module.exports = require("./build/Debug/tree_sitter_PARSER_NAME_binding");
+  } catch (error2) {
+    if (error2.code === 'MODULE_NOT_FOUND')
+      throw error
+    throw error2
   }
 }
 

From ca760c4d54e7ff878723dca952fa2546a4bdf13a Mon Sep 17 00:00:00 2001
From: Razzeee <razzeee@gmail.com>
Date: Mon, 1 Feb 2021 02:32:16 +0100
Subject: [PATCH 23/27] Update Elm link

I've moved the repo from my personal page to the page ouf our organization
---
 docs/index.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/docs/index.md b/docs/index.md
index 1293ec48..d5c0965b 100644
--- a/docs/index.md
+++ b/docs/index.md
@@ -31,7 +31,7 @@ Parsers for these languages are fairly complete:
 * [C#](https://github.com/tree-sitter/tree-sitter-c-sharp)
 * [C++](https://github.com/tree-sitter/tree-sitter-cpp)
 * [CSS](https://github.com/tree-sitter/tree-sitter-css)
-* [Elm](https://github.com/razzeee/tree-sitter-elm)
+* [Elm](https://github.com/elm-tooling/tree-sitter-elm)
 * [Eno](https://github.com/eno-lang/tree-sitter-eno)
 * [ERB / EJS](https://github.com/tree-sitter/tree-sitter-embedded-template)
 - [Fennel](https://github.com/travonted/tree-sitter-fennel)

From 752372ee0938b8b33f3a8c82305bec9be39ff701 Mon Sep 17 00:00:00 2001
From: hvithrafn <hvithrafn@users.noreply.github.com>
Date: Mon, 1 Feb 2021 11:10:19 -0700
Subject: [PATCH 24/27] Add several bindings for Language

---
 lib/binding_web/binding.c             | 14 ++++
 lib/binding_web/binding.js            | 26 +++++++
 lib/binding_web/exports.json          |  3 +
 lib/binding_web/test/language-test.js | 97 +++++++++++++++++++++++++++
 lib/binding_web/tree-sitter-web.d.ts  |  5 ++
 5 files changed, 145 insertions(+)
 create mode 100644 lib/binding_web/test/language-test.js

diff --git a/lib/binding_web/binding.c b/lib/binding_web/binding.c
index 9180f405..d020da7c 100644
--- a/lib/binding_web/binding.c
+++ b/lib/binding_web/binding.c
@@ -184,6 +184,20 @@ TSTree *ts_parser_parse_wasm(
   return ts_parser_parse(self, old_tree, input);
 }
 
+/**********************/
+/* Section - Language */
+/**********************/
+
+int ts_language_type_is_named_wasm(const TSLanguage *self, TSSymbol typeId) {
+  const TSSymbolType symbolType = ts_language_symbol_type(self, typeId);
+  return symbolType == TSSymbolTypeRegular;
+}
+
+int ts_language_type_is_visible_wasm(const TSLanguage *self, TSSymbol typeId) {
+  const TSSymbolType symbolType = ts_language_symbol_type(self, typeId);
+  return symbolType <= TSSymbolTypeAnonymous;
+}
+
 /******************/
 /* Section - Tree */
 /******************/
diff --git a/lib/binding_web/binding.js b/lib/binding_web/binding.js
index 47d72742..b2b3c73b 100644
--- a/lib/binding_web/binding.js
+++ b/lib/binding_web/binding.js
@@ -646,6 +646,32 @@ class Language {
     return this.fields[fieldId] || null;
   }
 
+  idForNodeType(type, named) {
+    const typeLength = lengthBytesUTF8(type);
+    const typeAddress = C._malloc(typeLength + 1);
+    stringToUTF8(type, typeAddress, typeLength + 1);
+    const result = C._ts_language_symbol_for_name(this[0], typeAddress, typeLength, named);
+    C._free(typeAddress);
+    return result;
+  }
+
+  get nodeTypeCount() {
+    return C._ts_language_symbol_count(this[0]);
+  }
+
+  nodeTypeForId(typeId) {
+    const name = C._ts_language_symbol_name(this[0], typeId);
+    return name ? UTF8ToString(name) : null;
+  }
+
+  nodeTypeIsNamed(typeId) {
+    return C._ts_language_type_is_named_wasm(this[0], typeId) ? true : false;
+  }
+
+  nodeTypeIsVisible(typeId) {
+    return C._ts_language_type_is_visible_wasm(this[0], typeId) ? true : false;
+  }
+
   query(source) {
     const sourceLength = lengthBytesUTF8(source);
     const sourceAddress = C._malloc(sourceLength + 1);
diff --git a/lib/binding_web/exports.json b/lib/binding_web/exports.json
index d0173f3a..b2b4449d 100644
--- a/lib/binding_web/exports.json
+++ b/lib/binding_web/exports.json
@@ -31,7 +31,10 @@
   "_ts_init",
   "_ts_language_field_count",
   "_ts_language_field_name_for_id",
+  "_ts_language_type_is_named_wasm",
+  "_ts_language_type_is_visible_wasm",
   "_ts_language_symbol_count",
+  "_ts_language_symbol_for_name",
   "_ts_language_symbol_name",
   "_ts_language_symbol_type",
   "_ts_language_version",
diff --git a/lib/binding_web/test/language-test.js b/lib/binding_web/test/language-test.js
new file mode 100644
index 00000000..691a7ae7
--- /dev/null
+++ b/lib/binding_web/test/language-test.js
@@ -0,0 +1,97 @@
+const { assert } = require("chai");
+let JavaScript;
+
+describe("Language", () => {
+  before(async () => ({ JavaScript } = await require("./helper")));
+
+  describe(".fieldCount", () => {
+    it("returns a number", () => {
+      assert.equal(34, JavaScript.fieldCount);
+    });
+  });
+
+  describe(".fieldIdForName", () => {
+    it("returns null, if not defined", () => {
+      const fieldName = "nonExistentFieldName";
+      assert.equal(null, JavaScript.fieldIdForName(fieldName));
+    });
+
+    it("returns a number, if defined", () => {
+      const fieldName = "decorator";
+      assert.equal(12, JavaScript.fieldIdForName(fieldName));
+    });
+  });
+
+  describe(".fieldNameForId", () => {
+    it("returns null, if not defined", () => {
+      const fieldId = -1;
+      assert.equal(null, JavaScript.fieldNameForId(fieldId));
+    });
+
+    it("returns a string, if defined", () => {
+      const fieldId = 12;
+      assert.equal("decorator", JavaScript.fieldNameForId(fieldId));
+    });
+  });
+
+  describe(".idForNodeType", () => {
+    it("returns a number", () => {
+      const type = "export_statement";
+      const named = true;
+      assert.equal(125, JavaScript.idForNodeType(type, named));
+    });
+  });
+
+  describe(".nodeTypeCount", () => {
+    it("returns a number", () => {
+      assert.equal(239, JavaScript.nodeTypeCount);
+    });
+  });
+
+  describe(".nodeTypeForId", () => {
+    it("returns null, if not defined", () => {
+      const typeId = -1;
+      assert.equal(null, JavaScript.nodeTypeForId(typeId));
+    });
+
+    it("returns a string, if not defined", () => {
+      const typeId = 125;
+      assert.equal("export_statement", JavaScript.nodeTypeForId(typeId));
+    });
+  });
+
+  describe(".nodeTypeIsNamed", () => {
+    it("returns false, if node type is not named", () => {
+      const typeId = 4;
+      assert.equal("*", JavaScript.nodeTypeForId(typeId));
+      assert.equal(false, JavaScript.nodeTypeIsNamed(typeId));
+    });
+
+    it("returns true, if node type is named", () => {
+      const typeId = 125;
+      assert.equal("export_statement", JavaScript.nodeTypeForId(typeId));
+      assert.equal(true, JavaScript.nodeTypeIsNamed(typeId));
+    });
+  });
+
+  describe(".nodeTypeIsVisible", () => {
+    it("returns false, if node type is not visible", () => {
+      let typeId;
+      typeId = 100;
+      assert.equal(false, JavaScript.nodeTypeIsVisible(typeId));
+      typeId = 102;
+      assert.equal(false, JavaScript.nodeTypeIsVisible(typeId));
+    });
+
+    it("returns true, if node type is visible", () => {
+      const typeId = 101;
+      assert.equal(true, JavaScript.nodeTypeIsVisible(typeId));
+    });
+  });
+
+  describe(".version", () => {
+    it("returns a number", () => {
+      assert.equal(12, JavaScript.version);
+    });
+  });
+});
diff --git a/lib/binding_web/tree-sitter-web.d.ts b/lib/binding_web/tree-sitter-web.d.ts
index 172d2cd6..2127fa41 100644
--- a/lib/binding_web/tree-sitter-web.d.ts
+++ b/lib/binding_web/tree-sitter-web.d.ts
@@ -131,9 +131,14 @@ declare module 'web-tree-sitter' {
 
       readonly version: number;
       readonly fieldCount: number;
+      readonly nodeTypeCount: number;
 
       fieldNameForId(fieldId: number): string | null;
       fieldIdForName(fieldName: string): number | null;
+      idForNodeType(type: string, named: boolean): number;
+      nodeTypeForId(typeId: number): string | null;
+      nodeTypeIsNamed(typeId: number): boolean;
+      nodeTypeIsVisible(typeId: number): boolean;
       query(source: string): Query;
     }
 

From 2b0de9dfec62af7e74c319abe80912b02dca74be Mon Sep 17 00:00:00 2001
From: Max Brunsfeld <maxbrunsfeld@gmail.com>
Date: Mon, 1 Feb 2021 13:29:58 -0800
Subject: [PATCH 25/27] Fix small bugs in conflict reporting

* Negative precedence values were not displayed
* Rule names were repeated in resolution suggestions
---
 .../build_tables/build_parse_table.rs         | 50 ++++++++++---------
 1 file changed, 26 insertions(+), 24 deletions(-)

diff --git a/cli/src/generate/build_tables/build_parse_table.rs b/cli/src/generate/build_tables/build_parse_table.rs
index c63701ee..bfb01736 100644
--- a/cli/src/generate/build_tables/build_parse_table.rs
+++ b/cli/src/generate/build_tables/build_parse_table.rs
@@ -577,7 +577,7 @@ impl<'a> ParseTableBuilder<'a> {
                         "(precedence: {}, associativity: {:?})",
                         precedence, associativity
                     ))
-                } else if precedence > 0 {
+                } else if precedence != 0 {
                     Some(format!("(precedence: {})", precedence))
                 } else {
                     None
@@ -619,6 +619,28 @@ impl<'a> ParseTableBuilder<'a> {
         }
         shift_items.sort_unstable();
         reduce_items.sort_unstable();
+
+        let list_rule_names = |mut msg: &mut String, items: &[&ParseItem]| {
+            let mut last_rule_id = None;
+            for item in items {
+                if last_rule_id == Some(item.variable_index) {
+                    continue;
+                }
+
+                if last_rule_id.is_some() {
+                    write!(&mut msg, " and").unwrap();
+                }
+
+                last_rule_id = Some(item.variable_index);
+                write!(
+                    msg,
+                    " `{}`",
+                    self.symbol_name(&Symbol::non_terminal(item.variable_index as usize))
+                )
+                .unwrap();
+            }
+        };
+
         if actual_conflict.len() > 1 {
             if shift_items.len() > 0 {
                 resolution_count += 1;
@@ -628,17 +650,7 @@ impl<'a> ParseTableBuilder<'a> {
                     resolution_count
                 )
                 .unwrap();
-                for (i, item) in shift_items.iter().enumerate() {
-                    if i > 0 {
-                        write!(&mut msg, " and").unwrap();
-                    }
-                    write!(
-                        &mut msg,
-                        " `{}`",
-                        self.symbol_name(&Symbol::non_terminal(item.variable_index as usize))
-                    )
-                    .unwrap();
-                }
+                list_rule_names(&mut msg, &shift_items);
                 write!(&mut msg, " than in the other rules.\n").unwrap();
             }
 
@@ -658,21 +670,11 @@ impl<'a> ParseTableBuilder<'a> {
             resolution_count += 1;
             write!(
                 &mut msg,
-                "  {}:  Specify a left or right associativity in ",
+                "  {}:  Specify a left or right associativity in",
                 resolution_count
             )
             .unwrap();
-            for (i, item) in reduce_items.iter().enumerate() {
-                if i > 0 {
-                    write!(&mut msg, " and ").unwrap();
-                }
-                write!(
-                    &mut msg,
-                    "`{}`",
-                    self.symbol_name(&Symbol::non_terminal(item.variable_index as usize))
-                )
-                .unwrap();
-            }
+            list_rule_names(&mut msg, &reduce_items);
             write!(&mut msg, "\n").unwrap();
         }
 

From 9f8ffe016453446b950e3d348d3afa060c2503b1 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?Micha=C5=82=20Muska=C5=82a?= <micmus@whatsapp.com>
Date: Wed, 3 Feb 2021 17:15:42 +0000
Subject: [PATCH 26/27] Implement Clone for TreeCursor

Cloning was supported by the C library, but not exposed in Rust bindings
---
 lib/binding_rust/lib.rs | 6 ++++++
 1 file changed, 6 insertions(+)

diff --git a/lib/binding_rust/lib.rs b/lib/binding_rust/lib.rs
index 0b0097f9..1c2e79dd 100644
--- a/lib/binding_rust/lib.rs
+++ b/lib/binding_rust/lib.rs
@@ -1147,6 +1147,12 @@ impl<'a> TreeCursor<'a> {
     }
 }
 
+impl<'a> Clone for TreeCursor<'a> {
+    fn clone(&self) -> Self {
+        TreeCursor(unsafe { ffi::ts_tree_cursor_copy(&self.0) }, PhantomData)
+    }
+}
+
 impl<'a> Drop for TreeCursor<'a> {
     fn drop(&mut self) {
         unsafe { ffi::ts_tree_cursor_delete(&mut self.0) }

From f462f0d09d1880646c11cb3f9363a024576c7634 Mon Sep 17 00:00:00 2001
From: Max Brunsfeld <maxbrunsfeld@gmail.com>
Date: Fri, 5 Feb 2021 10:18:18 -0800
Subject: [PATCH 27/27] Fix small issues with new wasm bindings

---
 lib/binding_web/binding.js            |   2 +-
 lib/binding_web/test/language-test.js | 113 +++++++-------------------
 2 files changed, 31 insertions(+), 84 deletions(-)

diff --git a/lib/binding_web/binding.js b/lib/binding_web/binding.js
index b2b3c73b..3d3be350 100644
--- a/lib/binding_web/binding.js
+++ b/lib/binding_web/binding.js
@@ -652,7 +652,7 @@ class Language {
     stringToUTF8(type, typeAddress, typeLength + 1);
     const result = C._ts_language_symbol_for_name(this[0], typeAddress, typeLength, named);
     C._free(typeAddress);
-    return result;
+    return result || null;
   }
 
   get nodeTypeCount() {
diff --git a/lib/binding_web/test/language-test.js b/lib/binding_web/test/language-test.js
index 691a7ae7..385b77ed 100644
--- a/lib/binding_web/test/language-test.js
+++ b/lib/binding_web/test/language-test.js
@@ -4,94 +4,41 @@ let JavaScript;
 describe("Language", () => {
   before(async () => ({ JavaScript } = await require("./helper")));
 
-  describe(".fieldCount", () => {
-    it("returns a number", () => {
-      assert.equal(34, JavaScript.fieldCount);
+  describe(".fieldIdForName, .fieldNameForId", () => {
+    it("converts between the string and integer representations of fields", () => {
+      const nameId = JavaScript.fieldIdForName("name");
+      const bodyId = JavaScript.fieldIdForName("body");
+
+      assert.isBelow(nameId, JavaScript.fieldCount);
+      assert.isBelow(bodyId, JavaScript.fieldCount);
+      assert.equal("name", JavaScript.fieldNameForId(nameId));
+      assert.equal("body", JavaScript.fieldNameForId(bodyId));
+    });
+
+    it("handles invalid inputs", () => {
+      assert.equal(null, JavaScript.fieldIdForName("namezzz"));
+      assert.equal(null, JavaScript.fieldNameForId(-1));
+      assert.equal(null, JavaScript.fieldNameForId(10000));
     });
   });
 
-  describe(".fieldIdForName", () => {
-    it("returns null, if not defined", () => {
-      const fieldName = "nonExistentFieldName";
-      assert.equal(null, JavaScript.fieldIdForName(fieldName));
+  describe(".idForNodeType, .nodeTypeForId, .nodeTypeIsNamed", () => {
+    it("converts between the string and integer representations of a node type", () => {
+      const exportStatementId = JavaScript.idForNodeType("export_statement", true);
+      const starId = JavaScript.idForNodeType("*", false);
+
+      assert.isBelow(exportStatementId, JavaScript.nodeTypeCount);
+      assert.isBelow(starId, JavaScript.nodeTypeCount);
+      assert.equal(true, JavaScript.nodeTypeIsNamed(exportStatementId))
+      assert.equal("export_statement", JavaScript.nodeTypeForId(exportStatementId))
+      assert.equal(false, JavaScript.nodeTypeIsNamed(starId))
+      assert.equal("*", JavaScript.nodeTypeForId(starId))
     });
 
-    it("returns a number, if defined", () => {
-      const fieldName = "decorator";
-      assert.equal(12, JavaScript.fieldIdForName(fieldName));
-    });
-  });
-
-  describe(".fieldNameForId", () => {
-    it("returns null, if not defined", () => {
-      const fieldId = -1;
-      assert.equal(null, JavaScript.fieldNameForId(fieldId));
-    });
-
-    it("returns a string, if defined", () => {
-      const fieldId = 12;
-      assert.equal("decorator", JavaScript.fieldNameForId(fieldId));
-    });
-  });
-
-  describe(".idForNodeType", () => {
-    it("returns a number", () => {
-      const type = "export_statement";
-      const named = true;
-      assert.equal(125, JavaScript.idForNodeType(type, named));
-    });
-  });
-
-  describe(".nodeTypeCount", () => {
-    it("returns a number", () => {
-      assert.equal(239, JavaScript.nodeTypeCount);
-    });
-  });
-
-  describe(".nodeTypeForId", () => {
-    it("returns null, if not defined", () => {
-      const typeId = -1;
-      assert.equal(null, JavaScript.nodeTypeForId(typeId));
-    });
-
-    it("returns a string, if not defined", () => {
-      const typeId = 125;
-      assert.equal("export_statement", JavaScript.nodeTypeForId(typeId));
-    });
-  });
-
-  describe(".nodeTypeIsNamed", () => {
-    it("returns false, if node type is not named", () => {
-      const typeId = 4;
-      assert.equal("*", JavaScript.nodeTypeForId(typeId));
-      assert.equal(false, JavaScript.nodeTypeIsNamed(typeId));
-    });
-
-    it("returns true, if node type is named", () => {
-      const typeId = 125;
-      assert.equal("export_statement", JavaScript.nodeTypeForId(typeId));
-      assert.equal(true, JavaScript.nodeTypeIsNamed(typeId));
-    });
-  });
-
-  describe(".nodeTypeIsVisible", () => {
-    it("returns false, if node type is not visible", () => {
-      let typeId;
-      typeId = 100;
-      assert.equal(false, JavaScript.nodeTypeIsVisible(typeId));
-      typeId = 102;
-      assert.equal(false, JavaScript.nodeTypeIsVisible(typeId));
-    });
-
-    it("returns true, if node type is visible", () => {
-      const typeId = 101;
-      assert.equal(true, JavaScript.nodeTypeIsVisible(typeId));
-    });
-  });
-
-  describe(".version", () => {
-    it("returns a number", () => {
-      assert.equal(12, JavaScript.version);
+    it("handles invalid inputs", () => {
+      assert.equal(null, JavaScript.nodeTypeForId(-1));
+      assert.equal(null, JavaScript.nodeTypeForId(10000));
+      assert.equal(null, JavaScript.idForNodeType("export_statement", false));
     });
   });
 });