Шрифт:

Интервал:

Закладка:

Сделать

1 ... 19 20 21 22 23 24 25 26 27 ... 121

Перейти на страницу:

class="p1">#include <iostream>

#include <iterator>

#include <map>

#include <algorithm>

2. Мы будем применять множество функций из пространства имен std, поэтому объявим о его (автоматическом) использовании:

using namespace std;

3. При токенизации строк путем извлечения их содержимого, стоящего между точками, получим предложения текста, окруженные пробелами, символами перехода на новую строку и т.д. Это нежелательным образом увеличивает их размер, так что отбросим лишние символы с помощью вспомогательной функции, которую сейчас определим:

string filter_ws(const string &s)

{

const char *ws {" rnt"};

const auto a (s.find_first_not_of(ws));

const auto b (s.find_last_not_of(ws));

if (a == string::npos) {

return {};

}

return s.substr(a, b - a + 1);

}

4. Функция определения длины предложения станет принимать гигантскую строку, содержащую весь текст, и возвращать контейнер std::multimap, в котором будут соотнесены предложения и их длины:

multimap<size_t, string> get_sentence_stats(const string &content)

{

5. Начнем с объявления структуры multimap, которая станет возвращаемым значением, а также нескольких итераторов. Поскольку мы создадим цикл, нам понадобится конечный итератор. Далее воспользуемся двумя итераторами, чтобы указать на две соседние точки (знаки препинания) внутри текста. Все находящееся между ними будем считать предложением.

multimap<size_t, string> ret;

const auto end_it (end(content));

auto it1 (begin(content));

auto it2 (find(it1, end_it, '.'));

6. Итератор it2 всегда будет указывать на одну точку дальше, чем итератор it1. До тех пор, пока итератор it1 не достигнет конца текста, все будет в порядке. Второе условное выражение проверяет, действительно ли итератор it2 указывает на позицию, стоящую на несколько символов дальше. Если это не так, то у нас не осталось непрочитанных символов.

while (it1 != end_it && distance(it1, it2) > 0) {

7. Создаем строку из всех символов между итераторами, после чего удаляем лишние пробельные символы из ее начала и конца, чтобы определить точную длину предложения:

string s {filter_ws({it1, it2})};

8. Возможно, приложение не содержит ничего, кроме пробельных символов. В этом случае просто отбрасываем его. В противном случае установим его длину, определив количество слов. Это делается легко, поскольку все слова разделены одним пробелом[2]. Затем сохраняем количество слов и само предложение в контейнер multimap:

if (s.length() > 0) {

const auto words (count(begin(s), end(s), ' ') + 1);

ret.emplace(make_pair(words, move(s)));

}[3]

9. На следующей итерации цикла мы переводим ведущий итератор it2 на символ точки в следующем предложении. Догоняющий итератор it1 переводим на следующий символ относительно предыдущей позиции ведущего итератора:

it1 = next(it2, 1);[4]

it2 = find(it1, end_it, '.');

}

10. После завершения работы цикла контейнер будет содержать все предложения, объединенные в пары с количеством слов, содержащихся в них. Наконец можно вернуть полученный результат:

return ret;

}

11. Теперь воспользуемся вновь добавленной функцией. Сначала укажем std::cin не пропускать пробельные символы, поскольку нам нужны предложения с пробелами как единое целое. Чтобы считать весь файл, инициализируем std::string на основе итераторов потока ввода, которые инкапсулируют std::cin:

int main()

{

cin.unsetf(ios::skipws);

string content {istream_iterator<char>{cin}, {}};

12. Поскольку нужен полученный контейнер multimap лишь для того, чтобы вывести на экран результат, помещаем вызов функции get_sentence_stats непосредственно в цикл и передаем ему нашу строку. В теле цикла выведем элементы построчно:

for (const auto & [word_count, sentence]

: get_sentence_stats(content)) {

cout << word_count << " words: " << sentence << ".n";

}

13. После компиляции кода мы можем дать приложению команду использовать содержимое любого текстового файла. Текст-пример Lorem Ipsum даст следующий результат. Вывод на экран довольно велик для длинных текстов с большим количеством предложений: сначала выводятся самые короткие предложения, а затем — самые длинные. В результате мы сразу видим самые длинные предложения, поскольку обычно по умолчанию на экране отображается нижняя часть вывода:

$ cat lorem_ipsum.txt | ./sentence_length[5]

...

10 words: Nam quam nunc, blandit vel, luctus pulvinar,

hendrerit id, lorem.

10 words: Sed consequat, leo eget bibendum sodales,

augue velit cursus nunc,.

12 words: Cum sociis natoque penatibus et magnis dis

parturient montes, nascetur ridiculus mus.

17 words: Maecenas tempus, tellus eget condimentum rhoncus,

sem quam semper libero, sit amet adipiscing sem neque sed ipsum.

Как это работает

Весь этот пример посвящен разбиению большой строки на предложения, после чего мы определяем их длину и помещаем в контейнер multimap в упорядоченном виде. Поскольку контейнер std::multimap сам по себе прост в использовании, сложной частью программы является цикл, который проходит по всем предложениям:

const auto end_it (end(content));

auto it1 (begin(content)); // (1) Начало строки

auto it2 (find(it1, end_it, '.')); // (1) Первая точка '.'

while (it1 != end_it && std::distance(it1, it2) > 0) {

string sentence {it1, it2};

// Что-то делаем со строкой предложения...

it1 = std::next(it2, 1); // Один символ справа от текущей точки '.'

it2 = find(it1, end_it, '.'); // Следующая точка или конец строки

}

Взглянем на код, имея при этом в виду следующий рисунок, на котором приведены три предложения (рис. 2.5).

Итераторы it1 и it2 всегда перемещаются вперед по строке вместе. Таким образом, они всегда указывают на начало и конец одного и того же предложения. Алгоритм std::find заметно облегчает нам жизнь, поскольку работает по принципу «начинаем с текущей позиции, а затем возвращаем итератор, указывающий на следующий символ точки. Если такого итератора нет, то возвращаем конечный итератор».

После извлечения строки с предложением определим, сколько слов в ней содержится, а затем вставим ее в контейнер multimap. Мы используем количество слов в качестве ключа для элементов массива, а саму строку — как объект, связанный с данным ключом. Мы не можем воспользоваться контейнером std::map,

1 ... 19 20 21 22 23 24 25 26 27 ... 121

Перейти на страницу:

Наполеон, или Миф о "спасителе" - Жан Тюлар

2021
Историческая проза

Московское метро. От первых планов до великой стройки сталинизма (1897-1935) - Дитмар Нойтатц

2021
Историческая проза

Беречь речь. Забытая история русских слов и выражений - Олеся Дроздова

2021
Разная литература

Блог про жанр Мистика и Ужасы

2021
Блог

Роль насилия в истории - Фридрих Энгельс

2021
Разная литература / Политика

Комментарии

Минимальная длина комментария - 25 символов.

Комментариев еще нет. Будьте первым.

Смотрите также:

Наполеон, или Миф о &quot;спасителе&quot; - Жан Тюлар

Московское метро. От первых планов до великой стройки сталинизма (1897-1935) - Дитмар Нойтатц

Беречь речь. Забытая история русских слов и выражений - Олеся Дроздова

Блог про жанр Мистика и Ужасы

Роль насилия в истории - Фридрих Энгельс

Наполеон, или Миф о "спасителе" - Жан Тюлар